NVIDIA的DLA硬件是专门用于深度学习操作的固定功能加速器引擎。它旨在对卷积神经网络进行全硬件加速,支持各种层,如卷积、反卷积、全连接、激活、池化、批量归一化等。NVIDIA的Jetson Orin SoC最多支持2个第二代DLA(第二代DLA在功耗效率方面表现最佳),而Xavier SoC最多支持2个第一代DLA。
DLA软件包括DLA编译器和DLA运行时堆栈。离线编译器将神经网络图转化为DLA可加载的二进制文件,并可通过NVIDIA TensorRT™、NvMedia-DLA或cuDLA来调用。运行时堆栈由DLA固件、内核模式驱动程序和用户模式驱动程序组成。
为什么在Orin上使用DLA是必要的?
DLA的峰值性能对Orin的总深度学习(DL)性能贡献在38%至74%之间
DLA平均比GPU功耗效率高3倍至5倍(取决于电源模式和工作负载),下表显示了在JetPack 5.1.1下,根据不同的电源模式,基于Jetson AGX Orin 64GB的DLA相对于GPU的性能与功耗比率(仅考虑加速器的功耗,性能指标为每秒处理的图像数)。
注意:
Jetson AGX Orin 64GB在30W和50W功率模式下的DLA TOPs与用于汽车领域的DRIVE Orin平台的最大时钟频率相当。
Jetson Orin NX 16GB的最大DLA TOPs与Jetson AGX Orin 64GB的15W功率模式相当。
在Jetson Orin上使用DLA是必要的,因为DLA可以提供更高的性能和更低的功耗。DLA是专门用于深度学习操作的硬件加速器引擎,可以对卷积神经网络进行全硬件加速,支持各种层,如卷积、反卷积、全连接、激活、池化、批量归一化等。在Orin上使用DLA可以大大提高深度学习应用的性能,同时降低功耗,使得深度学习应用更加高效和可靠。