一篇文章为您解答关于NVIDIADLA的基本问题
NVIDIA的DLA硬件是专为深度学习操作而设计的固定功能加速引擎。它旨在对卷积神经网络进行全硬件加速,支持各种层,如卷积、反卷积、全连接、激活、池化、批量归一化等。NVIDIA的JetsonOrinSoC最多支持2个第二代DLA(第二代DLA在功耗效率方面表现最佳),而XavierSoC最多支持2个第一代DLA。
DLA软件包括DLA编译器和DLA运行时堆栈。离线编译器能够将神经网络图转换成DLA可加载的二进制文件,用户可以通过NVIDIATensorRT™、NvMedia-DLA或cuDLA进行调用。运行时堆栈由DLA固件、内核模式驱动程序和用户模式驱动程序组成。
更多详细信息,请参考DLA产品页面(https://developer.nvidia.com/deep-learning-accelerator)。
为什么在Orin上使用DLA是必要的?
根据下表中的电源模式,DLA的峰值性能对Orin的总深度学习(DL)性能贡献在38%至74%之间。
在JetPack5.1.1下,根据不同电源模式和工作负载的情况,DLA相对于GPU的功耗效率平均高出3倍至5倍。下表展示了基于JetsonAGXOrin64GB的DLA与GPU在加速器功耗以及每秒处理的图像数方面的性能与功耗比率。
注意:
JetsonAGXOrin64GB在30W和50W功率模式下的DLATOPs与DRIVEOrin平台用于汽车领域的最大时钟频率相当。
JetsonOrinNX16GB的最大DLATOPs与JetsonAGXOrin64GB在15W功率模式下具有相同的性能。