TensorRT 8.0发布,推理延迟仅有1毫秒,相较7.0版本的运行速度足足快了一倍

2021-07-21 15:28:10 /

字体大小:【 | |

据悉,NVIDIA于近期发布了拥有能够提升GPU推理延迟表现的TensorRT全新8.0版本。开发者可以将其他框架好的模型转化成TensorRT格式,然后通过这个推理引擎提升模型的运行速度。

据英伟达 AI 软件部的产品管理总监 Kari Briski称,这个新版本的运行速度和精准度会比7.0版本更快更高效,并且在TensorRT 8中还存在两项较为关键的特性,就是它们的窜在提升了其AI推理的性能。

它们分别是稀疏性技术和量化感知训练,接下来就为不了解的朋友简单的说明一下。

首先我们来看看两个特性的其中一个——量化感知训练,开发者能够利用训练好的模型,以INT8精度进行推理,保证精度的同时,减少了计算和存储的成本。简单的说就是更加的省时省钱了!

其次就是关于稀疏性技术,它的存在提升了英伟达Ampere架构GPU的性能,保持推理精度的同时,能够降低模型中的部分权重。换句话来说,就是模型所需的带宽和内存比以往来的更小。

除了在运行速度和精准度有了整整一倍的提高以外,还再7分钟即可完成CPU近24小时工作,看到这里是不是觉得这玩意儿超厉害的,确实在之后的CPU运行对比上发现它有着倍速提升英伟达GPU推理表现的能力。

这些是你想要的吗?

网友评论