TensorRT 8.0发布,推理延迟仅有1毫秒,相较7.0版本的运行速度足足快了一倍

2021-07-21 15:28:10 /

字体大小：【小 | 中 | 大】

据悉，NVIDIA于近期发布了拥有能够提升GPU推理延迟表现的TensorRT全新8.0版本。开发者可以将其他框架好的模型转化成TensorRT格式，然后通过这个推理引擎提升模型的运行速度。

据英伟达 AI 软件部的产品管理总监 Kari Briski称，这个新版本的运行速度和精准度会比7.0版本更快更高效，并且在TensorRT 8中还存在两项较为关键的特性，就是它们的窜在提升了其AI推理的性能。

它们分别是稀疏性技术和量化感知训练，接下来就为不了解的朋友简单的说明一下。

首先我们来看看两个特性的其中一个——量化感知训练，开发者能够利用训练好的模型，以INT8精度进行推理，保证精度的同时，减少了计算和存储的成本。简单的说就是更加的省时省钱了!

其次就是关于稀疏性技术，它的存在提升了英伟达Ampere架构GPU的性能，保持推理精度的同时，能够降低模型中的部分权重。换句话来说，就是模型所需的带宽和内存比以往来的更小。

除了在运行速度和精准度有了整整一倍的提高以外，还再7分钟即可完成CPU近24小时工作，看到这里是不是觉得这玩意儿超厉害的，确实在之后的CPU运行对比上发现它有着倍速提升英伟达GPU推理表现的能力。

这些是你想要的吗？

推荐阅读阅读排行

推荐下载下载排行