一种新的人工智能(AI)芯片将于2020年进入市场,这些芯片将针对推理进行优化,而不是针对图形、训练或DSP(数字信号处理)。事实上,根据英伟达最近的季度财报电话会议,人工智能推断市场在2019年超过了数据中心的人工智能训练支出。
 
令人惊讶的是,在过去的一年中,很少有初创公司推出新产品,考虑到有多少初创公司获得了资助,以及有多少公司已经运营了五年或更长时间。我希望今年能有所改变。以下是根据我们在市场上看到的情况和我们与客户进行的许多对话做出的五大预测。
 
1. 无意义基准上的吞吐量
 
一年前,客户询问各种batch size的TOPS和ResNet-50。今天,主要的客户已经开发了适用于他们的应用程序的模型,解决方案如何运行他们的模型对他们来说是最重要的。对他们来说最重要的是百万像素图像的吞吐量(不是没有意义的基准),更多的公司将在2020年解决这个问题。
 
2. 以最低成本获得推理吞吐量
 
在服务器市场,一些客户希望每个PCIe插槽获得更多的推理,但是扩展市场的途径将是以更低的价格交付推理吞吐量。拥有更多的top并不一定与更高的吞吐量相关;客户真正想要的是每美元的高吞吐量。举个例子,如果你将FlexLogix的InferX X1设备与市场领先的GPU设备进行比较,GPU可能会提供三到四倍的吞吐量,最多是10倍,但它也使用了8倍的dram数量。相比之下,InferX X1架构的资源效率要高得多。
 
 
3.预测精度要求每美金更高的吞吐量和更低功耗
 
应用程序迫切需要推理吞吐量,只能通过对其原生百万像素图像进行降采样和每秒只处理一小部分帧来实现。在需要5-30W芯片/模块的系统中(现在主要由Nvidia Xavier AGX提供,现在是NX),客户将希望以与他们现在使用的解决方案相同的功率和价格获得更多的吞吐量。获得更高预测精度的唯一方法是获得更高的每美元吞吐量和每瓦特吞吐量。
 
4. 为汽车选择正确的解决方案
 
汽车市场的推理将在数百万美元,但部署需要时间。汽车公司及其供应商已经为2024-25年车型选择了解决方案,并将在2020年评估2026-27年车型的替代方案。一年前,所有的汽车公司/供应商都计划使用自己的芯片,但几乎所有公司都放弃了这些计划,转而使用商用市场解决方案。
 
5. 使用BF16的解决方案将具有优势
 
INT8是最高的每美元吞吐量和每瓦特吞吐量,但获胜的解决方案将需要有一个BF16选项,因为它允许客户快速批量生产。对于许多客户来说,量化的成本和复杂性可能永远都不经济。