全球AI芯片技术选型

算力作为承载人工智能应用的平台和基础，其发展推动了整个人工智能系统的进步和快速演进，是人工智能最核心的要素之一。以人工智能应用为主要任务的，面向智能计算的处理器的相关设计方法与技术已成为国内外工业界和学术界共同角逐的热点，国内外企业纷纷布局AI 芯片。

AI 芯片的应用场景不再局限于云端，部署于智能手机、安防摄像头、及自动驾驶汽车等终端的各项产品日趋丰富。除了追求性能提升外，AI 芯片也逐渐专注于特殊场景的优化。文章参考自中国人工智能产业发展联盟，主要内容：

第一部分：云端训练芯片第二部分：云端推理芯片第三部分：边缘计算芯片第四部分：终端计算芯片
随着人工智能理论和技术的日益成熟，目前已广泛应用于计算机科学、金融贸易、医药、诊断、运输、远程通讯、在线和电话服务、法律、科学发现等诸多方面。

算力作为承载人工智能应用的平台和基础，其发展推动了整个人工智能系统的进步和快速演进，是人工智能最核心的要素之一。以人工智能应用为主要任务的，面向智能计算的处理器的相关设计方法与技术已成为国内外工业界和学术界共同角逐的热点，国内外企业纷纷布局AI 芯片。
AI 芯片的应用场景不再局限于云端，部署于智能手机、安防摄像头、及自动驾驶汽车等终端的各项产品日趋丰富。除了追求性能提升外，AI 芯片也逐渐专注于特殊场景的优化。

中国人工智能产业发展联盟（AIIA）计算架构与芯片推进组启动全球企业“AI 芯片技术选型目录”工作，内容包含AI 芯片产品技术指标、应用案例、产品特征和产品信息、上市时间、深度学习、计算能力及工艺等。

一、云端训练芯片

1、百度昆仑1芯片

百度昆仑1 芯片面向AI 通用计算，基于百度XPU 架构，既可以用于训练，也可以用于推理，能全面支持语音，图像，自然语言处理等应用。

百度昆仑1 芯片基于百度XPU 架构，采用三星14nm 工艺，HBM2 和PCIE4.0 等技术，给用户提供高性能、高带宽、低功耗、高灵活性、高度可编程等优势，技术指标如下：1．高性能，峰值256Tops；2．高带宽，片外内存带宽512GB/s；3．高度可编程性，能提供C/C++ 的编程，用户可以自由开发自己的算子。

2、邃思通用人工智能训练芯片

邃思芯片集成神经元处理器架构和数据处理引擎，通过可编程的通用张量/ 向量运算核心，支持各类数据精度的主流深度学习训练负载。

邃思芯片采用12nm FinFET 工艺，2.5D 封装，总计141 亿个晶体管。其宣称单芯片提供20TFLOPS@FP32 及80TFLOPS@BF16/FP16的算力，最大功耗190W。

邃思芯片主要技术特点包括：
■自主指令集的神经元处理器（SIP），可编程的通用张量/ 向量运算核心，支持张量/ 向量/标量计算；■神经元处理集群（SIC），由8 个神经元处理器构成，4MB 共享集群缓存；■自主研发2.5D 封装，集成16GB HBM存储，提供512GB/s 带宽；■自主ESL（燧原智能互联，Enflame Smart Link）片间互联引擎，每通道双向50GB/s，4 通道总共200GB/s 接口带宽，通道延时小于1μs；■系统稳定性控制，支持服务器级别RAS需求（Reliability, Availability and Serviceability，RAS）。■支持CNN、RNN、LSTM、BERT 等网络模型■支持数据类型：FP32、FP16、BF16、INT8、INT16、INT32 等

3、NVIDIA A100/V100/T4 GPU

NVIDIA Ampere GPU为数据中心GPU，可加快AI、高性能计算(HPC) 和图形技术的发展。

架构配备540 亿个晶体管，为7 纳米芯片架构，集训练和推理于一身，具有多实例GPU、TF32、结构化稀疏等特性。

NVIDIA Volta GPU 架构配备 640 个Tensor 内核，可提供每秒超过 100 万亿次(TFLOPS) 的深度学习性能，是上一代 NVIDIAPascal 架构的 5 倍以上。NVIDIA Turing GPU 架构支持实时光线追踪、AI、模拟和光栅化技术。

利用NVIDIA A100/V100/T4 GPU 可以更快速地处理要求最严格的高性能计算 (HPC) 和超大规模数据中心工作负载。现在，数据科学家和研究人员可以在能源勘探和深度学习等应用场合中解析 PB 级的数据，速度比使用传统 CPU 快几个数量级。NVIDIA A100/V100/T4 加速器可以超快速度运行更大型的模拟。此外， NVIDIA GPU 还能为虚拟桌面、应用程序和工作站提供超高性能和用户密度。
NVIDIA A100 采用了NVIDIA Ampere 架构的突破性设计，集AI 训练和推理于一身，宣称其性能相比于前代产品提升了20 倍。作为一款通用型工作负载加速器，A100 还被设计用于数据分析、科学计算和云图形。
NVIDIA V100 运用 NVIDIA Volta 架构，拥有 640 个 Tensor 内核，是世界上第一个突破 100 万亿次 (TFLOPS) 深度学习性能障碍的GPU。

NVIDIA T4 GPU 推理加速器搭载 NVIDIA Turing Tensor Core，提供多精度推理性能，以加速人工智能的各种应用。

二、云端推理芯片

1、赛灵思Alveo

赛灵思 Alveo数据中心加速器卡专为现代数据中心多样的应用需求而设计。赛灵思推出的Vitis 统一软件平台为各类软件和AI 推理应用开发提供统一编程模型，实现从C/C++、Python、Caffe、Tensorflow 到差异化应用落地的开发过程。

赛灵思Alveo 数据中心加速器卡基于Xilinx16nm UltraScale 架构，使用赛灵思堆叠硅片互联(SSI) 技术来实现FPGA 容量、带宽和功耗效率，通过结合多个超逻辑区域(SLR) 来增大密度。Alveo 加速卡旨在加速服务器或工作站中的机器学习、数据分析和视频处理等计算密集型应用。

AlveoU50 卡采用 XCU50 FPGA 包括 2个 SLR，配备PCIe Gen4 和 8G HBM2，每秒100G 网络连接，以高效能 75 瓦、小尺寸形式为金融计算、机器学习、计算存储以及数据搜索与分析工作负载提供优化加速。

Alveo U200 卡采用XCU200 FPGA 包括 3个 SLR，Alveo U250 卡使用XCU250 FPGA 包括 4 个 SLR。二者均可连接到PCI Express 的16 个通道，最高运行速度8GT/s(Gen3)，也可以连接到 4 根 DDR4 16 GB 2400 MT/s 64 位含纠错码 (ECC) 的 DIMM，总计64 GB 的DDR4。

ALveo U280 加速卡采用XCU280 包括三个SLR，底部 SLR (SLR0) 集成一个 HBM 控制器，与相邻的 8 GB HBM2 内存接口连接。底部 SLR还连接到 PCI Express 的 16 个通道，这些通道可以最高 16 GT/s (Gen4) 的速度运行。SLR0和 SLR1 都连接到 DDR4 16 GB 2400 MT/s 64位含纠错码 (ECC) 的 DIMM，总计 32 GB 的DDR4。

Alveo U280 数据中心加速器卡专为计算和存储工作负载而设计，拥有 8GB HBM2 + 32GBDDR4 内存、1.1M LUT、8.5k DSP 片、每秒100G 双网络连接，并支持第四代 PCIe 和 CCIX 互联标准。

2、寒武纪思元100/270

思元100为云端推理提供运算能力支撑。INT8 算力32TOPS, 内置硬件编解码引擎，应用于计算机视觉、语音识别、自然语言处理。

1．通用智能，支持计算机视觉、语音识别、自然语言处理等多模态智能处理；

2．针对深度学习定制的指令集和处理器架构，具有更优的能效比；

3．完善软件开发环境NeuWare，包括应用开发、功能调试、性能调优等。

思元270为高能效比AI 推理设计的数据中心级PCIe智能加速卡。支持多种精度，比上一代加速芯片计算能力提高4 倍，INT8 算力128TOPS。

广泛支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用，帮助AI推理平台实现高能效比。

1．支持INT16、INT8、INT4、FP32、FP16 多种精度；

2．内置视频和图片编解码器，有效降低CPU 前处理负载和PCIe 带宽占用；

3．计算弹性，支持多类神经网络，寒武纪Neuware 软件栈部署推理环境；

4．可编程，基于Bang 语言编程环境可对计算资源定制，满足多样化需求。

3、比特大陆算丰TPU芯片BM1684

BM1684 是比特大陆面向深度学习领域自主研发的第三代张量处理器（TPU），是聚焦视频图像分析的云端及边缘的人工智能推理芯片。

1. 芯片：BM1684 聚焦视频图像分析，是云端及边缘的人工智能推理芯片；

2. AI 算力：17.6TOPS INT8，Winograd 卷积加速下最高可达35.2TOPS，实测推理性能较上一代提升约5 倍以上；

3. AI 架构：本芯片基于自主研发的TPU 架构；

4. 典型功耗：16W；

5. 视频解码：支持H264/H265 解码，最大分辨率8192x8192，支持4K/8K。H264 和H265 解码都支持32 路高清30FPS @1080P，可处理数十路视频智能分析全流程；

6. 图像解码：支持JPEG 解码和编码，均可支持480 张/秒@1080P；

7. CPU：八核A53，主频2.3GHz；

8. 内存：LPDDR4X，带宽68.3GB/s；

9. AI 框架支持：Caffe, Tensorflow, PyTorch，MXNet，PaddlePaddle 飞桨等；

BM1684 芯片技术特点是：

1）TPU 芯片架构自主研发，相关专利申请达到270 项以上；

2）性能功耗比高，在16W 情况下，最高可达到35.2T 性能（Winograd 加速）；

3）视频解码路数多，支持32 路H264和H265 高清30FPS @1080P 硬解码；

4）视频全流程处理能力强，可达到16~32 路典型视频结构化/ 人脸分析路数；

5）AI 工具链完备，Caffe, Tensorflow、PyTorch，MXNet，PaddlePaddle 都支持；

6）部署场景灵活，云端和边缘均可部署；

7）使用灵活，可工作于PCIE 从设备模式或者SOC 主设备模式；

4、星空X3加速卡

星空X3加速卡为鲲云推出的面向边缘端和数据中心进行深度学习推断的AI 计算加速卡，搭载鲲云自研的定制数据流CAISA 芯片，采用无指令集的架构方式，为支持深度学习的边缘和数据中心服务器提供计算加速方案。

1．支持 ResNet、VGG、YOLO 等多个主流CNN 算法模型

2. 提供RainBuilder 编译工具链，支持端到端算法开发和部署

3. 支持 TensorFlow、Caffe 、PyTorch 及ONNX (MXNet) 等主流深度学习框架开发的算法模型

4. 其宣称芯片利用率可达95.4%

鲲云与合作方通过研究适用于电力无人机巡检的目标检测深度学习算法，实现基于人工智能技术的电力无人机智能巡检、数据采集，并在服务器端进行高质量的图片数据分析，提高巡检效率，降低巡检工作量。

1 其宣称芯片利用率可达95.4%；

2 时延：3ms 分类延时；

3 支持分类、目标检测以及语义分割类深度学习算法；

4 Batch size 不敏感；

5 温度范围：-20℃ ~70℃

6 实测Benchmark：

5、昇腾310AI 处理器

昇腾AI 处理器的主要架构组成：

■ 芯片系统控制CPU（Control CPU）

■ AI 计算引擎（包括AI Core 和AI CPU）

■ 多层级的片上系统缓存（Cache）或缓冲区（Buffer）

■ 数字视觉预处理模块（Digital Vision Pre-Processing，DVPP）等

华为针对其昇腾AI 芯片的计算架构专门构建了完整的软件栈，兼容各个深度学习框架并能够高效运行在昇腾AI 芯片上，让开发者能够快速开发推理应用，为开发者提供便利的解决方案。当前主流的深度学习应用，包括图像分类、人脸识别、目标检测、光学字符识别、视频处理和自然语言处理领域的各个模型，均可以在昇腾310 处理器上得到很好的技术支持。

达芬奇架构主要由计算单元、存储系统和控制单元三部分构成。其中计算单元又分为：矩阵计算单元、向量计算单元、标量计算单元，分别对应矩阵、向量和标量三种常见的计算模式。

■ 矩阵计算单元（Cube Unit）：

矩阵计算单元和累加器主要完成矩阵相关运算。一拍完成一个FP16 的 16x16 与16x16 矩阵乘（4096）；如果是INT8 输入，则一拍完成16*32 与 32*16 矩阵乘（8192）；

■ 向量计算单元（Vector Unit）：

实现向量和标量，或双向量之间的计算，功能覆盖各种基本的计算类型和许多定制的计算类型，主要包括FP16/FP32/INT32/INT8 等数据类型的计算；

■ 标量计算单元（Scalar Unit）：

相当于一个微型CPU，控制整个AI Core 的运行，完成整个程序的循环控制、分支判断，可以为Cube/Vector提供数据地址和相关参数的计算，以及基本的算术运算。

数据中心云端训练、云端推理芯片总结：

下载链接：https://t.zsxq.com/JAuVvf6

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

更多相关文章

随机推荐