芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解

shuizhonghua · 发表于 12-5-2024 07:45:46

自动驾驶与智能座舱芯片一体化趋势明显，自动驾驶芯片具有高算力发展趋势，向先进制程延伸。三种主流 AI 芯片中 GPU、FPGA 均是前期较为成熟的芯片架构，属于通用型芯片， ASIC 属于为 AI 特定场景定制的芯片。

目录

1 自动驾驶芯片概况

2 自动驾驶芯片架构分析

2.1 GPU 方案：GPU 与 CPU 的架构对比

2.2 FPGA 方案：FPGA 芯片定义及结构

2.3 ASIC 方案：ASIC 定义及特点

2.4 三种主流架构方案对比

2.5 唯算力论的局限：TOPS 算力不完全等于实际性能

3 自动驾驶芯片部分重点企业分析

3.1 英伟达：从游戏显卡到自动驾驶芯片

3.2 Mobileye：EyeQ 系列发展历程

3.3 特斯拉：自动驾驶芯片发展之路

3.4 地平线：车规级芯片发展历程

3.5 华为：MDC 智能驾驶计算平台

3.6 芯擎科技：龍鷹一号芯片发展之路

PART.01自动驾驶芯片概况

芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w4.jpg

芯片按应用场景可分为消费芯片、工业芯片、汽车芯片和军工芯片等。汽车是芯片应用场景之一，汽车芯片需要具备车规级。车规级芯片对加工工艺要求不高，但对质量要求高。需要经过的认证过程，包括质量管理标准 ISO/TS 16949、可靠性标准 AEC-Q100、功能安全标准 ISO26262 等。汽车内不同用途的芯片要求也不同，美国制定的汽车电子标准把其分为 5 级。汽车各系统对芯片要求由高到低依次是：动力安全系统 > 车身控制系统 > 行驶控制系统 > 通信系统 > 娱乐系统。车规级芯片特殊的技术和工艺要求挡住了企业进入的脚步。车规级芯片有着比消费级芯片更高的技术门槛，需满足温度、振动、电磁干扰、长使用寿命等高要求，还要通过可靠性标准 AEC-Q100、质量管理标准 ISO/TS16949、功能安全标准 ISO26262 等严苛的认证流程，大部分芯片企业尚不具备转型进入能力。目前，车规级芯片在传统汽车中的成本约为 2270 元 / 车，在新能源汽车中的成本约为 4540 元 / 车。随着汽车向电动化和智能化发展，芯片的种类、数量和价格占比将进一步提高。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w5.jpg

不同等级芯片技术要求
AEC-Q100 关键测试类别包括：

AEC 的系列文件正是希望通过消除制造商和采购商之间的误解，促进信息互换，改进产品，协助采购商在最短的时间内挑选合适的产品。AEC-Q100 自首次亮相以来经历了多次修订。每次修订都与汽车行业的发展有关， AEC 的政策也会同步更新。在众多的 AEC 质量认证标准中， AEC - Q102 是针对分立光电半导体在汽车应用中，基于失效机制的压力测试认证。这些测试主要测量光电元件的强度、安全性、可靠性和整体可行性。每个测试都有失败标准和验收标准。以激光组件为例，包括单一纯激光芯片，及激光芯片、光学元件和其他转换器的封装组合。车规级芯片分为控制芯片、微处理器芯片、存储芯片、模拟芯片及功率器件等。一体化：云和边缘计算的数据中心，以及自动驾驶等超级终端领域，都是典型的复杂计算场景，这类场景的计算平台都是典型的大算力芯片。大芯片的发展趋势已经越来越明显的从 GPU、DSA 的分离趋势走向 DPU、超级终端的再融合，未来会进一步融合成超异构计算宏系统芯片。BOSCH 给出了汽车电气架构演进示意图。从模块级的 ECU 到集中相关功能的域控制器，再到完全集中的车载计算机。每个阶段还分了两个子阶段，例如完全集中的车载计算机还包括了本地计算和云端协同两种方式。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w6.jpg

汽车电气架构特征向先进制程延伸：高端自动驾驶芯片向先进制程延申：用于 L1 - L2 自动驾驶的芯片只需要 28nm 制程即可制造，L3 及以上的高阶自动驾驶对算力的要求越发苛刻，规划中针对 L4 / L5 自动驾驶的 SoC 芯片普遍需要 7nm，甚至 5nm 的先进制程。先进的制程可以影响功耗，先进的制程又可以影响集成度；而功耗则影响可靠性，集成度影响性能。目前的 5nm 制程芯片尚处于研发或发布状态，均未进入量产阶段；不过 7nm 芯片中，已有 Orin、FSD、EyeQ5、8155 等芯片实现量产，其他芯片则在未来几年陆续实现量产，这预示着先进制程车用芯片开始进入量产加速期。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w7.jpg

主流公司自动驾驶芯片制程对比高算力：自动驾驶时代算力不足问题逐步显现。一方面，各大车厂正在全力备战高级自动驾驶的量产，多传感器融合已经成为高阶自动驾驶应对复杂场景与安全冗余的必然趋势。处理这些数据需要非常强大的计算能力，L2 级自动驾驶的算力要求大概是 10+TOPS，但是到了 L4 / L5 级自动驾驶算力则需要达到 1000+TOPS，同比翻了 100 倍。另一方面，包括安波福、博世等 Tier1 巨头，以及大众、宝马等车企开始探索新型的电子电气架构，传统分布式的汽车电子电气架构正在向域集中式架构演进，从而带动了高性能大算力芯片的需求急剧上涨。现阶段，汽车产业在芯片厂家的推动下进入了算力比拼时代。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w8.jpg

各自动驾驶等级对算力需求

PART.02自动驾驶芯片架构分析
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w9.jpg

当前主流的 AI 芯片主要分为三类，GPU、FPGA、ASIC。GPU、FPGA 均是前期较为成熟的芯片架构，属于通用型芯片。ASIC 属于为 AI 特定场景定制的芯片。行业内已经确认 CPU 不适用于 AI 计算，但是在 AI 应用领域也是必不可少。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w10.jpg

自动驾驶芯片不同架构特点2.1GPU 方案：GPU 与 CPU 的架构对比CPU 遵循的是冯·诺依曼架构，其核心是存储程序/数据、串行顺序执行。因此 CPU 的架构中需要大量的空间去放置存储单元（Cache）和控制单元（Control），相比之下计算单元（ALU）只占据了很小的一部分，所以 CPU 在进行大规模并行计算方面受到限制，相对而言更擅长于处理逻辑控制。GPU（GraphicsProcessing Unit），即图形处理器，是一种由大量运算单元组成的大规模并行计算架构，早先由 CPU 中分出来专门用于处理图像并行计算数据，专为同时处理多重并行计算任务而设计。GPU 中也包含基本的计算单元、控制单元和存储单元，但 GPU 的架构与 CPU 有很大不同，其架构图如下所示。与 CPU 相比，CPU 芯片空间的不到 20% 是 ALU，而 GPU 芯片空间的 80% 以上是 ALU。即 GPU 拥有更多的 ALU 用于数据并行处理。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w11.jpg

2.1.1 GPU 与 CPU 区别CPU 由专为顺序串行处理而优化的几个核心组成，而 GPU 则拥有一个由数以千计的更小、更高效的核心组成的大规模并行计算架构，这些更小的核心专为同时处理多重任务而设计。CPU 和 GPU 之所以大不相同，是由于其设计目标的不同，它们分别针对了两种不同的应用场景。CPU 需要很强的通用性来处理各种不同的数据类型，同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得 CPU 的内部结构异常复杂。而 GPU 面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w12.jpg

2.1.2 GPU 加速技术简述对于深度学习来说，目前硬件加速主要靠使用图形处理单元。相比传统的 CPU，GPU 的核心计算能力要多出几个数量级，也更容易进行并行计算。GPU 的众核体系结构包含几千个流处理器，可将运算并行化执行，大幅缩短模型的运算时间。随着 NVIDIA、AMD 等公司不断推进其 GPU 的大规模并行架构支持，面向通用计算的 GPU 已成为加速并行应用程序的重要手段。目前 GPU 已经发展到了较为成熟的阶段。利用 GPU 来训练深度神经网络，可以充分发挥其数以千计计算核心的高效并行计算能力，在使用海量训练数据的场景下，所耗费的时间大幅缩短，占用的服务器也更少。如果针对适当的深度神经网络进行合理优化，一块 GPU 卡可相当于数十甚至上百台 CPU 服务器的计算能力，因此 GPU 已经成为业界在深度学习模型训练方面的首选解决方案。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w13.jpg

当训练的模型规模比较大时，可以通过数据并行的方法来加速模型的训练，数据并行可以对训练数据做切分，同时采用多个模型实例对多个分块的数据同时进行训练。在数据并行的实现中，由于是采用同样的模型、不同的数据进行训练，影响模型性能的瓶颈在于多 CPU 或多 GPU 间的参数交换。根据参数更新公式，需要将所有模型计算出的梯度提交到参数服务器并更新到相应参数上，所以数据片的划分以及与参数服务器的带宽可能会成为限制数据并行效率的瓶颈。除了数据并行，还可以采用模型并行的方式来加速模型的训练。模型并行是指将大的模型拆分成几个分片，由若干个训练单元分别持有，各个训练单元相互协作共同完成大模型的训练。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w14.jpg

GPU 加速计算是指同时利用图形处理器 (GPU) 和 CPU，加快科学、分析、工程、消费和企业应用程序的运行速度。GPU 加速器于 2007 年由 NVIDIA 率先推出，现已在世界各地为政府实验室、高校、公司以及中小型企业的高能效数据中心提供支持。GPU 能够使从汽车、手机和平板电脑到无人机和机器人等平台的应用程序加速运行。GPU 加速计算可以提供非凡的应用程序性能，能将应用程序计算密集部分的工作负载转移到 GPU，同时仍由 CPU 运行其余程序代码。从用户的角度来看，应用程序的运行速度明显加快。GPU当前只是单纯的并行矩阵的乘法和加法运算，对于神经网络模型的构建和数据流的传递还是在 CPU 上进行。CPU 与 GPU 的交互流程：获取GPU信息，配置 GPU id、加载神经元参数到 GPU、GPU 加速神经网络计算、接收 GPU 计算结果。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w15.jpg

自动驾驶技术中最重要的技术范畴之一是深度学习，基于深度学习架构的人工智能如今已被广泛应用于计算机视觉、自然语言处理、传感器融合、目标识别、自动驾驶等汽车行业的各个领域，从自动驾驶初创企业、互联网公司到各大 OEM 厂商，都正在积极探索通过利用 GPU 构建神经网络实现最终的自动驾驶。GPU 加速计算诞生后，它为企业数据提供了多核并行计算架构，支撑了以往 CPU 架构无法处理的数据源。根据对比，为了完成相同的深度学习训练任务，使用 GPU 计算集群所需要的成本只是 CPU 计算集群的 200 分之一。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w16.jpg

2.1.3 GPU 是自动驾驶与深度学习的关键无论是让汽车实时感知周边实时环境，还是迅速规划行车路线和动作，这些都需要依赖汽车大脑快速的响应，因此对计算机硬件厂商提出了巨大挑战，自动驾驶的过程中时刻需要深度学习或者人工智能算法应对无限可能的状况，而人工智能、深度学习和无人驾驶的蓬勃发展，带来了 GPU 计算发展的黄金时代。GPU 的另一个重要参数是浮点计算能力。浮点计数是利用浮动小数点的方式使用不同长度的二进制来表示一个数字，与之对应的是定点数。在自动驾驶算法迭代时对精度要求较高，需要浮点运算支持。2.2FPGA 方案：FPGA 芯片定义及结构FPGA（Field-Programmable Gate Array），即现场可编程门阵列，它是在 PAL、GAL、CPLD 等可编程器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。FPGA 芯片主要由 6 部分完成，分别为：可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入块式 RAM、丰富的布线资源、内嵌的底层功能单元和内嵌专用硬件模块。目前主流的 FPGA 仍是基于查找表技术的，已经远远超出了先前版本的基本性能，并且整合了常用功能（如 RAM、时钟管理和DSP）的硬核（ASIC 型）模块。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w17.jpg

2.2.1 FPGA 工作原理由于 FPGA 需要被反复烧写，它实现组合逻辑的基本结构不可能像 ASIC 那样通过固定的与非门来完成，而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求，目前主流 FPGA 都采用了基于 SRAM 工艺的查找表结构，也有一些军品和宇航级 FPGA 采用 Flash 或者熔丝与反熔丝工艺的查找表结构。通过烧写文件改变查找表内容的方法来实现对 FPGA 的重复配置。查找表（Look-Up-Table）简称为 LUT，LUT 本质上就是一个 RAM。目前 FPGA 中多使用 4 输入的 LUT，所以每一个 LUT 可以看成一个有 4 位地址线的 RAM。当用户通过原理图或 HDL 语言描述了一个逻辑电路以后，PLD / FPGA 开发软件会自动计算逻辑电路的所有可能结果，并把真值表（即结果）事先写入 RAM，这样，每输入一个信号进行逻辑运算就等于输入一个地址进行查表，找出地址对应的内容，然后输出即可。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w18.jpg

可编程输入/输出单元简称 I / O 单元，是芯片与外界电路的接口部分，完成不同电气特性下对输入/输出信号的驱动与匹配要求。FPGA 内的 I / O 按组分类，每组都能够独立地支持不同的 I / O 标准。通过软件的灵活配置，可适配不同的电气标准与 I / O 物理特性，可以调整驱动电流的大小，可以改变上、下拉电阻。目前，I / O 口的频率也越来越高，一些高端的 FPGA 通过 DDR 寄存器技术可以支持高达 2Gbps 的数据速率。CLB 是 FPGA 内的基本逻辑单元。CLB 的实际数量和特性会依器件的不同而不同，但是每个 CLB 都包含一个可配置开关矩阵，此矩阵由 4 或 6 个输入、一些选型电路（多路复用器等）和触发器组成。开关矩阵是高度灵活的，可以对其进行配置以便处理组合逻辑、移位寄存器或 RAM。在 Xilinx 公司的 FPGA 器件中，CLB 由多个（一般为 4 个或 2 个）相同的 Slice 和附加逻辑构成。每个 CLB 模块不仅可以用于实现组合逻辑、时序逻辑，还可以配置为分布式 RAM 和分布式 ROM。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w19.jpg

2.2.2 自动驾驶的“芯”杀手自动驾驶和高级驾驶辅助系统（ADAS）细分市场正在经历蜕变，对计算和传感器功能提出了新的复杂需求。FPGA 拥有其他芯片解决方案无法比拟的独特优势，是满足自动驾驶行业不断发展变化的优良选择。FPGA 是芯片领域的一种特殊技术，一方面能够通过软件工具进行反复多次配置，另一方面拥有丰富的 IO 接口和计算单元。因此，FPGA 能够根据应用场景的具体需求，同时处理流水线并行和数据并行，天生具有计算性能高、延迟低、功耗小等优势。FPGA 具备高吞吐量、高能效以及实时处理等多项优点，非常契合自动驾驶所需要的技术需求。高级辅助驾驶系统（ADAS）、车载体验（IVE）应用的标准和要求正在快速演变，系统设计人员关注的问题主要包括出色的灵活性和更快的开发周期，同时维持更高的性能功耗比。通过可重新编程的 FPGA 和不断增多的汽车级产品相结合，支持汽车设计师满足设计要求，在不断变化的汽车行业中始终保持领先。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w20.jpg

2.2.3 适应性更强的平台对于自动驾驶芯片来说真正的价值在于计算引擎的利用率，即理论性能和实际性能之间的差异。FPGA 包含大量的路由链路以及大量的小型存储。这些资源的组合使设计人员能够为其计算引擎创建定制的数据馈送网络，以获得更高的利用水平。可编程逻辑为客户提供了高度的灵活性，以适应 ADAS 和自动驾驶等新兴应用领域不断变化的需求。利用改进的接口标准、算法创新和新的传感器技术，都需要适应性强的平台，不仅可以支持软件更改，还可以支持硬件更改，而这正是 FPGA 芯片的优势所在。FPGA 芯片拥有可扩展性。可拓展的芯片改变了可编程逻辑的数量，大多采用引脚兼容的封装。这意味着开发人员可以创建单个 ECU 平台来承载低、中、高版本的 ADAS 功能包，并根据需要通过选择所需的最小密度芯片来缩放成本。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w21.jpg

2.2.4 差异化解决方案FPGA 芯片允许开发人员创建独特的差异化处理解决方案，这些解决方案可以针对特定应用或传感器进行优化。这对于 ASSP 芯片来说是无法实现的，即使是那些提供专用加速器的芯片，它们的使用方式也受到限制，而且基本上可以提供给所有竞争对手。例如 Xilinx 的长期客户已经创建了只有他们可以访问的高价值 IP 库，并且这些功能可以被公司的各种产品使用。从 90 nm 节点开始，对于大批量汽车应用，Xilinx 的芯片就已经极具成本效益，有超过 1.6 亿颗 Xilinx 芯片在该行业获得应用。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w22.jpg

2.3ASIC 方案：ASIC 定义及特点ASIC 芯片可根据终端功能不同分为 TPU 芯片、DPU 芯片和 NPU 芯片等。其中，TPU 为张量处理器，专用于机器学习。如 Google 于 2016 年 5 月研发针对 Tensorflow 平台的可编程 AI 加速器，其内部指令集在 Tensorflow 程序变化或更新算法时可运行。DPU 即 Data Processing Unit，可为数据中心等计算场景提供引擎。NPU 是神经网络处理器，在电路层模拟人类神经元和突触，并用深度学习指令集直接处理大规模电子神经元和突触数据。ASIC 有全定制和半定制两种设计方式。全定制依靠巨大的人力时间成本投入以完全自主的方式完成整个集成电路的设计流程，虽然比半定制的 ASIC 更为灵活性能更好，但它的开发效率与半定制相比甚为低下。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w23.jpg

ASIC 芯片非常适合人工智能的应用场景。例如英伟达首款专门为深度学习从零开始设计的芯片 Tesla P100 数据处理速度是其 2014 年推出 GPU 系列的 12 倍。谷歌为机器学习定制的芯片 TPU 将硬件性能提升至相当于当前芯片按摩尔定律发展 7 年后的水平。正如 CPU 改变了当年庞大的计算机一样，人工智能 ASIC 芯片也将大幅改变如今 AI 硬件设备的面貌。如大名鼎鼎的 AlphaGo 使用了约 170 个图形处理器（GPU）和 1200 个中央处理器（CPU），这些设备需要占用一个机房，还要配备大功率的空调，以及多名专家进行系统维护。而如果全部使用专用芯片，极大可能只需要一个普通收纳盒大小的空间，且功耗也会大幅降低。ASIC 技术路线是有限开放，芯片公司需要面向与驾驶相关的主流网络、模型、算子进行开发。在相同性能下，芯片的面积更小、成本更低、功耗更低。ASIC 技术路线未来的潜力会很大，选择 ASIC 路线并不意味着要对不同车型开发不同的 ASIC，或进行不同的验证。因为不同车型需要实现的功能大致相同，而且芯片面对模型和算子进行有限开放，算法快速迭代不会影响到芯片对上层功能的支持。车厂与芯片设计公司合作，进行差异化定制，或是更好的选择。因为即使是进行差异化的定制，芯片内部 50% 的部分也是通用的。芯片设计公司可以在原有版本的基础上进行差异化设计，实现部分差异功能。2.4三种主流架构方案对比
FPGA 是在 PAL、GAL 等可编程器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。

GPU，图形处理器，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板、手机等）上做图像和图形相关运算工作的微处理器。

ASIC，即专用集成电路，指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。目前用 CPLD（复杂可编程逻辑器件）和 FPGA（现场可编程逻辑阵列）来进行 ASIC 设计是最为流行的方式之一。

自动驾驶芯片不同架构特点2.5唯算力论的局限：TOPS 算力不完全等于实际性能随着 ADAS、自动驾驶技术的兴起，以及软件定义汽车的逐步深入，智能汽车对于计算能力和海量数据处理能力等的需求暴增，传统汽车的芯片“堆叠”方案已经无法满足自动驾驶的算力需求。芯片最终是为车企的车载计算平台服务的，在 “软件定义汽车”的情况下，解决智能驾驶系统计算平台的支撑问题，无法只通过芯片算力堆叠来实现。芯片是软件的舞台，衡量芯片优劣的标准，要看芯片之上的软件能否最大化地发挥作用，算力和软件之间需要有效匹配。两款相同算力的芯片比较，能让软件运行得更高效的芯片才是“好芯片”。决定算力真实值最主要因素是内存（ SRAM 和 DRAM)带宽，还有实际运行频率（即供电电压或温度），以及算法的 batch 尺寸。单颗芯片算力 TOPS 是关键指标，但并非唯一，自动驾驶是一个复杂系统，需要车路云边协同。所以它的较量除了芯还有软硬协同还有平台以及工具链等等。芯片算力的无限膨胀和硬件预埋不会是未来的趋势，硬件也需要匹配实际。高算力背后是高功耗和低利用率的问题。2.5.1 事件相机简介及工作机制事件相机的灵感来自人眼和动物的视觉，也有人称之为硅视网膜。生物的视觉只针对有变化的区域才敏感，事件相机就是捕捉事件的产生或者变化的产生。在传统的视觉领域，相机传回的信息是同步的，所谓同步，就是在某一时刻 t，相机会进行曝光，把这一时刻所有的像素填在一个矩阵里回传，产生一张照片。一张照片上所有的像素都对应着同一时刻。至于视频，不过是很多帧的图片，相邻图片间的时间间隔可大可小，这便是帧率（frame rate），也称为时延（time latency）。事件相机类似于人类的大脑和眼睛，跳过不相关的背景，直接感知一个场景的核心，创建纯事件而非数据。事件相机的工作机制是，当某个像素所处位置的亮度发生变化达到一定阈值时，相机就会回传一个上述格式的事件，其中前两项为事件的像素坐标，第三项为事件发生的时间戳，最后一项取值为极性（polarity）0、1（或者-1、1），代表亮度是由低到高还是由高到低。就这样，在整个相机视野内，只要有一个像素值变化，就会回传一个事件，这些所有的事件都是异步发生的（再小的时间间隔也不可能完全同时），所以事件的时间戳均不相同，由于回传简单，所以和传统相机相比，它具有低时延的特性，可以捕获很短时间间隔内的像素变化，延迟是微秒级的。当今自动驾驶领域所运用的视觉识别算法，基本上都基于卷积神经网络，视觉算法的运算本质上是一次次的卷积运算。这种计算并不复杂，本质上只涉及到加减乘除，也就是一种乘积累加运算。但这种简单运算在卷积神经网络中是大量存在的，这就对处理器的性能提出了很高的要求。以 ResNet-152 为例，这是一个 152 层的卷积神经网络，它处理一张 224 * 224 大小的图像所需的计算量大约是 226 亿次，如果这个网络要处理一个 1080P 的 30 帧的摄像头，他所需要的算力则高达每秒 33 万亿次，十分庞大。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w25.jpg

2.5.2 通过减少无效计算节约算力
自动驾驶领域 99% 的视觉数据在AI处理中是无用的背景。例如检测鬼探头，变化的区域是很小一部分，但传统的视觉处理仍然要处理99%的没有出现变化的背景区域，这不仅浪费了大量的算力，也浪费了时间。亦或者像在沙砾里有颗钻石，AI 芯片和传统相机需要识别每一颗沙粒，筛选出钻石，但人类只需要看一眼就能检测到钻石，AI芯片和传统相机耗费的时间是人类的 100 倍或 1000 倍。除了冗余信息减少和几乎没有延迟的优点外，事件相机的优点还有由于低时延，在拍摄高速物体时，传统相机由于会有一段曝光时间会发生模糊，而事件相机则几乎不会。此外事件相机拥有真正的高动态范围，由于事件相机的特质，在光强较强或较弱的环境下，传统相机均会“失明”，但像素变化仍然存在，所以事件相机仍能看清眼前的东西。

PART.03自动驾驶芯片部分重点企业分析
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w26.jpg

3.1英伟达：从游戏显卡到自动驾驶芯片英伟达拥有极具前瞻性且清晰的战略能力。英伟达是全球最大的智能计算平台型公司，公司从早期专注 PC 图形计算，后来逐步将重点扩展到 AI 领域，并在 3D 图形的持续需求与游戏市场规模扩张推动下，利用 GPU 架构，创建 VR、HPC（高性能计算）、 AI 平台。英伟达在独立显卡、GPU 领域有超过70%的市场份额。除了优秀的硬件性能外，2006 年英伟达开发了基于 GPU 的 “CUDA”开发平台，让只做 3D 渲染的 GPU 实现通用计算功能，GPU 的应用领域从游戏扩展至高性能计算、自动驾驶等多个领域。3.1.1 革命性 CUDA 架构到了 2005 年，主要的 GPU 制造商都使用顶点着色单元和像素渲染单元两种计算资源。然而，合理配置这两种资源的问题却始终没有得到完美解决。特别是两种处理器数量的最佳比例是随应用的变化而变化的，因此经常出现一种处理器不够用、而另一种处理器闲置的情况，这就限制了高性能运算技术的发展。让原本只做 3D 渲染的 GPU 技术通用化，有重大战略意义。通过 CUDA（Compute Unified Device Architecture）技术，英伟达给 GPU 装备了一组完全相同的、具有较强编程能力的内核，根据任务情况在顶点和片元处理任务之间动态分配。从 G80 开始，英伟达 GPU 体系结构已经全面支持通用编程，同时英伟达也推出了 CUDA 编程技术，为 GPU 通用程序设计提供了第一套完整工具。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w27.jpg

3.1.2 围绕 CUDA 架构构筑生态系统在软件层面，英伟达面向 GPU 开发的应用软件接口 CUDA 经久不衰，CUDA 整套软件非常完善，与自家 GPU 自然适配，能快速搭建神经网络加速软件框架，所以 CUDA 在早期被很多厂家用于神经网络加速，这也为其打造 AI 计算平台奠定了基础。另外一个层面，除了 CUDA，其他厂家的API也可以在英伟达的 GPU 上用于神经网络加速，应用程序也越来越多。英伟达也通过多种方式鼓励高校和研究所从事 CUDA 相关研究工作，设立 CUDA 研发中心，发 CUDA 大师证书，做 CUDA 技术认证，让学术界为 CUDA 背书，通过学术界为工业界做预研，通过学术界为工业界培养人才。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w28.jpg

NVIDIA 移动芯片发展历程3.1.3 自动驾驶芯片从 2015 年开始，英伟达开始进入车载 SoC 和车载计算平台领域，为自动驾驶提供基础计算能力。此后英伟达几乎每隔两年发布一款车规级 SoC 芯片，且不断拉升算力水平。2020 年，Xavier 芯片算力为30 TOPS，2022 年发布的 Orin 算力为 254 TOPS，2022 秋季 GTC 大会上发布了新自动驾驶芯片 Thor，算力为 2000TFLOPS@FP8、4000TOPS@INT8，取代了之前发布的算力达 1000TOPS 的 Altan。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w30.jpg

3.1.4 自动驾驶平台自 2015 年开始，英伟达已经推出 4 代自动驾驶计算平台分别为：Drive PX、Drive PX2、Drive AGX Xavier/ Pegasus、Drive AGX Orin。2022 年 GTC 大会上英伟达公布了公司新一代汽车自动驾驶技术平台 Drive Hyperion 9，英伟达将 Hyperion 9 自动驾驶平台比作中枢神经系统，相比于 Hyperion 8，其支持感知硬件数量大幅度提升，其中包括，车外部分 14 个摄像头、9 个毫米波雷达、3 个激光雷达以及 20 个超声传感器，以及车内部分的 3 个摄像头以及 1 个毫米波雷达。据悉，搭载 Hyperion 的车辆将能达到 L4 级自动驾驶能力。Hyperion 9 自动驾驶平台的交付时间预计在 2026 年。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w31.jpg

NVIDIA 自动驾驶平台3.2Mobileye：EyeQ 系列发展历程2004 年 4 月，EyeQ1 开始生产，随后公司收获多轮融资，将商业模式转向汽车安全，陆续与大陆、意法半导体、麦格纳、电装、德尔福等全球顶级零部件供应商签署合作协议。2007 年，宝马、通用和沃尔沃成为首批配装 Mobileye 芯片的车企，Mobileye 产品正式商用。2008 年，Mobileye 对外发布 EyeQ2，公司进入稳定发展期。2013 年，Mobileye累计卖出产品突破100万台，随后出货量呈现爆发式增长。2017 年 3 月，Mobileye 被芯片巨头英特尔以 153 亿美元的价格收购。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w32.jpg

Mobileye 在 2022 年推出了新型 EyeQ Ultra，它专为自动驾驶而生。据 Mobileye称，EyeQ Ultra 采用 5nm 工艺，将 10 个 EyeQ5 的处理能力集成在一个封装中。但是其芯片的计算能力似乎略逊色于英伟达，EyeQ Ultra 芯片具有 170 TOPS，包括 12 个 RISC 内核、256 gigaflops、许多 GPU 和加速器内核等等，功耗不到 100W，可以“处理 4 级（L4）自动驾驶的所有需求和应用”，而无需将多个系统集成在一起的计算能力和成本，解决两个行业面临的重大挑战。EyeQ Ultra 预计将在 2025 年全面投产。Mobileye 还还推出了其最新一代芯片 EyeQ6：EyeQ6L 和 EyeQ6H，采用 7nm 工艺，能用于 ADAS L2，预计将于 2023 年年中开始生产。该芯片已与大众和福特就地图技术达成扩展协议，以及与吉利达成新协议，到 2024 年推出全电动 L4 级自动化汽车。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w33.jpg

3.3特斯拉：自动驾驶芯片发展之路

Tesla 经历了外购主控芯片到自研的道路。2014 年 - 2016 年， Tesla 配备的是基于 Mobileye EyeQ3 芯片的 AutoPilot HW1.0 计算平台，车上包含 1 个前摄像头 + 1 个毫米波雷达 + 12 个超声波雷达。2016 年 - 2019 年， Tesla采用基于英伟达的 DRIVE PX 2 AI 计算平台的AutoPilot HW2.0 和后续的 AutoPilot HW2.5，包含 8 个摄像头 + 1 个毫米波雷达 + 12 超声波雷达。2017 年开始 Tesla 开始启动自研主控芯片，尤其是主控芯片中的神经网络算法和AI处理单元全部自己完成。2019 年 4 月， AutoPilot HW3.0 平台搭载了 Tesla FSD 自研版本的主控芯片，这款自动驾驶主控芯片拥有高达 60 亿的晶体管，每秒可完成 144 万亿次的计算，能同时处理每秒 2300 帧的图像。

芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w34.jpg

FSD 从外购芯片到自研芯片历程3.3.1 为什么自研芯片类比苹果：苹果采用了自研的 A 系列芯片，匹配了 iOS 系统，和其他诸多手机相比，苹果手机的软件流畅性、硬件能耗等相对更胜一筹。软硬件融合：芯片算力固然很重要，但在英伟达、Mobileye 这样的通用平台上，相关的主机厂、自动驾驶公司并不一定有技术水平让硬件发挥到 100%，而自研芯片能够在研发阶段更好地让软硬件融合、调整，充分发挥软、硬件的潜力。能对核心硬件有更强的掌控力，在硬件加速上形成差异，更有可能建立起自动驾驶技术的优势。议价能力：整车厂商只有拥有了技术储备才会有议价能力，在自动驾驶数据处理单元技术上，Autopilot 3.0 硬件的诞生增强了特斯拉在该领域的议价能力。这或许也是特斯拉自研芯片的初衷之一。成本控制：Drive PX 2 功耗为 250W，而价格则直接是 1.5 万美元。如果特斯拉选择自己造自动驾驶芯片，那么成规模之后，有助于降低成本。提高灵活性：芯片产商的厂商的芯片为了满足通用性，开发周期通常比较长，难以满足需求，而自己开发的话，开发周期可以自主把握，算力需求可以自行设计，无关的通用性接口或者单元可以舍弃，灵活性很高，开发周期更短，功耗也更低。实现芯片自给自足：在缺芯的环境下，自主设计自动驾驶芯片可以解决在自动驾驶领域的芯片自给自足问题。3.3.2 芯片自研是一条难以复制的技术路线各类顶级芯片研发人员聚集，为特斯拉芯片自研奠定基础：2016 年 1 月，Tesla 从 AMD 挖来传奇芯片架构师 Jim Keller，任命他为 Autopilot 硬件工程副总裁。2016年 2 月，Tesla 又从 Apple 招到了研发总监 Pete Bannon，Pete 是 A5 芯片核心的设计工程师，在那之前他是 PA Semi 的架构与验证副总裁。同时期，同样来自 AMD 的谷俊丽，在 Autopilot 硬件工程团队下开始组建机器学习小组，这个小组有两个任务：一个是搭建第二代自动驾驶硬件上的 AI 算法和机器学习软件，另一个是参与设计 FSD 芯片的架构和上面的软件。采用以深度神经网络为主的人工智能模型，再加上车端收集的大量数据，特拉斯 ADAS 水平迅速提升：基于全新深度神经网络的视觉处理工具 TeslaVision 是 Autopilot 团队抛开 Mobileye、从零搭建的一套视觉处理工具，它的背后，是全新的底层软件技术架构和云端大数据基础设施。Tesla Vision 能够对行车环境进行专业的解构分析，相比传统视觉处理技术可靠性更高；借助 Tesla 售出的车辆搜集的大量数据，反过来又可以对 Tesla Vision 的神经网络进行训练和改进，进一步优化 Autopilot。除车端芯片 FSD 的研发外，特斯拉也开始涉足云端训练芯片，试图打通车云系统。从算力来看，其 1.09EFLOPS 的算力水平和 Nvidia 用 4096 块 A100 构建的集群（1.28 EFLOPS）；Huawei 用 4096 块 Ascend 910 构建的集群（1.05 EFLOPS）；Google 用 3456 块 TPU v4 构建的集群（0.95 EFLOPS）相比，已经不相上下。其对称式的设计理念，可能给超算领域带来全新技术路线的可能性。特斯拉的芯片自研的成功，竞争对手的可复制性很弱，主要原因有：（1）芯片顶级研发人才很难被车企所招聘，特斯拉有很大程度是因为马斯克的个人魅力因素，才说服顶级芯片研发人员加入；（2）自研芯片风险极高，前期投入较大；（3）如果不能保证使用的数量，则自研芯片性价比很低。因此，对于绝大多数车企来讲，外购芯片才是更好的解决方案。3.3.3 FSD 芯片从算法需求倒推芯片架构，软硬件一体化实现高效算力。FSD 芯片从算法需求出发，进行了芯片架构设计。其核心技术来源于由两颗 NPU 组成的 NNA（Neural Network Accelerator，神经网络加速单元）系统。FSD 芯片于 2019 年正式流片，代工厂为三星，采用 14nm 工艺，整个芯片约有 60 亿颗晶体管组成。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w35.jpg

FSD 芯片示意图
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w36.jpg

FSD 芯片架构组成3.3.4 NNA 核心体现了成本和功耗的优化NPU 具备强大运算能力。在每个计算周期，NPU 都会从内置的 32MB SRAM 中读取 256 字节的激活数据和另外 128 字节的权重数据组合在一起进入乘法累加（MAC），每个 NPU 都有一个 96 x 96MAC 阵列。在完成了 MAC 的乘法累加运算后，数据将会被转移到激活（Activations）以及池化（Pooling）部分，并等待写入缓冲区汇总结果。Tesla 对于NNA的功耗和成本优化也做了不少的努力。NNA 设计了非常大的片上 SRAM 缓存，相较于 Google 的 TPU，采用了 256 × 256 的 MAC，只有 24MB 的 SRAM。对于这种特殊的设计，Tesla 解释这样做是为了让数据尽可能地在片内周转，而不用频繁地与内存或者其他模块进行读写操作。这样做不但可以提高性能，还可以有效降低功耗。Tesla 在 NNA 的设计中还偏向于将硬件简化，并复杂化软件，这样做可以降低芯片成本。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w37.jpg

自动驾驶的硬件成本约占整体硬件成本的 3.5% 特斯拉自动驾驶硬件成本估算：特斯拉自动驾驶域的芯片成本约为 5000 元，加上外围电路板以及组装、测试成本（组装厂为中国台湾广达集团），预估总体成本约为8000人民币，如果以特斯拉的毛利率计算，假设 Model 3 的成本为 22.9 万元，那么自动驾驶域的成本占特斯拉整车成本约为 3.5%。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w38.jpg

3.4地平线：车规级芯片发展历程

自 2015 年创立以来，地平线仅用了 5 年的时间即实现了车规 AI 芯片的量产落地，开启国产车规级AI芯片的前装量产元年。与此相比，Mobileye 的车规芯片从研发到正式商用历时 8 年；作为全球通用 AI 芯片龙头的英伟达，在 CUDA 发布后 9 年才将K1 芯片应用于奥迪 A8 的车用系统。地平线首款芯片征程 1 发布于 2017 年 12 月；征程 2 发布于 2019 年 8 月，可提供超过 4TOPS 的等效算力；征程 3 算力为5TOPS，发布于 2020 年 9 月；征程 5 发布于 2021 年 7 月，算力 128TOPS。地平线的第三代车规级产品征程 5 兼具大算力和高性能，支持 16 路摄像头感知计算，能够支持自动驾驶所需要的多传感器融合、预测和规划控制等需求。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w39.jpg

征程 5 芯片架构
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w41.jpg

征程 5 芯片特点
3.5华为：MDC 智能驾驶计算平台华为于 2018 年 10 月首次发布智能驾驶计算平台，支持 L3 的 MDC600、支持 L4 的MDC300；2020 年 9 月发布支持 L2+ 的 MDC210、支持 L3 - L4 的 MDC610。MDC610 正在洽谈搭载的车型有广汽埃安 AION LX、长城沙龙机甲龙、广汽传祺。2021 年 4 月发布支持 L4 - L5 的 MDC810，首搭于北汽极狐阿尔法 S 华为 HI 版，正在洽谈搭载于 2022 年哪吒 TA、广汽埃安；并计划 2022 年推出 MDC100。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w42.jpg

MDC 整体架构图
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w43.jpg

MDC 不同算力等级产品3.5.1 华为 Ascend 芯片华为 MDC 所采用的 Ascend 系列芯片，主要有 Ascend310 和升级版 Ascend910 两款芯片。Ascend 包括训练和推理芯片，用于训练的 Ascend910，半精度（FP16）算力达 256TFLOPS，是业界的 2 倍。用于推理的 Ascend310，整型（INT8）算力 16TOPS，功耗仅 8W。作为一款 AI 芯片，Ascend310 的一大亮点就是采用了达芬奇架构（Da Vinci）。达芬奇架构采用 3D Cube ，针对矩阵运算做加速，大幅提升单位功耗下的 AI 算力，每个 AI Core 可以在一个时钟周期内实现 4096 个 MAC 操作，相比传统的 CPU 和 GPU 可实现数量级的提升。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w44.jpg

3.6芯擎科技：龍鷹一号芯片发展之路芯擎科技研发的首款 7nm 智能座舱芯片“龍鷹一号”，已于 2021 年 6 月流片成功，对标高通 8155 芯片。并且“龍鷹一号”即将于 2022 年底前实现量产上车，目前针对量产车型的各项测试和验证工作已陆续完成。芯擎科技计划 2022 流片的自动驾驶芯片 AD1000，将满足 L2+ 至 L5 级自动驾驶需求。未来芯擎科技会在自动驾驶领域不断深耕和探索，并且对标最先进的产品。具体来说，仍会采用 7nm 制程，将具备更高的算力和安全性。
芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解w46.jpg

202302 亿咖通携芯擎科技与中国一汽将联合研发智能座舱平台，该平台基于“龍鷹一号”芯片，该芯片拥有 8 核 CPU，14 核 GPU，以及 8 TOPS AI 算力的独立 NPU，支持智能驾驶功能开发，还内置独立的功能安全岛、信息安全岛，满足 ASIL-B 等级的系统安全功能。此智能座舱平台还可面向全球市场支持基于 Android Automotive与 GAS 的 Google 生态服务体验.该款智能座舱计划于 2023 年年底实现量产一汽红品碑预计有两款车型率先搭载该平台。

[硬件底层] 芯片笔记 | 自动驾驶芯片之 GPU、FPGA、ASIC 详解

快速发帖