• 541查看
  • 0回复

[综合] 特斯拉 FSD 2.0(详解)

[复制链接]


该用户从未签到

发表于 9-8-2023 10:51:37 | 显示全部楼层 |阅读模式

汽车零部件采购、销售通信录       填写你的培训需求,我们帮你找      招募汽车专业培训老师


特斯拉 FSD 2.0(详解)w1.jpg

特斯拉 HW4.0,第二代 FSD 芯片
来源:半导体风向标 | 首图图源:网
全文 2100+ 字,预计阅读 10-15 分钟

除了由台积电代工制造的D1训练芯片之外,但在特斯拉电动汽车内部运行人工智能推理的芯片被称为全自动驾驶(FSD)芯片。特斯拉汽车上的车型极其有限,因为特斯拉有一个非常顽固的信念,即他们不需要巨大性能就可以实现全自动驾驶。此外,特斯拉的成本限制比Waymo和Cruise严格得多,因为它们实际上出货量更大。与此同时,Alphabet Waymo和通用汽车Cruise正在使用全尺寸GPU,在开发和早期测试期间,它们的汽车成本高出10倍,并希望为自己的汽车制造更快(更昂贵)的SoC。

特斯拉第二代FSD芯片自2023年2月开始在汽车上发货,该芯片的设计与第一代芯片非常相似。第一代基于三星的14nm工艺,围绕三个四核集群构建,共有12个Arm Cortex-A72核心在2.2 GHz主频下运行。然而,在第二代设计中,特斯拉将CPU内核数量增加到了五个4核集群(20个),总共有20个Cortex-A72内核。

第二代FSD芯片最重要的部分是三个NPU核心。三个核心使用32MB的SRAM,每个用于存储模型权重和激活。每个周期,从SRAM向乘法累加单元(MAC)读取256字节的激活数据和128字节的权重数据。MAC的设计是一个网格,每个NPU核心都有一个96x96的网格,每个时钟周期总共有9216个MAC和18432个操作。每个芯片有三个NPU以2.2 GHz的频率运行,总计算能力为每秒121.651万亿次运算(TOPS)。

特斯拉 FSD 2.0(详解)w2.jpg

第二代FSD具有256GB的NVMe存储和16GB的Micron GDDR6,14Gbps,位于128位内存总线上,提供224GB/s的带宽。后者是最值得注意的变化,因为带宽一代比一代增加了约3.3倍。FLOPS相对于带宽的增加表明HW3很难被充分利用。每个HW 4.0有两个FSD芯片。

HW4.0板级性能的提高是以额外的功耗为代价的。与HW3.0相比,HW4.0级的空闲功耗大约是HW3.0主板的两倍。在高峰期,预计它也会更高。外部HW4.0外壳在10安培时显示为16伏,转换为160瓦的使用功率。

尽管HW4.0的性能有所提高,但特斯拉希望HW3.0也能实现FSD,可能是因为他们不想改造购买FSD的现有HW3.0用户。

信息娱乐系统采用AMD GPU/APU。与上一代有一个单独的子板相比,这也与FSD芯片在同一块板上。

特斯拉 FSD 2.0(详解)w3.jpg

HW4.0平台支持12个摄像头,其中一个用于冗余目的,因此有11个摄像头在使用中。在旧的设置中,前置摄像头集线器使用了三个分辨率较低的120万像素摄像头。新平台使用了两个分辨率更高的500万像素摄像头。

特斯拉目前不使用激光雷达传感器或其他类型的非摄像头方法。在过去,他们确实使用雷达,但在第三代中期就被取消了。这大大降低了汽车的制造成本,特斯拉对其进行了优化,该公司认为纯摄像头传感是自动驾驶汽车的一条可能路线。然而,他们也指出,如果有可行的雷达,他们将把它与摄像系统集成在一起。

在HW4.0平台中,有一个内部设计的雷达,名为Phoenix。Phoenix将雷达系统与摄像头系统相结合,旨在通过利用更多数据创造更安全的车辆。Phoenix雷达使用76-77 GHz频谱,峰值有效各向同性辐射功率(EIPR)为4.16瓦,平均EIRP为177.4毫瓦。它是一种具有三种传感模式的非脉冲汽车雷达系统。雷达PCB包括用于传感器融合的Xilinx Zynq XA7Z020 FPGA。

特斯拉AI车型差异化

特斯拉的目标是生产基础人工智能模型,为其自动驾驶机器人和汽车提供动力。两者都需要意识到周围的环境并在周围导航,因此相同类型的人工智能模型可以应用于两者。为未来的自主平台创建高效的模型需要大量的研究,更具体地说,需要大量的数据。此外,这些模型的推断必须以极低的功率和低的延迟来完成。由于硬件限制,这大大降低了特斯拉可以提供的最大车型尺寸。

在所有公司中,特斯拉拥有可用于训练其深度学习神经网络的最大数据集。路上的每辆车都使用传感器和图像来捕捉数据,并将其乘以路上的特斯拉电动汽车数量,得出一个庞大的数据集。特斯拉将其收集数据的部分称为“车队规模的自动标记”。每辆特斯拉电动汽车都会采集一段45-60秒的密集传感器数据日志,包括视频、惯性测量单元(IMU)数据、GPS、里程计等,并将其发送到特斯拉的培训服务器。

特斯拉的模型接受了分割、掩码、深度、点匹配和其他任务的训练。由于有数百万辆电动汽车在路上行驶,特斯拉拥有大量的数据源,这些数据源都有很好的标记和记录。这使得能够在该公司的设施中进行Dojo超级计算机的持续培训。

特斯拉对数据的信念与该公司已经建立的可用基础设施相矛盾。特斯拉只使用了他们收集的数据中的一小部分。特斯拉因其严格的推理限制而过度训练其模型,以在给定的模型尺寸内实现尽可能好的精度而闻名。

过度训练小型车型会导致全自动驾驶的性能停滞不前,并且无法使用收集到的所有数据。许多公司同样选择尽可能大规模地进行培训,但他们也在使用功能强大得多的汽车推理芯片。例如,英伟达计划在2025年为汽车客户提供2000多TeraFLOPS计算能力的DRIVE Thor,这是特斯拉新HW4.0的15倍以上。此外,英伟达架构对其他型号更为灵活。


快速发帖

您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|手机版|小黑屋|Archiver|汽车工程师之家 ( 渝ICP备18012993号-1 )

GMT+8, 20-11-2024 19:42 , Processed in 0.430310 second(s), 30 queries .

Powered by Discuz! X3.5

© 2001-2013 Comsenz Inc.