Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了280,525,413字

最近回复

该文章投稿至Nemo社区   资讯  板块 复制链接


特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格式,还有系统网络

发布于 2022/08/25 14:34 163浏览 0回复 1,722

特斯拉备受关注的 Dojo 超算指令集结构细节史上首次大公开!而且还大秀了一把 Dojo 的数据格式、系统网络,以及软件系统绕行死节点的能力。

关于特斯拉自研的 AI 芯片 D1,更多细节也被披露。一切来自刚刚举办的硅谷芯片技术研讨会 HOT CHIPS,听特斯拉硬件工程师 Emil Talpes 怎么说。

特斯拉 Dojo 超算

所谓 Dojo,是特斯拉自研的超级计算机,能够利用海量的视频数据,做“无人监管”的标注和训练。它有高度可扩展且完全灵活的分布式系统,能够训练神经网络,还能适应新的算法和应用。

不仅如此,还能从头开始构建大系统,而不是从现有的小系统演变而来。每个 Dojo ExaPod 集成了 120 个训练模块,内置 3000 个 D1 芯片,拥有超过 100 万个训练节点,算力达到 1.1EFLOP*(每秒千万亿次浮点运算)。

微架构方面,每个 Dojo 节点都有一个内核,是一台具有 CPU 专用内存和 I / O 接口的成熟计算机。

这很重要,因为每个内核都可以做到独立处理,而不依赖于共享缓存或寄存器文件。每个内核拥有一个 1.25MB 的 SRAM,这是主存储器。这种 SRAM 能以 400GB / 秒的速度加载,并以 270GB / 秒的速度存储。

芯片有明确的指令,可以将数据移入或移出 Dojo 超算中其他内核的外部 SRAM 存储器。

嵌入 SRAM 中的是列表解析器引擎(list parser engine),诸如此类的引擎可以将信息一起发送到其他节点或从其他节点获取信息,无需像其他 CPU 架构一样。

至于通信接口,每个节点都与 2D 网格相连,在节点边界处每周期有八个数据包。而且每个节点都有独立的网络连接,能与相邻节点进行无缝连接。

关于 Dojo 的指令集,它支持 64 位标量指令和 64B SIMD 指令,能够处理从本地到远程内存传输数据的原语(primitives),并支持信号量(semaphore)和屏障约束( barrier constraints)。

特斯拉自研 AI 芯片新进展

数据格式对 AI 来说至关重要,特别是芯片所支持的数据格式。特斯拉借助 Dojo 超算来研究业界常见的芯片,例如 FP32、FP16 和 BFP16。

FP32 格式比 AI 训练应用的许多部分所需的精度和范围更广,IEEE 指定的 FP16 格式没有覆盖神经网络中的所有处理层。相反,谷歌 Brain 团队创建的 Bfloat 格式应用范围更广,但精度更低。

特斯拉不仅提出了用于较低精度和更高矢量处理的 8 位 FP8 格式,还提出了一组可配置的 8 位和 16 位格式,Dojo 超算可以在尾数的精度附近滑动,以涵盖更广泛的范围和精度。

在给定时间内,特斯拉最多可以使用 16 种不同的矢量格式,但每个 64B 数据包必须属于同一类型

特斯拉自研的 D1 芯片,是 Dojo ExaPod 的核心。由台积电制造,采用 7 纳米制造工艺,拥有 500 亿个晶体管,芯片面积为 645mm²,小于英伟达的 A100(826 mm²)和 AMD Arcturus(750 mm²)。

每个芯片有 354 个 Dojo 处理节点和 440MB 的静态随机存储器。D1 芯片测试完成后,随即被封装到 5×5 的 Dojo 训练瓦片(Tile)上。

这些瓦片每边有 4.5TB / s 的带宽,每个模组还有 15kW 的散热能力的封盖,减掉给 40 个 I / O 的散热,也就是说每个芯片的散热能力接近 600W。瓦片也包含了所有的液冷散热和机械封装,这和 Cerebras 公司推出的 WES-2 芯片的封装理念类似。

演讲最后结束时,特斯拉工程师 Emil Talpes 表达了如下观点:

我们最终的目标是追求可扩展性。我们已经不再强调 CPU 中常见的几种机制,像是一致性、虚拟内存、全局查找目录。只因为当我们扩展到非常大的系统时,这些机制并不能很好地随之扩展。

相反,在整个网格中我们依靠的是那种快速、分散的 SRAM 存储,这样能够得到更高数量级的互连速度支持。


本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/637/044.htm]

点赞(0)
点了个评