Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了280,525,413字

a崽

在文章《比亚迪腾势 N7 车型推出限时优惠政策，2000 元可抵 5.2 万元》中回复：
```
哇！现在这个价格太顶了吧！赶紧入手！
```

野人霸霸

终于看到关注的车型，改款了，这波颜值，是我喜欢的，如果上市后的价格给力，就冲了，腾势这波改款真棒！

我是萌萌萌萌哒

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
从去年就开始关注，终于等到改款了，眼前一亮，颜值不错，期待上市价格
```

海绵小宝宝P

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：

希望将来公布的价格能给力一点，这次改款已经非常让我心动了，腾势还是懂车主的喜好的！

Wmx0819

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
改的好，改的秒，改的呱呱呱。N7大麦大麦大麦
```
瘦瘦不瘦

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
赵总主打就是一个听劝哈哈哈
```

栗子羊羊羊

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：

这车改款改的不错.眼前一亮的感觉，挺好看的，看来腾势去年认真听了车友的意见，2024大动作，够吸引人了

甜梦国的睡仙

在文章《东风纳米 01 纯电小车在襄阳量产下线：预售 7.98 万元起，明日上市》中回复：
```
这个设计很可以啊，比较符合当代人审美
```
追逐明天5555

在文章《科技昨夜今晨 0724：我国载人登月火箭主发动机已达到试验要求、国产核磁共振技术成功突破国外长期封锁、蔚来副总裁回应“部分充电桩不对其它车主开放”》中回复：
```
印度真的是有点无语，比亚迪成功躲过一劫
```

好好好看

在文章《因安全问题，印度拒绝比亚迪 10 亿美元建厂提案》中回复：

比亚迪公司提出了在印度合资建立新能源汽车工厂的计划，但遭到了印度的拒绝。

该文章投稿至Nemo社区资讯板块复制链接

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

发布于 2022/08/25 14:34 163浏览 0回复 1,722字

特斯拉备受关注的 Dojo 超算指令集结构细节史上首次大公开！而且还大秀了一把 Dojo 的数据格式、系统网络，以及软件系统绕行死节点的能力。

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

关于特斯拉自研的 AI 芯片 D1，更多细节也被披露。一切来自刚刚举办的硅谷芯片技术研讨会 HOT CHIPS，听特斯拉硬件工程师 Emil Talpes 怎么说。

特斯拉 Dojo 超算

所谓 Dojo，是特斯拉自研的超级计算机，能够利用海量的视频数据，做“无人监管”的标注和训练。它有高度可扩展且完全灵活的分布式系统，能够训练神经网络，还能适应新的算法和应用。

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

不仅如此，还能从头开始构建大系统，而不是从现有的小系统演变而来。每个 Dojo ExaPod 集成了 120 个训练模块，内置 3000 个 D1 芯片，拥有超过 100 万个训练节点，算力达到 1.1EFLOP*（每秒千万亿次浮点运算）。

微架构方面，每个 Dojo 节点都有一个内核，是一台具有 CPU 专用内存和 I / O 接口的成熟计算机。

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

这很重要，因为每个内核都可以做到独立处理，而不依赖于共享缓存或寄存器文件。每个内核拥有一个 1.25MB 的 SRAM，这是主存储器。这种 SRAM 能以 400GB / 秒的速度加载，并以 270GB / 秒的速度存储。

芯片有明确的指令，可以将数据移入或移出 Dojo 超算中其他内核的外部 SRAM 存储器。

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

嵌入 SRAM 中的是列表解析器引擎（list parser engine），诸如此类的引擎可以将信息一起发送到其他节点或从其他节点获取信息，无需像其他 CPU 架构一样。

至于通信接口，每个节点都与 2D 网格相连，在节点边界处每周期有八个数据包。而且每个节点都有独立的网络连接，能与相邻节点进行无缝连接。

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

关于 Dojo 的指令集，它支持 64 位标量指令和 64B SIMD 指令，能够处理从本地到远程内存传输数据的原语（primitives），并支持信号量（semaphore）和屏障约束（ barrier constraints）。

特斯拉自研 AI 芯片新进展

数据格式对 AI 来说至关重要，特别是芯片所支持的数据格式。特斯拉借助 Dojo 超算来研究业界常见的芯片，例如 FP32、FP16 和 BFP16。

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

FP32 格式比 AI 训练应用的许多部分所需的精度和范围更广，IEEE 指定的 FP16 格式没有覆盖神经网络中的所有处理层。相反，谷歌 Brain 团队创建的 Bfloat 格式应用范围更广，但精度更低。

特斯拉不仅提出了用于较低精度和更高矢量处理的 8 位 FP8 格式，还提出了一组可配置的 8 位和 16 位格式，Dojo 超算可以在尾数的精度附近滑动，以涵盖更广泛的范围和精度。

在给定时间内，特斯拉最多可以使用 16 种不同的矢量格式，但每个 64B 数据包必须属于同一类型。

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

特斯拉自研的 D1 芯片，是 Dojo ExaPod 的核心。由台积电制造，采用 7 纳米制造工艺，拥有 500 亿个晶体管，芯片面积为 645mm²，小于英伟达的 A100（826 mm²）和 AMD Arcturus（750 mm²）。

每个芯片有 354 个 Dojo 处理节点和 440MB 的静态随机存储器。D1 芯片测试完成后，随即被封装到 5×5 的 Dojo 训练瓦片（Tile）上。

这些瓦片每边有 4.5TB / s 的带宽，每个模组还有 15kW 的散热能力的封盖，减掉给 40 个 I / O 的散热，也就是说每个芯片的散热能力接近 600W。瓦片也包含了所有的液冷散热和机械封装，这和 Cerebras 公司推出的 WES-2 芯片的封装理念类似。

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

演讲最后结束时，特斯拉工程师 Emil Talpes 表达了如下观点：

我们最终的目标是追求可扩展性。我们已经不再强调 CPU 中常见的几种机制，像是一致性、虚拟内存、全局查找目录。只因为当我们扩展到非常大的系统时，这些机制并不能很好地随之扩展。

相反，在整个网格中我们依靠的是那种快速、分散的 SRAM 存储，这样能够得到更高数量级的互连速度支持。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/637/044.htm]

本文标签
特斯拉超算

上一个文章：苹果 macOS 13 Ventura Beta 5 中 TestFlight 遇到问题，无法安装或更新测试版 App

下一个文章：乐视 3D 人脸可视对讲智能门锁 X1 发布：支持远程可视对讲，1080P 屏幕，尝新价 1699 元

点了个评

Echo

最近回复

特斯拉 Dojo 超算最新细节大公开！涉及指令集结构、数据格式，还有系统网络

特斯拉 Dojo 超算

特斯拉自研 AI 芯片新进展

点击排行

没有找到这位爷的热门文章哦~

最新文章

苹果确认欧盟的 iPad 今年秋季支持应用侧载、第三方浏览器引擎

环球分享美国奥兰多“超级任天堂世界”最新动态：包含两个园区、2025 年开园

Epic 喜加二：《兽人必须死！3》《喵咪斗恶龙 2》游戏免费领取

微软：即日起为所有消费级用户账户提供安全密钥（passkey）支持

索尼公布 5 月 PS+ 会免游戏，包括《EA SPORTS FC 24》《幽灵行者 2》《命运 2：光陨之秋》等

湖北首座“光储充换放”一体充电站投运：华为设备加持，充电 5 分钟补能 300 公里

罗技庆祝 G502 鼠标发布 10 周年：销量超 2100 万，即日起赠送鼠标垫

前员工称特斯拉经常处于混乱、忙碌状态，担忧超级充电网络质量下降

990 万拍下周鸿祎迈巴赫当事人“褚会长”发声：已按约定完成支付

Banana Pi 香蕉派推出 BPI-M5 Pro 开发板：RK3576 处理器，最高 16GB 内存