娶了小老婆Aprilia的Python工程師: 特斯拉研發人工智慧晶片D1,超越以往自駕的晶片運算

特斯拉研發人工智慧晶片D1,超越以往自駕的晶片運算

特斯拉研發史上最高效能人工智慧晶片D1,超越以往,有夠狂!

電動車大廠特斯拉（Tesla）於上個月舉行的 AI 日（Tesla AI Day）上，發布 2 項重要產品：一是機器人「Tesla Bot」、另一個是由特斯拉自動駕駛硬體高級總監 Ganesh Venkataramanan 宣布自行研發的 AI 晶片「Dojo D1」，用來訓練資料中心，是特斯拉 Dojo 超級電腦晶片的一部分。

Dojo D1 晶片的研發讓特斯拉不僅是一間汽車公司、人工智慧的業者，還是一家晶片供應商！Tesla 和 Intel、Nvidia、Graphcore 等科技大廠，同為 AI 訓練模型的晶片供應者。

電動車大廠特斯拉（Tesla）於上個月的 AI 日（Tesla AI Day）上發布自行研發的 AI 晶片「Dojo D1」，用來訓練資料中心，是特斯拉 Dojo 超級電腦晶片的一部分。

Dojo 計畫負責人 Ganesh 說「D1 晶片——從架構到封裝——完全是由特斯拉團隊所設計。其晶片就像 GPU，但是又有『CPU 等級』的靈活度，上下載頻寬還是網路晶片的兩倍⋯⋯」因此 D1 晶片已經超越了單純的 CPU 與GPU，而直接被稱為「Pure Learning Machine」（純學習機器）。

訓練人工智慧模型，需要大量的運算能力，而 D1 晶片的效能，對 AI 模型的訓練來說，是是綽綽有餘的。如車內攝影機所蒐集的各種影像，Dojo 晶片將協助自駕 AI 處理、應對處理路上的狀況。

特斯拉 CEO 馬斯克表示：特斯拉將在 2022 年投入 Dojo 的營運，目標為實現真正的 100% 全自動駕駛。特斯拉稱 D1 晶片的頻寬是當前網絡中使用的晶片的兩倍。通過設計這樣一款高性能晶片，該公司希望保持低延遲和最大頻寬。

Dojo D1：超越以往自駕的晶片運算

D1 號稱由 500 億個電晶體構成，超越 AMD 的 EPYC Rome（395.4 億個電晶體），並略少於擁有多達 540 億個電晶體的 Nvidia GA100 Ampere SoC。D1 的大小約 645mm²，每 mm² 的整合高達 7750 萬個電晶體的有效電晶體密度，功率密度高於 Nvidia 的 A100 GPU 並略低於 Apple 的 M1 晶片。

一塊 D1 晶片由 354 個訓練節點組成，每個訓練節點內部都起碼有以下部分：

64 位元 4 路多線程的CPU
1.25MB SRAM 緩存
低延遲數據交換結構；
SIMD 單指令多數據流的浮點/整數單元

D1 晶片訓練節點的一大特點，就在於「低延遲數據交換結構」：有一個叫做「 NOC Router」的結構，這是訓練節點之間交換數據的工具——特斯拉近乎苛求地給每一個小節點，都設計了上下左右各 64bit 的通道。

D1 晶片是 AI 訓練晶片，當然也有高效能的運算能力：單片 FP32 的運算能力高達每秒 22.6 兆次的浮點運算（單位為TOPs）、BF16 運算能力更是達到 262 TOPs——每秒 262 兆次。特斯拉展示：單顆 D1 晶片，其神經網路運算能力已超越一張顯示卡，也就是說性能比 Nvidia 的 GPU 或 Google 的 TPU 更強。

Tesla 一手打造的 D1 晶片是 AI 訓練晶片，有高效能的運算能力：單片 FP32 的運算能力高達**每秒 22.6 兆次**的浮點運算（單位為TOPs）、BF16 運算能力更是**達到 262 TOPs**——每秒 262 兆次。特斯拉展示：單顆 D1 晶片，其神經網路運算能力已超越一張顯示卡，也就是說性能比 Nvidia 的 GPU 或 Google 的 TPU 更強。

目前將每 25 個 D1 晶片組合成一個 Training Tile（訓練磚），而每個 Training Tile 的每秒浮點運算次數又為驚人的九千兆次（9 PFlots），每 12 個 Training Tile 又組成一個伺服器機櫃，每秒浮點運算次數總共為十億八千兆（108 PFlops）；最後再將幾個伺服器機櫃搭配成擁有超高效運算能力的 Dojo 超級電腦，且擁有 50 多萬個訓練節點，超過 17 公里的內部電路連接，完整滿足其 AI 人工智慧的訓練需求。