特斯拉研發史上最高效能人工智慧晶片D1,超越以往,有夠狂!
目錄
電動車大廠特斯拉(Tesla)於上個月舉行的 AI 日(Tesla AI Day)上,發布 2 項重要產品:一是機器人「Tesla Bot」、另一個是由特斯拉自動駕駛硬體高級總監 Ganesh Venkataramanan 宣布自行研發的 AI 晶片「Dojo D1」,用來訓練資料中心,是特斯拉 Dojo 超級電腦晶片的一部分。
Dojo D1 晶片的研發讓特斯拉不僅是一間汽車公司、人工智慧的業者,還是一家晶片供應商!Tesla 和 Intel、Nvidia、Graphcore 等科技大廠,同為 AI 訓練模型的晶片供應者。
Dojo 計畫負責人 Ganesh 說 「D1 晶片——從架構到封裝——完全是由特斯拉團隊所設計。其晶片就像 GPU,但是又有『CPU 等級』的靈活度,上下載頻寬還是網路晶片的兩倍⋯⋯」因此 D1 晶片已經超越了單純的 CPU 與GPU,而直接被稱為「Pure Learning Machine」(純學習機器)。
訓練人工智慧模型,需要大量的運算能力,而 D1 晶片的效能,對 AI 模型的訓練來說,是是綽綽有餘的。如車內攝影機所蒐集的各種影像,Dojo 晶片將協助自駕 AI 處理、應對處理路上的狀況。
特斯拉 CEO 馬斯克表示:特斯拉將在 2022 年投入 Dojo 的營運,目標為實現真正的 100% 全自動駕駛。特斯拉稱 D1 晶片的頻寬是當前網絡中使用的晶片的兩倍。通過設計這樣一款高性能晶片,該公司希望保持低延遲和最大頻寬。
Dojo D1:超越以往自駕的晶片運算
D1 號稱由 500 億個電晶體構成,超越 AMD 的 EPYC Rome(395.4 億個電晶體),並略少於擁有多達 540 億個電晶體的 Nvidia GA100 Ampere SoC。D1 的大小約 645mm²,每 mm² 的整合高達 7750 萬個電晶體的有效電晶體密度,功率密度高於 Nvidia 的 A100 GPU 並略低於 Apple 的 M1 晶片。
一塊 D1 晶片由 354 個訓練節點組成,每個訓練節點內部都起碼有以下部分:
- 64 位元 4 路多線程的CPU
- 1.25MB SRAM 緩存
- 低延遲數據交換結構;
- SIMD 單指令多數據流的浮點/整數單元
D1 晶片訓練節點的一大特點,就在於「低延遲數據交換結構」:有一個叫做「 NOC Router」的結構,這是訓練節點之間交換數據的工具——特斯拉近乎苛求地給每一個小節點,都設計了上下左右各 64bit 的通道。
D1 晶片是 AI 訓練晶片,當然也有高效能的運算能力:單片 FP32 的運算能力高達每秒 22.6 兆次的浮點運算(單位為TOPs)、BF16 運算能力更是達到 262 TOPs——每秒 262 兆次。特斯拉展示:單顆 D1 晶片,其神經網路運算能力已超越一張顯示卡,也就是說性能比 Nvidia 的 GPU 或 Google 的 TPU 更強。
目前將每 25 個 D1 晶片組合成一個 Training Tile(訓練磚),而每個 Training Tile 的每秒浮點運算次數又為驚人的九千兆次(9 PFlots) ,每 12 個 Training Tile 又組成一個伺服器機櫃,每秒浮點運算次數總共為十億八千兆(108 PFlops);最後再將幾個伺服器機櫃搭配成擁有超高效運算能力的 Dojo 超級電腦,且擁有 50 多萬個訓練節點,超過 17 公里的內部電路連接,完整滿足其 AI 人工智慧的訓練需求。
D1 將採用 7 奈米製程生產,可能將由台積電代工;但是三星也為特斯拉製造 HW3 晶片,所以由他們代工 D1 的可能性也很高。
相關文章:
落實「數位優先」的 UI 設計,Audi、福斯把 Logo 壓扁了?