近日,All In Podcast 的訪談揭露了關於 xAI 的一些重大信息。市場普遍認為,組建一個由30,000個GPU組成的“單一大腦”超級數據中心已接近技術極限。當前,很多數據中心的設計都以30,000個GPU為一個單位(unit)。然而,Elon Musk 以其一貫的作風,運用第一性原理,挑戰將超過100,000個Nvidia H100/200芯片連接成一個大腦。現在,這一突破已經在xAI的Grok大語言模型訓練中成功應用,期待其訓練成果。
Scaling Law的限制
如果你對AI訓練有深入研究,應該了解訓練與測試成果之間呈現特定Scaling Law的關係(如下圖所示)。這三個圖表展示了訓練AI模型的橫軸(所需的算力、模型複雜度/大小、數據量)與縱軸(類似於測試偏差)的對比。它們都遵循相同的Scaling Law。然而,這一規律存在一個顯著的缺陷:當接近零偏差時,所需的三個條件都呈指數型增加,且無法突破圖中顯示的斜線。
在這三個要素中,模型複雜度可以通過設計來調整,數據可以大量收集,但算力則面臨瓶頸。這也是目前普遍出現產能不足的原因。如何在有限的芯片數量下提升算力?有兩個方法:一是使用更強大的GPU,如Nvidia推出的Blackwell;二是像xAI這樣嘗試鏈接更多GPU組成一個腦的超級數據中心。
下一代人工智能可能是另一个层次?
如果Scaling Law在超過30,000個GPU為一腦的算力下仍能維持,xAI必然會領先其他已顯示進度放緩的大語言模型公司。更重要的是,Nvidia已同意優先向xAI供應大部分Blackwell芯片。加上馬斯克還提出試圖連接一百萬個GPU的目標,Grok AI是否能在競爭中曲線超車?
其他質料來源:
1. https://youtu.be/mWeX5EqB9sY?si=lLbRbMkfCggmHgzP
2. https://www.yahoo.com/tech/musks-xai-plans-supercomputer-1-205730050.html
沒有留言:
發佈留言