2023-06-29 18:15:47來源:新智元
最新MLPerf訓練基準測試中,H100 GPU在所有的八項測試中都創(chuàng)下了新紀錄!
如今,NVIDIA H100幾乎已經(jīng)統(tǒng)治了所有類別,并且是新LLM基準測試中使用的唯一 的GPU。
(資料圖片僅供參考)
圖片
3,584個H100 GPU群在短短11分鐘內(nèi)完成了基于GPT-3的大規(guī)?;鶞蕼y試。
MLPerf LLM基準測試是基于OpenAI的GPT-3模型進行的,包含1750億個參數(shù)。
Lambda Labs估計,訓練這樣一個大模型需要大約3.14E23 FLOPS的計算量。
11分鐘訓出GPT-3的怪獸是如何構成的在LLM和BERT自然語言處理 (NLP) 基準測試中排名最高的系統(tǒng),是由NVIDIA和Inflection AI聯(lián)合開發(fā)。
由專門從事企業(yè)級GPU加速工作負載的云服務提供商CoreWeave托管。
該系統(tǒng)結合了3584個NVIDIA H100加速器和896個Intel Xeon Platinum 8462Y+處理器。
圖片
因為英偉達在H100中引入了新的Transformer引擎,專門用于加速Transformer模型訓練和推理,將訓練速度提高了6倍。
CoreWeave從云端提供的性能與英偉達從本地數(shù)據(jù)中心運行的AI超級計算機所能提供的性能已經(jīng)非常接近了。
這得益于CoreWeave使用的NVIDIA Quantum-2 InfiniBand網(wǎng)絡具有低延遲網(wǎng)絡。
隨著參與訓練的H100 GPU從數(shù)百個擴展到3000多個。
良好的優(yōu)化使得整個技術堆棧在要求嚴苛的LLM測試中實現(xiàn)了近乎線性的性能擴展。
如果將GPU的數(shù)量降低到一半,訓練相同的模型時間會增加到24分鐘。
說明整個系統(tǒng)的效率潛力,隨著GPU的增加,是超線性的。
最主要的原因是,英偉達從GPU設計之初就考慮到了這個問題,使用NVLink技術來高效實現(xiàn)了GPU之間的通信。
圖片
在參與測試的90個系統(tǒng)中,有82個系統(tǒng)都使用了英偉達的GPU進行加速。
圖片
單卡訓練效率
圖片
系統(tǒng)集群訓練時間對比
英特爾參加測評的系統(tǒng)使用64到96個不等的Intel Xeon Platinum 8380 處理器和256到389個不等的Intel Habana Gaudi2加速器。
然而,英特爾提交的GPT-3的訓練時間為311分鐘。
成績和英偉達相比就稍微有點慘不忍睹了。
分析師:英偉達優(yōu)勢過大行業(yè)分析師認為,英偉達的在GPU上的技術優(yōu)勢是非常明顯的。
而它作為AI基礎設施提供商,在行業(yè)中的主導地位還體現(xiàn)在英偉達多年建立起來的生態(tài)系統(tǒng)粘性上。
AI社區(qū)對英偉達的軟件的依賴性也非常強。
幾乎所有AI框架都基于英偉達提供的底層CUDA庫和工具。
圖片
而且它還能提供全堆棧的AI工具和解決方案。
除了為AI開發(fā)人員提供支持之外,英偉達還繼續(xù)投資用于管理工作負載和模型的企業(yè)級工具。
在可預見的未來,英偉達在行業(yè)的領先地位將會非常穩(wěn)固。
分析師還進一步指出。
MLPerf測試結果中所展現(xiàn)的,NVIDIA系統(tǒng)在云端進行AI訓練的強大功能和效率,才是英偉達「戰(zhàn)未來」的最大本錢。
下一代Ada Lovelace GPU,2025年發(fā)布Tom"s Hardware自由撰稿人Zhiye Liu也于近日發(fā)文,介紹了下一代英偉達Ada Lovelace顯卡的計劃。
H100訓練大模型的能力,毋庸置疑。
只用3584個H100,短短11分鐘內(nèi),就能訓練出一個GPT-3模型。
在最近的新聞發(fā)布會上,英偉達分享了一份新路線圖,詳細介紹了下一代產(chǎn)品,包括GeForce RTX 40系列Ada Lovelace GPU的繼任者,而前者,是當今最好的游戲顯卡。
圖片
根據(jù)路線圖,英偉達計劃在2025年推出「Ada Lovelace-Next」顯卡。
如果繼續(xù)沿用當前的命名方案,下一代GeForce產(chǎn)品應該是作為GeForce RTX 50系列上市。
根據(jù)南美組織LAPSU$得到的信息,Hopper Next很可能被命名為Blackwell。
在消費級顯卡上,英偉達保持著兩年一更新的節(jié)奏。
他們在2016年推出了Pascal,在2018年推出了Turing,在2020年推出了Ampere,在2022年推出了Ada Lovelace。
如果這次Ada Lovelace的繼任者會在2025年推出,英偉達無疑就打破了通常的節(jié)奏。
圖片
最近的AI大爆發(fā),產(chǎn)生了對英偉達GPU的巨大需求,無論是最新的H100,還是上一代的A100。
根據(jù)報道,某大廠今年就訂購了價值10億美元的Nvidia GPU。
盡管有出口限制,但我國仍然是英偉達在全世界最大的市場之一。
(據(jù)說,在深圳華強北電子市場,就可以買到少量英偉達A100,每塊售價為2萬美元,是通常價格的兩倍。)
對此,英偉達已經(jīng)對某些AI產(chǎn)品做了微調(diào),發(fā)布了H100或A800等特定SKU,以滿足出口要求。
Zhiye Liu對此分析道,換個角度看,出口法規(guī)其實是有利于英偉達的,因為這意味著芯片制造商客戶必須購買更多原版GPU的變體,才能獲得同等的性能。
這也就能理解,為什么英偉達會優(yōu)先考慮生成計算GPU,而非游戲GPU了。
最近的報道顯示,英偉達已經(jīng)增加了計算級GPU的產(chǎn)量。
沒有面臨來自AMD的RDNA 3產(chǎn)品堆棧的激烈競爭,英特爾也沒有對GPU雙頭壟斷構成嚴重威脅,因此,英偉達在消費側可以拖延。
最近,Nvidia通過GeForce RTX 4060和GeForce RTX 4060 Ti,將其GeForce RTX 40系列產(chǎn)品堆棧又擴大了。
GeForce RTX 4050以及頂部的RTX 4080 Ti或GeForce RTX 4090 Ti等,都有潛力。
如果迫不得已,英偉達還可以從舊的Turing版本中拿出一個產(chǎn)品,更新Ada Lovelace,給它封個「Super」待遇,進一步擴展Ada陣容。
最后,Zhiye Liu表示,至少今年或明年,Lovelace架構不會真正更新。
關鍵詞:
最新MLPerf訓練基準測試中,H100GPU在所有的八項測試中都創(chuàng)下了新紀錄
此前,曾有不少人研發(fā)ChatGPT檢測器,但沒有一個能夠真正有效鑒別。來
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。
問題:打擾一下各位,天價賬單餐廳回應說了什么。剛剛看到一個新聞,餐
中國經(jīng)濟網(wǎng)北京6月29日訊今日,白酒概念板塊整體跌幅0 63%,其中14只股
夏季氣溫高、濕度大,有利于病原菌的繁殖,食物被污染的可能性較大,容
后臺回復品牌免費獲得《50本品牌營銷必讀書》作者|Hiu來源|互聯(lián)網(wǎng)品牌
人行大同市中支認真貫徹落實上級行反洗錢工作會議精神,結合當前反洗錢
【 山西一煤礦發(fā)生頂板冒落事故 】據(jù)大同發(fā)布微信公眾號29日消息,晉能
中新網(wǎng)揚州6月29日電(崔佳明葛勇徐珊珊)6月28日至29日,來自俄羅斯、赤
醫(yī)生經(jīng)過辨認,這4名患者采食的雜菌中包括了亞稀褶紅菇、牛肚菌、新苦
6月28日,西安美術學院2023屆畢業(yè)典禮暨學位授予儀式在雁塔校區(qū)弘美廣
當前,隨著我國數(shù)字化轉型的深入,作為數(shù)字化底座的網(wǎng)絡安全對于企業(yè)組
《逆來順獸》是知音漫客出品的一部古風耽美言情漫畫。騰訊動漫連載中,
smart品牌全球公司發(fā)布聲明稱,關注到網(wǎng)絡流傳“奔馳和吉利退出smart股