2023-08-01 15:28:02來源:新智元
模型推斷時(shí),避免將算力浪費(fèi)在緩慢收斂上至關(guān)重要。
(相關(guān)資料圖)
孫子兵法的一句話「多算勝,少算不勝」,便闡盡了這個(gè)道理。
Chinchilla究竟是什么?較小的模型,乘法少,因此它們跑得更快,訓(xùn)練得也快。
然而,通常人們認(rèn)為,小模型最終會(huì)達(dá)到知識(shí)能力的極限,學(xué)習(xí)速度會(huì)變慢。
而一個(gè)具有更大規(guī)模的模型,將超過小模型,并在給定的訓(xùn)練時(shí)間內(nèi)取得更好的性能。
在評(píng)估模型如何在訓(xùn)練期間獲得最佳性能時(shí),OpenAI和DeepMind都試圖繪制帕累托邊界(Pareto frontier),但他們沒有明確說明是使用該理論繪制的。
不過,OpenAI最近的一句話暗示著這一假設(shè):
我們期望較大的模型總是比較小的模型表現(xiàn)更好。[…] 大小固定的模型將受到GPU容量限制。
這一假設(shè)是OpenAI計(jì)算帕累托邊界的基礎(chǔ)。
在此,我們先介紹下DeepMind成員在2022年的工作Chinchilla模型,其技術(shù)原理和其他同類模型一樣(比如GPT-3) ,區(qū)別在于訓(xùn)練參數(shù)和數(shù)據(jù)量。
DeepMind宣稱,「對(duì)于計(jì)算優(yōu)化訓(xùn)練,模型大小和訓(xùn)練數(shù)據(jù)集大小應(yīng)該相等地縮放: 模型大小每增加一倍,訓(xùn)練數(shù)據(jù)集大小也應(yīng)該加倍?!?/p>
圖片
Chinchilla AI通過使用與Gopher相同的計(jì)算預(yù)算,但具有70B個(gè)參數(shù)和4倍多的數(shù)據(jù),來訓(xùn)練一個(gè)計(jì)算更優(yōu)化的模型Chinchilla ,從而來檢驗(yàn)這一假設(shè)。
驗(yàn)證結(jié)果表明Chinchilla 在大量下游評(píng)估任務(wù)中明顯優(yōu)于 Gopher、GPT-3、Jurassic-1 和 Megatron-Turing NLG。
Chinchilla 在MMLU 基準(zhǔn)測(cè)試中的平均準(zhǔn)確率達(dá)到 67.5%,比 Gopher 提高了 7% 以上。
圖片
在Chinchilla的工作中,如圖顯示了不同大小模型大量訓(xùn)練運(yùn)行的訓(xùn)練損失。
乍一看,這些曲線遵循理論:較小的模型最初損失較低,但最終速度變慢,并被較大模型的曲線超越。
圖片
在圖表中,較小的模型性能低于較大的模型時(shí),都標(biāo)記成灰點(diǎn)?;疑€,即帕累托邊界,是計(jì)算比例定律的方式。
這個(gè)假設(shè)的問題在于,我們不知道如果讓較小的模型訓(xùn)練更長(zhǎng)時(shí)間會(huì)發(fā)生什么,因?yàn)橐坏┧怀?,他們就停止?xùn)練。
讓我們來看LLaMA。
Chinchilla能復(fù)刻Llama曲線嗎?今年早些時(shí)候,Meta訓(xùn)練了4個(gè)不同大小的模型。與其他模型不同,研究人員對(duì)每一個(gè)模型都進(jìn)行了大量的訓(xùn)練,即使是規(guī)模較小的模型。
他們還發(fā)布了訓(xùn)練運(yùn)行曲線:
圖片
1. 每條曲線首先在冪定律中直線下降
2. 然后似乎進(jìn)入了一個(gè)近乎線性的損失遞減過程(與相當(dāng)恒定的知識(shí)獲取率相對(duì)應(yīng))
3. 在曲線的最末端,它們都變得稍微平緩
首先,我們想談?wù)勅藗儗?duì)「曲線末端變平坦」的一個(gè)微妙誤解。
它們都是通過使用可變學(xué)習(xí)率的梯度下降法進(jìn)行訓(xùn)練的(學(xué)習(xí)率大致是一個(gè)超參數(shù),用于確定向梯度方向移動(dòng)的幅度)。
為了獲得良好的訓(xùn)練效果,它們必須不斷降低學(xué)習(xí)率,這樣才能在源素材中檢測(cè)到更微小的模式。
而它們使用的降速公式是最廣泛使用的:余弦時(shí)間表(the cosine schedule)。
圖片
正如從圖表中看到的,在訓(xùn)練快結(jié)束時(shí),余弦時(shí)間表停止以產(chǎn)生良好的、近線性的訓(xùn)練損失曲線的速度降低學(xué)習(xí)率。
學(xué)習(xí)速度的減慢就是這樣導(dǎo)致的結(jié)果。模型還是可能有能力以同樣接近線性的速度來學(xué)習(xí)。
事實(shí)上,如果我們給它更多的文本,就會(huì)拉長(zhǎng)余弦時(shí)間表,這樣它的學(xué)習(xí)率就會(huì)以同樣的速度繼續(xù)下降。
模型的適應(yīng)情況并不依賴于,我們可以為其訓(xùn)練提供的數(shù)據(jù)量。因此,學(xué)習(xí)率下降的變化是不合理的。
不過,這不是本文的重點(diǎn)。
訓(xùn)練損失曲線可能會(huì)以另一種方式誤導(dǎo)我們。
當(dāng)然,它們都是在相同的數(shù)據(jù)上訓(xùn)練的,但它們不會(huì)以相同的速度處理這些數(shù)據(jù)。
我們想知道的不是模型的樣本效率又如何(在這方面,較大的模型顯然從它所看到的數(shù)據(jù)中學(xué)到更多東西)。
讓我們想象一場(chǎng)比賽:所有這些模型都在同一時(shí)間開始,我們想知道哪一個(gè)先越過終點(diǎn)線。
換句話說,當(dāng)在訓(xùn)練中投入固定計(jì)算量時(shí),誰在這段時(shí)間里學(xué)得最多?
值得慶幸的是,我們可以將損失曲線與Meta提供的另一項(xiàng)數(shù)據(jù)結(jié)合起來:每個(gè)模型訓(xùn)練所花費(fèi)的時(shí)間。
圖片
圖片
首先要說明的是,我們看到的整個(gè)Chinchilla圖形只覆蓋了這個(gè)圖形左邊的一小塊。
在這一小片區(qū)域中,我們看到了與Chinchilla記錄相同的行為。
以7B為例:一開始,它的損耗下降速度比更大的模型快得多,然后速度減慢,13B模型超過了它,首先達(dá)到了1.9。
但是,接下來是一個(gè)遙遠(yuǎn)的、意想不到的轉(zhuǎn)折:
7B進(jìn)入一個(gè)近乎線性的狀態(tài),呈陡峭的下降趨勢(shì),似乎正在再次超越13B?很難從這張圖上看出如果7B訓(xùn)練得更久會(huì)發(fā)生什么。
然而,13B和33B之間似乎也有同樣的行為,最初的Chinchilla減速也近乎線性的狀態(tài),此時(shí)13B下降得很快。
就33B來說,它的計(jì)算時(shí)間是13B兩倍,因此超越13B理所當(dāng)然。
33B和65B之間也出現(xiàn)了同樣的先減速后加速的情況,以至于33B實(shí)際上從未被65B超越。
圖表顯示的情況打破了OpenAI和Chinchilla的假設(shè):更大的模型還沒有贏(尚未)。他們檢測(cè)到的速度減慢實(shí)際上并不是因?yàn)檫_(dá)到了某個(gè)容量極限!
不過,7B曲線還是有點(diǎn)不盡人意。如果Meta對(duì)其進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練就好了... 而現(xiàn)在,他們做到了!Meta本周發(fā)布了 LLaMA 2!
證實(shí)「質(zhì)疑」圖片
同樣,Llama 2也公布了模型的訓(xùn)練時(shí)間:
圖片
圖片
一眼望去,我們就會(huì)發(fā)現(xiàn)訓(xùn)練曲線與LLaMA 1并不一致,即使模型完全相同。
原來,LLaMA 2是在雙倍的上下文大小和更長(zhǎng)的余弦時(shí)間上進(jìn)行訓(xùn)練的,不幸的是,這對(duì)所有大小的模型都產(chǎn)生了負(fù)面影響。
不過,較小模型受到的影響比較大模型更嚴(yán)重。
因此,在 LLaMA 1中,34B模型在任何訓(xùn)練時(shí)間內(nèi)都始終優(yōu)于65B模型,而現(xiàn)在則略高于70B模型,之后又超過了70B模型:
圖片
更重要的是,對(duì)訓(xùn)練速度的比較有力地證實(shí)了我們對(duì)LLaMA 1的猜測(cè):
1. 首先,它們比更大的模型更快,
2. 然后,它們放慢速度,被較大的模型超越(根據(jù)Chinchilla的說法)
3. 但隨后,它們又進(jìn)入了近似線性的狀態(tài),在這種狀態(tài)下,較小的模型會(huì)以更陡峭的速度下降,從而獲得更優(yōu)越的知識(shí),并再次超越較大的模型!
一個(gè)有趣的結(jié)果與開始訓(xùn)練時(shí)做出正確的選擇有關(guān):與人們普遍認(rèn)為的相反,更大的模型會(huì)產(chǎn)生更差的結(jié)果。
如果必須選擇參數(shù)大小和數(shù)據(jù)集,最好選擇一個(gè)7B模型,并在數(shù)萬億個(gè)token上訓(xùn)練7個(gè)epoch。
看看7B的近線性機(jī)制,再推斷一下70B模型的停止時(shí)間:如果把70B的計(jì)算用在7B模型上,那么它可能會(huì)達(dá)到更低的困惑度(perplexity)!
我們從LLaMA 2中注意到的另一件事是,LLaMA 1曲線末端的學(xué)習(xí)速度減慢確實(shí)是余弦時(shí)間表的一個(gè)假象。
在LLaMA 2的訓(xùn)練中,讀取1萬億token的相應(yīng)時(shí)間點(diǎn)上完全沒有出現(xiàn)這種放緩現(xiàn)象。
事實(shí)上,在同樣token下,LLaMA 2 7B模型比LLaMA 17B模型質(zhì)量差,原因可能是它的余弦時(shí)間表被拉長(zhǎng)了!
讓我們回到Chinchilla的論文來論證這一點(diǎn)。在附錄A圖A1 中,他們展示了針對(duì)各種余弦時(shí)間表參數(shù)的消融研究(拉伸學(xué)習(xí)率曲線的各種方法)。
圖片
他們指出,當(dāng)曲線不被拉長(zhǎng)時(shí),損失最低。圖表證明了這一點(diǎn),但作者也注意到了一些不對(duì)勁的地方。
在讀取了600萬個(gè)token后,頂部模型的訓(xùn)練損失低于2.8。與此同時(shí),在同一標(biāo)記處,底部模型的訓(xùn)練損失高于2.8。
然而,模型之間唯一的區(qū)別就是余弦時(shí)間表!
由于底層模型需要訓(xùn)練更多的數(shù)據(jù),因此「未拉伸」余弦值被計(jì)算為更多的步驟,這有效地拉伸了它。
如果學(xué)習(xí)率遵循分配給更少訓(xùn)練步驟的時(shí)間表,那么在相同的訓(xùn)練時(shí)間內(nèi)會(huì)有更好的損失。
更廣義地說,這就提出了一個(gè)問題:如果余弦時(shí)間表不是最優(yōu)的,那么曲線的尾部形狀應(yīng)該是怎樣的呢?
參考資料:https://espadrine.github.io/blog/posts/chinchilla-s-death.html#Can_Chinchillas_picture_a_Llama_s_sights
關(guān)鍵詞:
模型推斷時(shí),避免將算力浪費(fèi)在緩慢收斂上至關(guān)重要。孫子兵法的一句話「
企業(yè)正在收集拍字節(jié)、艾字節(jié)甚至澤字節(jié)數(shù)量級(jí)的數(shù)據(jù)。但數(shù)據(jù)是混亂的,
自ChatGPT問世,OpenAI使用的訓(xùn)練方法人類反饋強(qiáng)化學(xué)習(xí)(RLHF)就備受
今日,鄭州市政府新聞辦舉行鄭州市公交線網(wǎng)服務(wù)提升專題新聞發(fā)布會(huì),介
燃油附加費(fèi)年內(nèi)首次上調(diào),800公里以上航線每位旅客收取60元
我們說過,用戶分層是一種特殊的用戶細(xì)分形式:按價(jià)值高低細(xì)分。那普遍
來源:巨靈財(cái)經(jīng),作者:巨靈團(tuán)隊(duì)8月1日A股三大指數(shù)沖高回落,截至午間
7月31日,前夜即落下的雨沒有停的意思。持續(xù)的強(qiáng)降雨摧毀了北京門頭溝
8部門:持續(xù)推出平臺(tái)企業(yè)“綠燈”投資案例,綠燈,中小企業(yè),平臺(tái)企業(yè),投
格隆匯8月1日丨中國(guó)外運(yùn)(00598 HK)公布,公司注意到公司H股股份于2023
從前車馬很慢,一生只夠愛一人,如今,互聯(lián)網(wǎng)飛速發(fā)展,層出不窮的
物聯(lián)網(wǎng)(IoT)徹底改變了我們與技術(shù)的互動(dòng),使物體和設(shè)備能夠無縫通信、
近日,在第二屆大國(guó)工匠創(chuàng)新交流大會(huì)暨大國(guó)工匠論壇上,天津鴕鳥墨水有
海南限購(gòu)區(qū)域網(wǎng)簽后戶口能轉(zhuǎn)走嗎(海南怎么買房)海南島疊拼公寓大全。
1、首先redis是什么Redis(RemoteDictionaryServer),是一個(gè)高性能的基