2023-07-09 15:28:05來(lái)源:機(jī)器之心
自 GPT-4 問(wèn)世以來(lái),人們一直驚艷于它強(qiáng)大的涌現(xiàn)能力,包括出色的語(yǔ)言理解能力、生成能力、邏輯推理能力等等。這些能力讓 GPT-4 成為機(jī)器學(xué)習(xí)領(lǐng)域最前沿的模型之一。然而,OpenAI 至今未公開 GPT-4 的任何技術(shù)細(xì)節(jié)。
(資料圖片)
上個(gè)月,喬治?霍茲(George Hotz)在接受一家名為 Latent Space 的 AI 技術(shù)播客的采訪時(shí)提到了 GPT-4,并稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來(lái)說(shuō),喬治?霍茲稱 GPT-4 采用由 8 個(gè)專家模型組成的集成系統(tǒng),每個(gè)專家模型都有 2200 億個(gè)參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過(guò)了針對(duì)不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。
Latent Space 的采訪內(nèi)容。
這或許只是喬治?霍茲的一種推測(cè),但這種模式確實(shí)有一定的合理性。最近,由來(lái)自谷歌、UC 伯克利、MIT 等機(jī)構(gòu)的研究者聯(lián)合發(fā)表的一篇論文證實(shí):混合專家模型(MoE)與指令調(diào)優(yōu)的結(jié)合能夠讓大型語(yǔ)言模型(LLM)的性能大幅提升。
圖片
論文地址:https://arxiv.org/pdf/2305.14705.pdf
稀疏混合專家模型是一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在不增加推理成本的情況下,為大型語(yǔ)言模型(LLM)增加可學(xué)習(xí)的參數(shù)。指令調(diào)優(yōu)(instruction tuning)是一種訓(xùn)練 LLM 遵循指令的技術(shù)。該研究發(fā)現(xiàn) MoE 模型比密集模型更能從指令調(diào)優(yōu)中獲益,因此提出將 MoE 和指令調(diào)優(yōu)結(jié)合起來(lái)。
該研究在三種實(shí)驗(yàn)設(shè)置下進(jìn)行了實(shí)證研究,包括
在沒(méi)有指令調(diào)優(yōu)的情況下在單個(gè)下游任務(wù)進(jìn)行直接微調(diào);指令調(diào)優(yōu)后對(duì)下游任務(wù)進(jìn)行 in-context 少樣本或零樣本泛化;指令調(diào)優(yōu)后對(duì)單個(gè)下游任務(wù)進(jìn)行進(jìn)一步微調(diào)。在第一種情況下,MoE 模型總體上不如具有相同計(jì)算能力的密集模型。然而,隨著指令調(diào)優(yōu)的引入(第二和第三種情況),F(xiàn)LAN-MoE_32B(Fine-tuned LAnguage Net,簡(jiǎn)寫為 Flan,是一種經(jīng)過(guò)指令調(diào)優(yōu)的模型,F(xiàn)lan-MoE 即為指令調(diào)優(yōu) MoE)在四個(gè)基準(zhǔn)任務(wù)上性能超過(guò)了 FLAN-PALM_62B,卻只用了三分之一的 FLOPs。
如下圖所示,在使用指令調(diào)優(yōu)前,MoE→FT 不如 T5→FT。指令調(diào)優(yōu)后,F(xiàn)lan-MoE→FT 優(yōu)于 Flan-T5→FT。MoE 從指令調(diào)優(yōu)中獲得的收益 (+15.6) 大于密集模型 (+10.2):
圖片
看來(lái) GPT-4 采用混合模型還是有點(diǎn)根據(jù)的,MoE 確實(shí)能夠從指令調(diào)優(yōu)中獲得更大的收益:
圖片
方法概述研究者在 FLAN-MOE (是一組經(jīng)過(guò)指令微調(diào)的稀疏混合專家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他們還用 MoE 層替換了其他 Transformer 層的前饋組件。
每個(gè) MoE 層可理解為一個(gè)「專家」,然后,使用 softmax 激活函數(shù)對(duì)這些專家進(jìn)行建模,得到一個(gè)概率分布。
盡管每個(gè) MoE 層有很多參數(shù),但專家是稀疏激活的。這意味著對(duì)于給定的輸入 token,只使用有限的專家子集就能完成任務(wù),從而為模型提供了更大的容量。
對(duì)于具有 E 個(gè)專家的 MoE 層,這實(shí)際上提供了 O (E^2) 種不同的前饋網(wǎng)絡(luò)組合,從而實(shí)現(xiàn)了更大的計(jì)算靈活性。
由于 FLAN-MoE 是經(jīng)過(guò)指令調(diào)優(yōu)的模型,因而指令調(diào)優(yōu)非常重要,該研究在 FLAN 集合數(shù)據(jù)集的基礎(chǔ)上對(duì) FLAN-MOE 進(jìn)行微調(diào)。此外,該研究將每個(gè) FLAN-MOE 的輸入序列長(zhǎng)度調(diào)整為 2048,輸出長(zhǎng)度調(diào)整為 512。
實(shí)驗(yàn)與分析平均而言,在不增加任何額外計(jì)算的情況下,F(xiàn)lan-MoE 在所有模型尺度上都優(yōu)于密集的同類產(chǎn)品 (Flan-T5)。
圖片
專家數(shù)量。圖 4 顯示,隨著專家數(shù)量的增加,初始時(shí),模型受益于更豐富的專門子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)能夠處理問(wèn)題空間中的不同任務(wù)或方面。這種方式使得 MoE 在處理復(fù)雜任務(wù)時(shí)具有很強(qiáng)的適應(yīng)性和效率,從而整體上改善性能。然而,隨著專家數(shù)量的不斷增加,模型性能增益開始減少,最終達(dá)到飽和點(diǎn)。
圖片
圖 3 和表 1 詳細(xì)研究了不同的路由決策如何影響指令調(diào)優(yōu)性能:通過(guò) FLAN-Switch 和 FLAN-GS 策略之間的比較可以得出,激活更多的專家會(huì)在四個(gè)基準(zhǔn)測(cè)試中提高性能。在這些基準(zhǔn)測(cè)試中,MMLU-Direct 模型顯示出最顯著的改進(jìn),對(duì)于 BASE/LARGE 尺寸的模型,從 38.0% 增加到 39.9%。
值得注意的是,與等效容量的密集模型相比,指令調(diào)優(yōu)顯著放大了 MoE 模型在保留 MMLU、BBH 和內(nèi)部 QA 和推理基準(zhǔn)測(cè)試方面的性能。對(duì)于較大的 MoE 模型,這些優(yōu)勢(shì)進(jìn)一步放大。例如,指令調(diào)優(yōu)使 ST_32B 的性能提升了 45.2%,而對(duì)于 FLAN-PALM_62B,這種改進(jìn)相對(duì)較小,約為 6.6%。
當(dāng)進(jìn)行模型擴(kuò)展時(shí),F(xiàn)lan-MoE (Flan-ST-32B) 優(yōu)于 Flan-PaLM-62B 。
圖片
此外,該研究通過(guò) freeze 給定模型的門控函數(shù)(gating function)、專家模塊和 MoE 參數(shù)進(jìn)行了一些分析實(shí)驗(yàn)。如下表 2 所示,實(shí)驗(yàn)結(jié)果表明,freeze 專家模塊或 MoE 組件對(duì)模型性能有負(fù)面影響。
相反,freeze 門控函數(shù)會(huì)使模型性能略有改善,盡管并不明顯。研究者推測(cè)這一觀察結(jié)果與 FLAN-MOE 的欠擬合有關(guān)。該研究還進(jìn)行了消融實(shí)驗(yàn)來(lái)探究下圖 5 描述了微調(diào)數(shù)據(jù)效率消融研究。
最后,為了比較直接對(duì) MoE 進(jìn)行微調(diào)和 FLAN-MOE 之間的差距,該研究對(duì)單任務(wù)微調(diào)的 MoE、單任務(wù)微調(diào)的 FLAN-MoE 和密集模型進(jìn)行了實(shí)驗(yàn),結(jié)果如下圖 6 所示:
感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。
關(guān)鍵詞:
自GPT-4問(wèn)世以來(lái),人們一直驚艷于它強(qiáng)大的涌現(xiàn)能力,包括出色的語(yǔ)言理
3D人像合成一直是備受關(guān)注的AIGC領(lǐng)域。隨著NeRF和3D-awareGAN的日益進(jìn)
緩存失效是從緩存中移除或更新過(guò)時(shí)數(shù)據(jù)的過(guò)程,以確保僅存儲(chǔ)最新、最準(zhǔn)
白癜風(fēng)在我們?nèi)巳褐?,白癜風(fēng)患者應(yīng)該不太陌生,白癜風(fēng)在大多數(shù)人的
路透社7月9日消息,美國(guó)總統(tǒng)拜登將于當(dāng)?shù)貢r(shí)間9日抵達(dá)英國(guó)展開訪問(wèn),其
7月8日,上海人工智能研究院和上海申花足球俱樂(lè)部簽署戰(zhàn)略合作協(xié)議,并
天津北方網(wǎng)訊:炎炎夏日,為普及心理健康知識(shí),提高老年人自我疏導(dǎo)、調(diào)
炎炎夏日,你是否會(huì)感到食欲不佳,特別是熬完夜起床更加沒(méi)胃口,時(shí)間來(lái)
7月8日,蘭州市全民健身指導(dǎo)中心與甘肅省郵儲(chǔ)中心蘭州分行在蘭州體育公
隊(duì)記:波波維奇上賽季多次表示錢是他繼續(xù)執(zhí)教的原因,隊(duì)記,軍校,軍訓(xùn),首
據(jù)海通國(guó)際科技研究的分析師JeffPu最新預(yù)測(cè),9月份蘋果即將發(fā)布全新一
李建群,建群的簡(jiǎn)介很多人還不知道,現(xiàn)在讓我們一起來(lái)看看吧!1、李建
陳華在個(gè)人微博中寫道:海港1-1大連人,賽后肯定有些討論的。我認(rèn)為,
7月7日,在《每日經(jīng)濟(jì)新聞》舉辦的2023中國(guó)保險(xiǎn)業(yè)創(chuàng)新與發(fā)展論壇上,平
1、朝陽(yáng)區(qū)團(tuán)結(jié)湖街道水碓子社區(qū)青年志愿者服務(wù)隊(duì)是由朝陽(yáng)區(qū)團(tuán)結(jié)湖街道