人人妻人人澡人人爽人人精品av_精品乱码一区内射人妻无码_老司机午夜福利视频_精品成品国色天香摄像头_99精品福利国产在线导航_野花社区在线观看视频_大地资源在线影视播放_东北高大肥胖丰满熟女_金门瓶马车内剧烈运动

首頁(yè)>國(guó)內(nèi) > 正文

GPT-4使用混合大模型?研究證明MoE+指令調(diào)優(yōu)確實(shí)讓大模型性能超群

2023-07-09 15:28:05來(lái)源:機(jī)器之心

自 GPT-4 問(wèn)世以來(lái),人們一直驚艷于它強(qiáng)大的涌現(xiàn)能力,包括出色的語(yǔ)言理解能力、生成能力、邏輯推理能力等等。這些能力讓 GPT-4 成為機(jī)器學(xué)習(xí)領(lǐng)域最前沿的模型之一。然而,OpenAI 至今未公開 GPT-4 的任何技術(shù)細(xì)節(jié)。


(資料圖片)

上個(gè)月,喬治?霍茲(George Hotz)在接受一家名為 Latent Space 的 AI 技術(shù)播客的采訪時(shí)提到了 GPT-4,并稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來(lái)說(shuō),喬治?霍茲稱 GPT-4 采用由 8 個(gè)專家模型組成的集成系統(tǒng),每個(gè)專家模型都有 2200 億個(gè)參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過(guò)了針對(duì)不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。

Latent Space 的采訪內(nèi)容。

這或許只是喬治?霍茲的一種推測(cè),但這種模式確實(shí)有一定的合理性。最近,由來(lái)自谷歌、UC 伯克利、MIT 等機(jī)構(gòu)的研究者聯(lián)合發(fā)表的一篇論文證實(shí):混合專家模型(MoE)與指令調(diào)優(yōu)的結(jié)合能夠讓大型語(yǔ)言模型(LLM)的性能大幅提升。

圖片

論文地址:https://arxiv.org/pdf/2305.14705.pdf

稀疏混合專家模型是一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在不增加推理成本的情況下,為大型語(yǔ)言模型(LLM)增加可學(xué)習(xí)的參數(shù)。指令調(diào)優(yōu)(instruction tuning)是一種訓(xùn)練 LLM 遵循指令的技術(shù)。該研究發(fā)現(xiàn) MoE 模型比密集模型更能從指令調(diào)優(yōu)中獲益,因此提出將 MoE 和指令調(diào)優(yōu)結(jié)合起來(lái)。

該研究在三種實(shí)驗(yàn)設(shè)置下進(jìn)行了實(shí)證研究,包括

在沒(méi)有指令調(diào)優(yōu)的情況下在單個(gè)下游任務(wù)進(jìn)行直接微調(diào);指令調(diào)優(yōu)后對(duì)下游任務(wù)進(jìn)行 in-context 少樣本或零樣本泛化;指令調(diào)優(yōu)后對(duì)單個(gè)下游任務(wù)進(jìn)行進(jìn)一步微調(diào)。

在第一種情況下,MoE 模型總體上不如具有相同計(jì)算能力的密集模型。然而,隨著指令調(diào)優(yōu)的引入(第二和第三種情況),F(xiàn)LAN-MoE_32B(Fine-tuned LAnguage Net,簡(jiǎn)寫為 Flan,是一種經(jīng)過(guò)指令調(diào)優(yōu)的模型,F(xiàn)lan-MoE 即為指令調(diào)優(yōu) MoE)在四個(gè)基準(zhǔn)任務(wù)上性能超過(guò)了 FLAN-PALM_62B,卻只用了三分之一的 FLOPs。

如下圖所示,在使用指令調(diào)優(yōu)前,MoE→FT 不如 T5→FT。指令調(diào)優(yōu)后,F(xiàn)lan-MoE→FT 優(yōu)于 Flan-T5→FT。MoE 從指令調(diào)優(yōu)中獲得的收益 (+15.6) 大于密集模型 (+10.2):

圖片

看來(lái) GPT-4 采用混合模型還是有點(diǎn)根據(jù)的,MoE 確實(shí)能夠從指令調(diào)優(yōu)中獲得更大的收益:

圖片

方法概述

研究者在 FLAN-MOE (是一組經(jīng)過(guò)指令微調(diào)的稀疏混合專家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他們還用 MoE 層替換了其他 Transformer 層的前饋組件。

每個(gè) MoE 層可理解為一個(gè)「專家」,然后,使用 softmax 激活函數(shù)對(duì)這些專家進(jìn)行建模,得到一個(gè)概率分布。

盡管每個(gè) MoE 層有很多參數(shù),但專家是稀疏激活的。這意味著對(duì)于給定的輸入 token,只使用有限的專家子集就能完成任務(wù),從而為模型提供了更大的容量。

對(duì)于具有 E 個(gè)專家的 MoE 層,這實(shí)際上提供了 O (E^2) 種不同的前饋網(wǎng)絡(luò)組合,從而實(shí)現(xiàn)了更大的計(jì)算靈活性。

由于 FLAN-MoE 是經(jīng)過(guò)指令調(diào)優(yōu)的模型,因而指令調(diào)優(yōu)非常重要,該研究在 FLAN 集合數(shù)據(jù)集的基礎(chǔ)上對(duì) FLAN-MOE 進(jìn)行微調(diào)。此外,該研究將每個(gè) FLAN-MOE 的輸入序列長(zhǎng)度調(diào)整為 2048,輸出長(zhǎng)度調(diào)整為 512。

實(shí)驗(yàn)與分析

平均而言,在不增加任何額外計(jì)算的情況下,F(xiàn)lan-MoE 在所有模型尺度上都優(yōu)于密集的同類產(chǎn)品 (Flan-T5)。

圖片

專家數(shù)量。圖 4 顯示,隨著專家數(shù)量的增加,初始時(shí),模型受益于更豐富的專門子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)能夠處理問(wèn)題空間中的不同任務(wù)或方面。這種方式使得 MoE 在處理復(fù)雜任務(wù)時(shí)具有很強(qiáng)的適應(yīng)性和效率,從而整體上改善性能。然而,隨著專家數(shù)量的不斷增加,模型性能增益開始減少,最終達(dá)到飽和點(diǎn)。

圖片

圖 3 和表 1 詳細(xì)研究了不同的路由決策如何影響指令調(diào)優(yōu)性能:通過(guò) FLAN-Switch 和 FLAN-GS 策略之間的比較可以得出,激活更多的專家會(huì)在四個(gè)基準(zhǔn)測(cè)試中提高性能。在這些基準(zhǔn)測(cè)試中,MMLU-Direct 模型顯示出最顯著的改進(jìn),對(duì)于 BASE/LARGE 尺寸的模型,從 38.0% 增加到 39.9%。

值得注意的是,與等效容量的密集模型相比,指令調(diào)優(yōu)顯著放大了 MoE 模型在保留 MMLU、BBH 和內(nèi)部 QA 和推理基準(zhǔn)測(cè)試方面的性能。對(duì)于較大的 MoE 模型,這些優(yōu)勢(shì)進(jìn)一步放大。例如,指令調(diào)優(yōu)使 ST_32B 的性能提升了 45.2%,而對(duì)于 FLAN-PALM_62B,這種改進(jìn)相對(duì)較小,約為 6.6%。

當(dāng)進(jìn)行模型擴(kuò)展時(shí),F(xiàn)lan-MoE (Flan-ST-32B) 優(yōu)于 Flan-PaLM-62B 。

圖片

此外,該研究通過(guò) freeze 給定模型的門控函數(shù)(gating function)、專家模塊和 MoE 參數(shù)進(jìn)行了一些分析實(shí)驗(yàn)。如下表 2 所示,實(shí)驗(yàn)結(jié)果表明,freeze 專家模塊或 MoE 組件對(duì)模型性能有負(fù)面影響。

相反,freeze 門控函數(shù)會(huì)使模型性能略有改善,盡管并不明顯。研究者推測(cè)這一觀察結(jié)果與 FLAN-MOE 的欠擬合有關(guān)。該研究還進(jìn)行了消融實(shí)驗(yàn)來(lái)探究下圖 5 描述了微調(diào)數(shù)據(jù)效率消融研究。

最后,為了比較直接對(duì) MoE 進(jìn)行微調(diào)和 FLAN-MOE 之間的差距,該研究對(duì)單任務(wù)微調(diào)的 MoE、單任務(wù)微調(diào)的 FLAN-MoE 和密集模型進(jìn)行了實(shí)驗(yàn),結(jié)果如下圖 6 所示:

感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。

關(guān)鍵詞:

相關(guān)新聞

Copyright 2015-2020   三好網(wǎng)  版權(quán)所有 聯(lián)系郵箱:435 22 [email protected]  備案號(hào): 京ICP備2022022245號(hào)-21