GPT-4使用混合大模型？研究證明MoE+指令調(diào)優(yōu)確實(shí)讓大模型性能超群

2023-07-09 15:28:05來(lái)源：機(jī)器之心

自 GPT-4 問(wèn)世以來(lái)，人們一直驚艷于它強(qiáng)大的涌現(xiàn)能力，包括出色的語(yǔ)言理解能力、生成能力、邏輯推理能力等等。這些能力讓 GPT-4 成為機(jī)器學(xué)習(xí)領(lǐng)域最前沿的模型之一。然而，OpenAI 至今未公開 GPT-4 的任何技術(shù)細(xì)節(jié)。

(資料圖片)

上個(gè)月，喬治?霍茲（George Hotz）在接受一家名為 Latent Space 的 AI 技術(shù)播客的采訪時(shí)提到了 GPT-4，并稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來(lái)說(shuō)，喬治?霍茲稱 GPT-4 采用由 8 個(gè)專家模型組成的集成系統(tǒng)，每個(gè)專家模型都有 2200 億個(gè)參數(shù)（比 GPT-3 的 1750 億參數(shù)量略多一些），并且這些模型經(jīng)過(guò)了針對(duì)不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。

Latent Space 的采訪內(nèi)容。

這或許只是喬治?霍茲的一種推測(cè)，但這種模式確實(shí)有一定的合理性。最近，由來(lái)自谷歌、UC 伯克利、MIT 等機(jī)構(gòu)的研究者聯(lián)合發(fā)表的一篇論文證實(shí)：混合專家模型（MoE）與指令調(diào)優(yōu)的結(jié)合能夠讓大型語(yǔ)言模型（LLM）的性能大幅提升。

圖片

論文地址：https://arxiv.org/pdf/2305.14705.pdf

稀疏混合專家模型是一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)，可以在不增加推理成本的情況下，為大型語(yǔ)言模型（LLM）增加可學(xué)習(xí)的參數(shù)。指令調(diào)優(yōu)（instruction tuning）是一種訓(xùn)練 LLM 遵循指令的技術(shù)。該研究發(fā)現(xiàn) MoE 模型比密集模型更能從指令調(diào)優(yōu)中獲益，因此提出將 MoE 和指令調(diào)優(yōu)結(jié)合起來(lái)。

該研究在三種實(shí)驗(yàn)設(shè)置下進(jìn)行了實(shí)證研究，包括

在沒(méi)有指令調(diào)優(yōu)的情況下在單個(gè)下游任務(wù)進(jìn)行直接微調(diào)；指令調(diào)優(yōu)后對(duì)下游任務(wù)進(jìn)行 in-context 少樣本或零樣本泛化；指令調(diào)優(yōu)后對(duì)單個(gè)下游任務(wù)進(jìn)行進(jìn)一步微調(diào)。

在第一種情況下，MoE 模型總體上不如具有相同計(jì)算能力的密集模型。然而，隨著指令調(diào)優(yōu)的引入（第二和第三種情況），F(xiàn)LAN-MoE_32B（Fine-tuned LAnguage Net，簡(jiǎn)寫為 Flan，是一種經(jīng)過(guò)指令調(diào)優(yōu)的模型，F(xiàn)lan-MoE 即為指令調(diào)優(yōu) MoE）在四個(gè)基準(zhǔn)任務(wù)上性能超過(guò)了 FLAN-PALM_62B，卻只用了三分之一的 FLOPs。

如下圖所示，在使用指令調(diào)優(yōu)前，MoE→FT 不如 T5→FT。指令調(diào)優(yōu)后，F(xiàn)lan-MoE→FT 優(yōu)于 Flan-T5→FT。MoE 從指令調(diào)優(yōu)中獲得的收益 (+15.6) 大于密集模型 (+10.2)：

圖片

看來(lái) GPT-4 采用混合模型還是有點(diǎn)根據(jù)的，MoE 確實(shí)能夠從指令調(diào)優(yōu)中獲得更大的收益：

圖片

方法概述

研究者在 FLAN-MOE （是一組經(jīng)過(guò)指令微調(diào)的稀疏混合專家模型）模型中使用了稀疏激活 MoE（Mixture-of-Experts）。此外，他們還用 MoE 層替換了其他 Transformer 層的前饋組件。

每個(gè) MoE 層可理解為一個(gè)「專家」，然后，使用 softmax 激活函數(shù)對(duì)這些專家進(jìn)行建模，得到一個(gè)概率分布。

盡管每個(gè) MoE 層有很多參數(shù)，但專家是稀疏激活的。這意味著對(duì)于給定的輸入 token，只使用有限的專家子集就能完成任務(wù)，從而為模型提供了更大的容量。

對(duì)于具有 E 個(gè)專家的 MoE 層，這實(shí)際上提供了 O (E^2) 種不同的前饋網(wǎng)絡(luò)組合，從而實(shí)現(xiàn)了更大的計(jì)算靈活性。

由于 FLAN-MoE 是經(jīng)過(guò)指令調(diào)優(yōu)的模型，因而指令調(diào)優(yōu)非常重要，該研究在 FLAN 集合數(shù)據(jù)集的基礎(chǔ)上對(duì) FLAN-MOE 進(jìn)行微調(diào)。此外，該研究將每個(gè) FLAN-MOE 的輸入序列長(zhǎng)度調(diào)整為 2048，輸出長(zhǎng)度調(diào)整為 512。

實(shí)驗(yàn)與分析

平均而言，在不增加任何額外計(jì)算的情況下，F(xiàn)lan-MoE 在所有模型尺度上都優(yōu)于密集的同類產(chǎn)品 (Flan-T5)。

圖片

專家數(shù)量。圖 4 顯示，隨著專家數(shù)量的增加，初始時(shí)，模型受益于更豐富的專門子網(wǎng)絡(luò)，每個(gè)子網(wǎng)絡(luò)能夠處理問(wèn)題空間中的不同任務(wù)或方面。這種方式使得 MoE 在處理復(fù)雜任務(wù)時(shí)具有很強(qiáng)的適應(yīng)性和效率，從而整體上改善性能。然而，隨著專家數(shù)量的不斷增加，模型性能增益開始減少，最終達(dá)到飽和點(diǎn)。

圖片

圖 3 和表 1 詳細(xì)研究了不同的路由決策如何影響指令調(diào)優(yōu)性能：通過(guò) FLAN-Switch 和 FLAN-GS 策略之間的比較可以得出，激活更多的專家會(huì)在四個(gè)基準(zhǔn)測(cè)試中提高性能。在這些基準(zhǔn)測(cè)試中，MMLU-Direct 模型顯示出最顯著的改進(jìn)，對(duì)于 BASE/LARGE 尺寸的模型，從 38.0% 增加到 39.9%。

值得注意的是，與等效容量的密集模型相比，指令調(diào)優(yōu)顯著放大了 MoE 模型在保留 MMLU、BBH 和內(nèi)部 QA 和推理基準(zhǔn)測(cè)試方面的性能。對(duì)于較大的 MoE 模型，這些優(yōu)勢(shì)進(jìn)一步放大。例如，指令調(diào)優(yōu)使 ST_32B 的性能提升了 45.2%，而對(duì)于 FLAN-PALM_62B，這種改進(jìn)相對(duì)較小，約為 6.6%。

當(dāng)進(jìn)行模型擴(kuò)展時(shí)，F(xiàn)lan-MoE (Flan-ST-32B) 優(yōu)于 Flan-PaLM-62B 。

圖片

此外，該研究通過(guò) freeze 給定模型的門控函數(shù)（gating function）、專家模塊和 MoE 參數(shù)進(jìn)行了一些分析實(shí)驗(yàn)。如下表 2 所示，實(shí)驗(yàn)結(jié)果表明，freeze 專家模塊或 MoE 組件對(duì)模型性能有負(fù)面影響。

相反，freeze 門控函數(shù)會(huì)使模型性能略有改善，盡管并不明顯。研究者推測(cè)這一觀察結(jié)果與 FLAN-MOE 的欠擬合有關(guān)。該研究還進(jìn)行了消融實(shí)驗(yàn)來(lái)探究下圖 5 描述了微調(diào)數(shù)據(jù)效率消融研究。

最后，為了比較直接對(duì) MoE 進(jìn)行微調(diào)和 FLAN-MOE 之間的差距，該研究對(duì)單任務(wù)微調(diào)的 MoE、單任務(wù)微調(diào)的 FLAN-MoE 和密集模型進(jìn)行了實(shí)驗(yàn)，結(jié)果如下圖 6 所示：

感興趣的讀者可以閱讀論文原文，了解更多研究?jī)?nèi)容。

關(guān)鍵詞：