瀾舟科技周明：大模型未必越大越好，百億級可能就夠用-快播報

2023-07-03 15:03:49來源：51CTO

本文整理自瀾舟科技創(chuàng)始人兼CEO周明在WOT2023大會上的主題分享，更多精彩內(nèi)容及現(xiàn)場PPT，請關(guān)注51CTO技術(shù)棧公眾號，發(fā)消息【W(wǎng)OT2023PPT】即可直接領(lǐng)取。

大模型概括一下就是幾件事：一是要有大規(guī)模的文本，比如說互聯(lián)網(wǎng)文本；二是用大規(guī)模的算力、用無監(jiān)督的方式訓(xùn)練一個大模型。大模型基本上就告訴你輸入的句子或者詞在上下文中的作用。你可以簡單地理解出它的語義、語法、前后文的制約等等。

(資料圖片)

基于這樣的理解，我們做下面的一些任務(wù)的時候，要么就做微調(diào)——在GPT-3之前，像BERT、T5都是通過微調(diào)的方式來支持下游任務(wù)的。所謂微調(diào)，就是對整個模型從底層到最高層，從輸入層到輸出層都要做一些調(diào)整，一個模型支持一個任務(wù)。

現(xiàn)在有了GPT-3以后，尤其是ChatGPT發(fā)展了提示詞的功能，就不用微調(diào)了。你告訴清楚你要做什么，如果還不能執(zhí)行好的話，你給它一兩個例子，它就可以完成你要的相應(yīng)任務(wù)，這個就大幅度提高模型的訓(xùn)練能力，使得一個模型可以支持N多個任務(wù)。

現(xiàn)在來講，大模型代表了兩件事：

第一，像ChatGPT這樣的模型支持了語言理解、多輪對話和問題求解，使這些功能進入到了可實用的階段。

第二，解決了AI或NLP任務(wù)碎片化開發(fā)問題，大幅度提高了研發(fā)效率，標志著NLP進入了工業(yè)化可實施階段。

大模型引導(dǎo)智能水平越來越高

AI最近幾年從AI 1.0到AI 2.0，到未來的AGI一點一點發(fā)展，整個趨勢，就是能力越來越強，開發(fā)效率越來越高，使用越來越簡單，結(jié)果越來越可控。

什么叫AI 1.0呢？就是一個任務(wù)一個模型，或者一個模型就管這一個任務(wù)。除了這個任務(wù)之外，其他的任務(wù)都不怎么支持，開發(fā)的周期比較冗長，投入資源也比較高。微調(diào)了什么能力就有什么能力，沒有所謂的涌現(xiàn)能力。我把所有大模型之前的能力，包括大模型早期的微調(diào)能力，都叫做AI 1.0模型。

有了ChatGPT和GPT-4后，就進入到所謂AI 2.0階段。用一個提示詞的技術(shù)，就把能力調(diào)用起來了。而且它上下文可以看得很長，出現(xiàn)了一些涌現(xiàn)能力。

所謂涌現(xiàn)能力，就是原來模型小的時候有些能力比較弱，模型一大或者數(shù)據(jù)量增加的時候，有些能力產(chǎn)生了躍遷，產(chǎn)生了一些意想不到的高水平能力。

AI 1.0和AI 2.0在目前是并存的，但是整個發(fā)展趨勢是不斷的從AI 1.0模型到AI 2.0模型，使得效率越來越高。

未來我們沿著這個趨勢，假設(shè)一個模型支持N多任務(wù)、而且N是越來越多的話，似乎就一點點走向所謂的AGI。但是也不一定那么容易，其實還是有很多問題。比如說對結(jié)果的可解釋性和不斷自我學習的能力，目前的大模型還是有點弱。再比如對能力和結(jié)果的可控，要符合人類倫理和社會規(guī)范，目前也還有挑戰(zhàn)。

但是不管怎么樣，大家可以看到目前存在這樣的一個趨勢，就是大模型、大數(shù)據(jù)引導(dǎo)著智能水平越來越高。

針對大模型的困惑和挑戰(zhàn)

大模型出來之后，各行各業(yè)都很興奮，想要試試大模型，也認為這是一個產(chǎn)業(yè)升級的機會。可是他們存在著很多困惑：

這么多大模型，我該采購呢？還是找一家模型廠商合作呢？甚至現(xiàn)在開源的這么多，是不是也可以自研？我不論怎么選擇，怎么知道這個大模型的水平？如何評估？我想知道這個大模型跟我這個行業(yè)知識、行業(yè)數(shù)據(jù)怎么一起工作。大模型有正兒八經(jīng)胡說八道的問題，就是所謂幻覺問題。我怎么用其長、克其短。如何保護企業(yè)的隱私安全。成本問題，大模型現(xiàn)在動不動報價幾百萬，甚至上千萬，我怎么來節(jié)省成本？大模型廠商也存在相應(yīng)的一些挑戰(zhàn)：怎么來理解行業(yè)，行業(yè)到底需要什么，不需要什么，多做什么，少做什么？大模型的功能和規(guī)格，大模型越練越大，軍備競賽受得了嗎？最后一公里，大模型做好了之后，如何跟用戶的業(yè)務(wù)嵌在一起，使它能夠很平滑地運轉(zhuǎn)？所謂的飛輪效應(yīng)。你做企業(yè)服務(wù)的話，企業(yè)有數(shù)據(jù)保護的問題，你怎么來實現(xiàn)飛輪效應(yīng)？要么數(shù)據(jù)飛輪，要么功能飛輪。大模型企業(yè)商業(yè)模式是什么？你是在云上部署、API調(diào)用、計量計費？還是到用戶那里本地部署？這兩者的利弊是什么？或者兩者都做的話，如何隨著時代的變化而做一些演變？大模型服務(wù)企業(yè)的關(guān)鍵解決之道

以上簡單介紹了大模型的發(fā)展，下面就介紹大模型服務(wù)企業(yè)的一些關(guān)鍵，我也希望我講的這些東西對于以上的疑問有一些解答。

第一，企業(yè)為什么要用大模型？用它干什么？這不能追風，別人用了你就得用。

企業(yè)現(xiàn)在都面臨很多的問題：一是降本增效。比如客服，服務(wù)1000人用10個人的客服，1萬人就是100個客服。線性增長的話，光客服就受不了，當然還有其他方面的因素。

客服偏向于勞動密集型，還有一些所謂智力密集型行業(yè)，比如做營銷文案設(shè)計，小紅書、微博、微信...不同的產(chǎn)品有不同的風格，設(shè)計任務(wù)很繁重。

第二，企業(yè)能不能做所謂的數(shù)智化轉(zhuǎn)型呢？它的前提是數(shù)據(jù)問題。企業(yè)過去十幾年，尤其是央企國企都有很多好的數(shù)據(jù)存在那兒?，F(xiàn)在恰好是大模型時代，把這樣的數(shù)據(jù)好好用起來，就能夠?qū)崿F(xiàn)降本增效的功能。

大模型如果做好的話，完全可以當成一個“企業(yè)大腦”來支持各個部門的應(yīng)用。

大模型時代怎么來促進企業(yè)新一代的軟件開發(fā)水平呢？可能很多人都用過Copilot（微軟在Windows 11中加入的AI助手），Copilot就是你編程的時候，它給你很多的提示和各種幫助。

我這里想強調(diào)的是，大模型時代實際上產(chǎn)生了一種新的軟件工程范式，軟件工程都不像以前那么做了。以前做一個項目，任務(wù)碎片化嚴重，數(shù)據(jù)標注代價大、開發(fā)周期大、交付成本高、維護困難。

現(xiàn)在有了大模型，你要做的事情是什么？就寫prompt或者微調(diào)，prompt就是一個模型管N個功能，你把prompt寫好之后在前面加一個界面就完事了。有的特別重要的功能你不好寫prompt，或者以前沒有積攢那么好的數(shù)據(jù)，你用大模型也是可以來加速整個開發(fā)過程的。

對于企業(yè)數(shù)智化轉(zhuǎn)型，搞一個多大的模型才好呢？其實我們要盲目跟風的話，搞個上萬億參數(shù)的模型是不是更好呢？但這就意味著成本非常之大。這樣的模型訓(xùn)練的代價大，部署的成本也比較高。給企業(yè)用，企業(yè)都不敢用，因為可能是32塊卡以上，甚至更多的A100以上才能把大模型支起來。

對于企業(yè)服務(wù)，到底用多大模型才好呢？我這里畫了一個曲線，來說明大模型應(yīng)該做多大為好。

其實我們今天所看到的大模型實際上是包含了兩個能力：語言理解能力和AGI能力。但是我們平時是混在一起用的，所以也分不清楚哪些地方是語言理解、哪些地方是AGI。就像高中畢業(yè)的同學跟一個院士對話，他倆的語言理解能力是一樣的，但是專業(yè)水平或解題能力不一樣。

那我們做企業(yè)服務(wù)的時候，更注重哪一塊呢？其實更注重語言理解能力。對于解題能力，企業(yè)有專門的引擎或者專門的資深專業(yè)人士來解決，大模型有時候正兒八經(jīng)胡說八道還可能添亂。

如果我們要做語言理解能力，我們要回到現(xiàn)實：只要做百億模型到千億之間任何一個選擇，就可以支持企業(yè)的數(shù)智化轉(zhuǎn)型了。

反過來推你需要多少卡去訓(xùn)，基本上是300塊卡到500塊卡就可以解決這樣的問題了，所以大家都放心了。

大模型做好之后，我們還要問一個問題：怎么去服務(wù)企業(yè)？怎么做好最后一公里？拿著大模型到企業(yè)說“你拿去用吧，準保好用”，基本都不好用，為什么？企業(yè)的需求跟通用模型的需求是不一樣的——最好的通用模型都不一定能解決企業(yè)的基本需求。

得先把人家所在的行業(yè)搞清楚，把行業(yè)的專家知識、數(shù)據(jù)灌到模型上，把你的模型充實。這就相當于高中畢業(yè)之后讀了某個專業(yè)，比如計算機專業(yè)，然后才能解答計算機專業(yè)的問題。

有了行業(yè)模型，要解決具體問題的時候，還要對每一個任務(wù)場景了解，這就是所謂最后一公里的問題。

比如以金融為例，就是金融研報提取、市場情緒、金融摘要生成、金融搜索、金融實體識別等等，有很多這樣的問題。你拿你的行業(yè)模型去試，如果不work的話，就得把企業(yè)已有的數(shù)據(jù)加進去，要么微調(diào)，要么寫prompt，把最后一公里的問題寫進去。

做大模型的人要跟企業(yè)合作，才能了解企業(yè)需求。第二你要跟企業(yè)一起做，把它的場景理解清楚，把它的業(yè)務(wù)理解清楚，把最后一公里做好。用這樣的模式服務(wù)企業(yè)，才能把大模型一步一步做到比較深入、徹底。

大模型和行業(yè)模型做好之后，怎么來做商業(yè)模式？其實仁者見仁、智者見智，底層是訓(xùn)練，然后訓(xùn)出很多模型，然后有那么多功能?，F(xiàn)在來講，要么就是通過云的方式，API計時計量。要么有些企業(yè)說我的數(shù)據(jù)不能上公有云，我要做本地部署。

你如何給企業(yè)做深度定制，然后本地部署？你的工作效率要足夠高，否則你沒有錢賺，你做一個會賠一個。這是第一件事，就是你如何有一個高效率的研究、開發(fā)和交付一條龍的團隊，高效率地完成從接單到支付的全過程。這時候就應(yīng)該把所謂大模型的技術(shù)好好用起來，比如說大模型的prompt技術(shù)用起來，來增加開發(fā)的效率或者降低成本等等。

第二是所謂飛輪問題，你要沒有飛輪的話，做完A再做B是一點收益也沒有，還得從頭開始做，做ToB企業(yè)服務(wù)最麻煩的就是很難產(chǎn)生飛輪。不過我覺得，在大模型時代，還是有一些機會能做出飛輪的。

一是在做行業(yè)模型的時候，如果是同一行業(yè)的不同企業(yè)，他們行業(yè)數(shù)據(jù)假設(shè)沒有保密的話，互相之間共享，然后把行業(yè)模型越做越大，這個是有可能產(chǎn)生一些飛輪效應(yīng)的。

二是prompt。你在服務(wù)不同企業(yè)的時候，服務(wù)的具體任務(wù)會寫prompt。那些prompt一般不是保密的，因為一個prompt對應(yīng)某一個功能。prompt積累下來，也會形成某種意義上的飛輪效應(yīng)。日積月累的話，你對行業(yè)越了解越深，數(shù)據(jù)積累越來越多，功能越來越多，某種意義上也形成了所謂的行業(yè)壁壘，使得你這個企業(yè)在這個行業(yè)可能是做到最好。其他企業(yè)剛進來缺乏這些飛輪效應(yīng)的話，可能落后于你，這樣你會有先期的機會。

以金融為例，大模型如何在行業(yè)落地

大模型做完之后怎么在行業(yè)落地？我舉一個金融行業(yè)的例子。金融行業(yè)大模型實際上是所謂L2模型，它是基于L1通用模型的基礎(chǔ)上，拿金融很多不同的數(shù)據(jù)灌進去，然后訓(xùn)練出金融模型。

這個金融模型能夠干什么呢？它能夠支持金融行業(yè)通用的一些任務(wù)，比如搜索問答、翻譯、文檔抽取、情感分析、文檔審核等等。另外支持企業(yè)的各種應(yīng)用場景，就是所謂Application Driven過程，它的底座一定要強。目前我們用孟子的通用模型，就是L1模型來支持各個行業(yè)的模型開發(fā)。

假設(shè)行業(yè)模型做好之后，在金融有哪些具體的場景呢？比如說客服，我們把金融大模型做好之后，金融客服怎么做？大家知道大模型有一個正兒八經(jīng)胡說八道的問題，所以簡單地把客服數(shù)據(jù)端對端訓(xùn)練也有可能產(chǎn)生一些正兒八經(jīng)胡說八道。比如你把前幾年的數(shù)據(jù)灌進去訓(xùn)，說某一件商品打折了，可能業(yè)務(wù)部門突然說這個商品不打折了。大模型學習得挺好，告訴用戶打折了，來買這個商品吧，那這個會對業(yè)務(wù)產(chǎn)生極大的煩擾。

這個時候大模型要用其長、克其短，它的長處就是意圖理解和對話生成。意圖理解完了之后，還是應(yīng)該走客服的業(yè)務(wù)數(shù)據(jù)庫。業(yè)務(wù)數(shù)據(jù)庫回復(fù)結(jié)果之后，再通過大模型的生成能力，多樣化、有溫度、個性化的生成所謂大模型的客服場景。

客戶的營銷場景，比如保險公司要推銷理財產(chǎn)品或者保險產(chǎn)品等等，那怎么來做營銷？無非是營銷內(nèi)容怎么生成？保險產(chǎn)品怎么推薦？銷售如何輔助，保險產(chǎn)品咨詢等等。甚至營銷人員的培訓(xùn)都可以用大模型來支撐。

我們投研人員經(jīng)常要做搜索，搜索完結(jié)果后研判，再寫報告。用大模型就可以把這三件事串在一起一體化來解決。大模型的匹配能力也增強了，語言理解能力增強，搜索結(jié)果就變好了。搜索完之后，對搜索結(jié)果做所謂的Chat，你可以了解一些細節(jié)，然后形成洞見、觀點或者摘要。最后再通過文本生成的技術(shù)，寫一篇研報發(fā)給有關(guān)人士共享。這三者都是通過一個大模型來支撐的。

這就是孟子大模型的體系結(jié)構(gòu)，最底層的是各種各樣的數(shù)據(jù)，比如通用數(shù)據(jù)、金融行業(yè)的垂直數(shù)據(jù)。孟子大模型訓(xùn)練出來，把這些金融數(shù)據(jù)灌進去，訓(xùn)練一個L2金融模型，然后有各種各樣的能力支撐，服務(wù)于金融企業(yè)。

最近我們練的模型，也跟現(xiàn)在市面上的已經(jīng)開源的通用大模型和開源的金融大模型做了對比。當然，也跟我們孟子大模型本身進行了對比。大家看到，1750億的參數(shù)的ChatGPT表現(xiàn)真的是不錯，在很多場合都是不錯的。但是我們雖然是100億級別的模型，由于專門做行業(yè)模型，也有一些場合比ChatGPT好。

所有的金融大模型訓(xùn)練出來的結(jié)果，它的水平比通用模型都好那么一些。這就說明從L1走到L2是有道理的，把金融場景數(shù)據(jù)灌進去，它的水平確實得到了相應(yīng)的提升。

基于這些大模型，在金融行業(yè)怎么落地？就是所謂L3的問題，很多的場景怎么落地？像我們的大模型做信用卡業(yè)務(wù)咨詢、換匯業(yè)務(wù)咨詢，然后海量數(shù)據(jù)中快速獲取關(guān)鍵信息用于智能投顧，然后是金融稿件的助寫，包括報告題綱和金融模板，以及理財產(chǎn)品的營銷、養(yǎng)老金的營銷，這些都是大模型可以寫出來的，只需要把需求寫清楚即可。理財咨詢，金融行業(yè)中外文之間的信息交流要做翻譯，目前的大模型也可以支持16種語言之間的金融領(lǐng)域的翻譯。

如果不用Chat這種交互方式，大模型還能帶來一種新的軟件工程開發(fā)范式的改變。舉一個例子，我們要做基于孟子大模型的行業(yè)搜索，過去非常麻煩的一件事?，F(xiàn)在有大模型就簡單了，所有這些能力用prompt就帶出來了。然后用API調(diào)用這些prompt，就有這樣的能力。

剩下你要做的工作，就是把界面設(shè)計清楚，體現(xiàn)出最佳的用戶體驗就行了。像這樣的搜索引擎，比如可以用金融的視頻會議分析，分析出它的摘要。整個會議兩個多小時講了什么東西，有哪些是正面情感，有哪些負面情感。沿著時間順序講了哪些主題？你可以瀏覽。也可以分析整個參會人員有哪幾個，出現(xiàn)了哪些實體或者關(guān)鍵詞，你可以快速瀏覽一個金融會議。

同樣的道理，做金融的研判也是一樣可以快速實現(xiàn)。大家可以看到用大模型實現(xiàn)具體行業(yè)L3的功能，就變得相對比較容易了。

這是再重溫一下L1、L2、L3的開發(fā)場景落地過程。L1就是通用大模型，L2是金融大模型，L3是各種場景模型。利用我剛才所講的軟件工程的開發(fā)規(guī)范，用prompt來寫各種各樣的能力調(diào)用，就可以快速生成一些具體的場景任務(wù)。

擁抱大模型：現(xiàn)在不起步就落伍了

最后講一些未來的思考，我們還是回到剛才開篇講到的企業(yè)困惑。

第一，大模型眼花繚亂，我該采購還是找一家廠家合作研究呢？還是利用開源自己做？

我覺得不同的人有不同的需求，有的大型企業(yè)有自己的能力想自己做；有的人稍微能力弱可能去買；也有的企業(yè)能力要好不壞，可能找一些大模型廠家合作，希望培養(yǎng)長期的能力。

我給大家的建議，如果你的任務(wù)是通用任務(wù)，也不要重新造一個輪子，直接調(diào)大模型廠家提供的云服務(wù)。如果覺得數(shù)據(jù)不能出來，干脆聊本地化部署的問題。

如果你的任務(wù)是特殊任務(wù)需要定制，你跟大模型廠家聊一聊，看看能不能幫你定制所謂L3的能力，或者考慮要么API調(diào)用，要么本地部署。如果想自研需要考慮有沒有一個厲害的團隊，而且自己要有足夠的大數(shù)據(jù)、大算力能力。

如果想用開源的話，你得研究開源能不能支撐這個能力，或者開源能不能支持你的內(nèi)部商用。這都是很多很多的問題。如果對自研沒有把握，最好找大模型廠家做深度合作。

第二，這么多大模型，包括自研的大模型怎么知道好和壞呢？

這就是所謂評測的問題，評測是很難的，但是特別重要。有一些公開評測從不同的角度評測，但都不代表權(quán)威的評測，有的是不同方面，你自己要做甄別。你喜歡哪些，不喜歡哪些，要集成在一起來做一些判斷。你自己關(guān)心的任務(wù)自己要做評測，對你要采用的各種模型，包括自研和外采都要做好評測，你覺得它好再進行深入地探討。

第三，行業(yè)知識怎么跟大模型工作？

有的人說，我的行業(yè)知識數(shù)據(jù)是不是都灌到大模型去訓(xùn)？你自己要判斷。有的是比較穩(wěn)定的數(shù)據(jù)可以灌在所謂L2模型上做Continue-Training。有的不能，你只能外掛，因為它是動態(tài)的、實時的變化，它是業(yè)務(wù)的數(shù)據(jù)。外掛怎么掛？現(xiàn)在有一些大模型的分發(fā)能力、調(diào)用集成像LangChain、向量數(shù)據(jù)庫等等，幫助你來實現(xiàn)某種意義上的外掛。

第四，大模型有很多“幻覺”，怎么用其長、克其短？

最好只用它的長處，就是意圖理解和多輪對話。輕易不要用它的AGI能力，如果底層有一些推理能力是可以用的，表層的AGI能力不一定可用。

第五，保護隱私的問題。

如果特別強調(diào)隱私，你就是本地化部署，否則也可以考慮云。無論哪種方式，你要對數(shù)據(jù)安全和隱私擁有完全的控制權(quán)。

第六，造價成本的問題。

現(xiàn)在大模型剛剛起來，練大模型的廠家花費巨大，大模型的成本是居高不下的。你要考慮，要么調(diào)用API，你就是計量計費；要么找一些小點的模型，像我這邊是力推輕量化模型，因為百億模型和千億模型造價成本差至少10倍以上。但是在企業(yè)服務(wù)的角度來講，百億模型的能力跟千億模型幾乎是一樣的。大家可以好好考慮這個問題。

最后強調(diào)一下，一定要擁抱大模型。不管是遲疑、觀望、等待還是自研，首先要采取行動，因為大模型會改變你所在的行業(yè)和所在企業(yè)的數(shù)智化能力。如果現(xiàn)在不起步的話，可能就落伍了。再過兩三年，你的競爭對手早就跑到你的前面去了。

關(guān)鍵詞：