“百模大戰(zhàn)”打響，我們究竟需要什么樣的大模型

時間：2023-09-28 10:17:27|來源：科技日報|點擊量：22907

【深瞳工作室出品】

采寫：本報記者都芃劉艷

策劃：劉莉李坤

大模型展現(xiàn)出的通用智能能力具有重要的現(xiàn)實意義和影響力，是人工智能發(fā)展中里程碑式的進展。大模型帶來的智能革命，將媲美工業(yè)革命和電力革命，深刻改變?nèi)祟惿鐣纳a(chǎn)生活方式。大模型，或許正是開啟智能時代的那一臺“蒸汽機”。

要問今年最熱的科技熱點是什么，許多人會脫口而出——大模型。從年初ChatGPT引發(fā)的大模型浪潮，到相關(guān)科技企業(yè)上線自家大模型產(chǎn)品，“百模大戰(zhàn)”不斷升級，它所引發(fā)的人工智能“地震”還在持續(xù)。

進入9月，國內(nèi)科技廠商在大模型領(lǐng)域動作頻頻。9月初，此前一直處于內(nèi)測階段的多款大模型產(chǎn)品完成備案，正式上線，面向公眾開放。9月21日，在華為全聯(lián)接大會2023上，因在眾多領(lǐng)域展示了大模型發(fā)展的更多可能，盤古大模型成為當(dāng)之無愧的主角。

“百模大戰(zhàn)”也好，“群模起舞”也罷，技術(shù)進步和創(chuàng)新噴涌的熱潮中，人們關(guān)注的焦點集中于，我們究竟需要什么樣的大模型？何種大模型是通向人工智能的最終答案？

智能時代的“蒸汽機”

現(xiàn)在到底有多少個大模型產(chǎn)品？似乎沒有人能給出準(zhǔn)確的答案。

賽迪顧問發(fā)布的《2023大模型現(xiàn)狀調(diào)查報告》顯示，截至2023年7月底，國外累計發(fā)布大模型138個，中國則累計有130個大模型問世。

但這股浪潮的源頭很清楚，正是ChatGPT。

2022年末，由名不見經(jīng)傳的人工智能公司OpenAI打造的大語言模型ChatGPT橫空出世，人們可以使用最日常的語言與其對話，讓它回答各種問題、完成各類書面任務(wù)，聊天、畫圖、敲代碼……人們第一次如此近距離地感受到人工智能帶來的震撼，也讓“大模型”這個此前只為少數(shù)人工智能領(lǐng)域從業(yè)者所知的專業(yè)概念，成為了被人們掛在嘴邊、反復(fù)提及的詞匯。

輸入內(nèi)容、進行計算、產(chǎn)出結(jié)果，這是人工智能模型的本質(zhì)，但大模型的與眾不同之處正在于其足夠“大”。

巨大的參數(shù)數(shù)量、龐大復(fù)雜的算法結(jié)構(gòu)、海量的訓(xùn)練數(shù)據(jù)以及強大的算力支撐，決定了大模型不同于普通的人工智能模型，其擁有強大的通用智能。

以ChatGPT為例，其早期3.0版本的參數(shù)數(shù)量已達到1750億個，4.0版本的參數(shù)量更是指數(shù)級增加，達到1.8萬億個，訓(xùn)練數(shù)據(jù)的單位數(shù)量更是達到驚人的13萬億。相比之下，早期如圍棋機器人AlphaGo等專用人工智能模型，其參數(shù)量往往僅為百萬級，與大模型相去甚遠。

海量的參數(shù)、復(fù)雜的算法、強大的訓(xùn)練能力，讓大模型成為具備橫跨多領(lǐng)域?qū)W習(xí)能力的通用人工智能，實現(xiàn)了所謂的“智能涌現(xiàn)”，即擁有觸類旁通、舉一反三的學(xué)習(xí)能力。如果說此前的人工智能模型還只是經(jīng)過訓(xùn)練后可以完成某些特殊任務(wù)的“馬戲團猴子”，那大模型則可以說已經(jīng)是一個接受完義務(wù)教育的“中學(xué)畢業(yè)生”。

在北京智源人工智能研究院院長、北京大學(xué)計算機學(xué)院教授黃鐵軍看來，大模型展現(xiàn)出的通用智能能力具有重要的現(xiàn)實意義和影響力，是人工智能發(fā)展中里程碑式的進展，放眼人類歷史、展望人類未來，大模型帶來的智能革命，將媲美工業(yè)革命和電力革命，深刻改變?nèi)祟惿鐣纳a(chǎn)生活方式。大模型，或許正是開啟智能時代的那一臺“蒸汽機”。

哪條賽道通“羅馬”

ChatGPT引發(fā)的大模型熱潮讓許多科技巨頭坐不住了，紛紛將自家“壓箱底”的大模型成果公之于眾。

谷歌緊隨ChatGPT腳步，發(fā)布了基于自家大語言模型的聊天機器人“Bard”，互動媒體與服務(wù)公司Meta也不甘落后，發(fā)布了同類大模型“Llama”。國內(nèi)同樣熱鬧非凡，3月份，百度率先發(fā)布研發(fā)十余年的知識增強大語言模型“文心一言”。隨后，360發(fā)布“360智腦”，阿里巴巴上線“通義千問”，科大訊飛推出“訊飛星火”，騰訊推出“混元”，華為推出“盤古”……一眾科技公司不甘落后地推出了各自的大模型產(chǎn)品。

彼時，面向公眾發(fā)布的大模型產(chǎn)品均為內(nèi)測使用，公眾需提出申請，獲得內(nèi)測資格后才能進行體驗。7月10日，國家網(wǎng)信辦聯(lián)合國家發(fā)改委、教育部、科技部等七部門審議通過并發(fā)布《生成式人工智能服務(wù)管理暫行辦法》（以下簡稱《辦法》），該《辦法》8月15日起正式施行?！掇k法》明確規(guī)定，提供具有輿論屬性或者社會動員能力的生成式人工智能服務(wù)的，應(yīng)當(dāng)按照國家有關(guān)規(guī)定開展安全評估，并履行算法備案等手續(xù)。8月底，一批完成算法備案的大模型產(chǎn)品陸續(xù)上線，正式面向公眾開放。

或許是ChatGPT帶來的震撼過于強烈，以自然語言對話為主要功能體驗的大語言模型產(chǎn)品成為許多科技廠商的首選，甚至一度成為大模型的代名詞。首批通過備案上線的大模型產(chǎn)品中有百度的“文心一言”、字節(jié)跳動的“豆包”、智譜華章的“智譜清言”等。截至9月底，已有十余家大語言模型產(chǎn)品官宣上線，大部分均提供聊天對話、創(chuàng)意寫作、代碼生成等服務(wù)。

但在大語言模型之外，也有廠商選擇了另一條道路，不“戀戰(zhàn)”大語言模型，而是直面行業(yè)具體問題。

在9月21日舉辦的華為全聯(lián)接大會2023上，華為常務(wù)董事、華為云CEO張平安表示，盤古大模型要幫助各行各業(yè)的客戶解最難的題。例如，在礦山領(lǐng)域，精煤產(chǎn)率是困擾業(yè)界多年的難題，山東能源集團已將“盤古”礦山大模型全面應(yīng)用到采、掘、機、運、通等9大業(yè)務(wù)系統(tǒng)、21個場景中。在“盤古”的助力下，濟寧二號煤礦每年能多產(chǎn)出8000噸精煤，精煤產(chǎn)率提升千分之二，增收約2000萬元。

在正在舉辦的亞運會上，也少不了大模型的身影。由浙江移動打造的亞運保障網(wǎng)絡(luò)運維大模型在幕后為亞運會保駕護航。它讓保障人員“無論在哪，無論何時”都能以“對話”方式獲取保障情況，全面提升了亞運會保障的工作效率，降低了保障工作的技術(shù)門檻。

浙江移動網(wǎng)管中心副總經(jīng)理方煒告訴科技日報記者，無論是面向具體行業(yè)的垂直大模型，還是直面公眾的大語言模型，從底層技術(shù)來看，二者并不沖突。“這兩種選擇就像是此前的互聯(lián)網(wǎng)發(fā)展，既有改變?nèi)藗兩畹囊苿踊ヂ?lián)網(wǎng)，也有改變社會、改變行業(yè)的產(chǎn)業(yè)互聯(lián)網(wǎng)。大模型也是基于通用的底層技術(shù)，衍生出了不同用途。比如浙江移動的網(wǎng)絡(luò)運維大模型就是使用通用大模型通過微調(diào)和提示工程來滿足亞運網(wǎng)絡(luò)保障的場景。”

垂直大模型和通用大模型，究竟哪條賽道能夠通向終極人工智能的“羅馬城”，答案或許是——條條大路通羅馬。

“萬模群舞”或在不遠的將來

無論是何種類型的大模型，在“百模大戰(zhàn)”的背景下，其功能、用途、場景的重復(fù)都無法避免。但在業(yè)內(nèi)人士看來，大模型的發(fā)展還遠未觸及天花板，不僅“百模大戰(zhàn)”不是終點，“萬模群舞”或許就在不遠的將來。

“大模型的研發(fā)是一個拼細(xì)節(jié)的過程。從技術(shù)路線上看，目前各家基本上都是基于Transformer架構(gòu)來做，方法很類似，但效果確實不一樣，決定成敗的是細(xì)節(jié)。”騰訊有關(guān)負(fù)責(zé)人接受采訪時說，由于資源投入程度、細(xì)節(jié)把握程度的不同，最后不同產(chǎn)品的差異會逐漸顯現(xiàn)。“從應(yīng)用領(lǐng)域來說，會迎來一個‘百花齊放’的場景，比如有的專注于自然語言處理，有的專注于醫(yī)療領(lǐng)域，有的專注于教育領(lǐng)域等。就目前而言，大模型的天花板還遠遠沒有觸到，技術(shù)體系和應(yīng)用場景都在不斷演進。”騰訊有關(guān)負(fù)責(zé)人說。

無論是“百模大戰(zhàn)”還是“萬模群舞”，要避免低水平的雷同復(fù)制，杜絕“重復(fù)造輪子”帶來的資源浪費，關(guān)鍵仍在于不斷豐富大模型的應(yīng)用生態(tài)。今年5月，國際期刊《自然》發(fā)表了一項百度在生物計算領(lǐng)域的突破性研究成果，其提出的mRNA序列優(yōu)化算法LinearDesign，對生物醫(yī)學(xué)領(lǐng)域創(chuàng)新具有重要價值，這也是中國互聯(lián)網(wǎng)科技企業(yè)首次以第一完成單位的身份在《自然》正刊發(fā)表成果。而在這背后，是百度在2022年5月便推出的“文心”生物計算大模型。借助大模型，人類能夠快速找到并設(shè)計出活性更好、性質(zhì)更優(yōu)的候選藥物分子，從而大幅提升新藥研發(fā)和疫苗設(shè)計效率，讓新藥研發(fā)從單點突破的“手工作坊”階段進入到規(guī)模開發(fā)階段。目前，基于“文心”生物計算大模型和飛槳深度學(xué)習(xí)框架搭建的面向小分子、大分子和RNA的藥物設(shè)計平臺——飛槳螺旋槳PaddleHelix，已經(jīng)應(yīng)用于超過30家醫(yī)藥企業(yè)。

“無論是從技術(shù)層面還是產(chǎn)品層面，百花齊放、百家爭鳴對于當(dāng)下大模型發(fā)展都更加有利。算法研究階段可能五花八門，但到工程選型階段，可能會逐漸聚焦到一個或少數(shù)幾個類型。而到了具體產(chǎn)品選型層面，面向不同市場、不同行業(yè)，產(chǎn)品形態(tài)可能又是多種多樣的。”清華大學(xué)計算機系教授唐杰認(rèn)為，無論哪種大模型都有各自的局限性，各種模型互相學(xué)習(xí)、競爭，在市場中大浪淘沙是必經(jīng)之路。

給大模型發(fā)展更多耐心

“百模大戰(zhàn)”雖然激發(fā)出了更多可能，但也帶來了不少負(fù)面影響。當(dāng)眾多廠商蜂擁而上大模型時，參差不齊的產(chǎn)品讓人眼花繚亂，其中暗藏的法律、道德風(fēng)險也應(yīng)引起人們的警惕。

例如，在面向公眾的大語言模型產(chǎn)品中，“一本正經(jīng)胡說八道”現(xiàn)象已經(jīng)多次引發(fā)質(zhì)疑。“我們常說大模型會產(chǎn)生‘幻覺’，就是因為大模型的內(nèi)容準(zhǔn)確性還不高、專業(yè)性能力不足，如果大模型產(chǎn)生的內(nèi)容直接公開在互聯(lián)網(wǎng)，會使當(dāng)前良莠不齊的互聯(lián)網(wǎng)信息質(zhì)量更加低下。”方煒認(rèn)為，大模型目前在內(nèi)容安全、版權(quán)、主體責(zé)任等方面還存在多種風(fēng)險。

而當(dāng)深入到具體行業(yè)時，不同行業(yè)的不同特點也對大模型在準(zhǔn)確度、安全性、專業(yè)性等方面提出更高要求。360創(chuàng)始人周鴻祎接受采訪時表示，雖然公開的大模型是通用的，甚至是萬能的，但是當(dāng)深入到具體行業(yè)時仍然面臨著缺乏行業(yè)深度、不懂企業(yè)內(nèi)部知識、易導(dǎo)致企業(yè)內(nèi)部數(shù)據(jù)泄露、無法控制成本等問題。方煒也同意這種說法：“例如大模型應(yīng)用在通信網(wǎng)絡(luò)保障方面時，就不允許有任何差錯，目前準(zhǔn)確性還有待提升。”

除了目前大模型自身仍然存在的缺陷，隨著競爭的逐漸激烈，我國在相關(guān)數(shù)據(jù)、算力、算法等方面的困境也逐漸暴露。

例如，在訓(xùn)練數(shù)據(jù)方面，唐杰指出，目前我國的數(shù)據(jù)開放態(tài)勢并不強，“大多數(shù)機構(gòu)還是想把數(shù)據(jù)握在自己手里”。但唐杰也坦承，即使機構(gòu)有數(shù)據(jù)開源的意愿，在目前環(huán)境下，仍然存在多重風(fēng)險。他建議，我國關(guān)于大模型訓(xùn)練數(shù)據(jù)應(yīng)用、開源的相關(guān)法律法規(guī)還需要進一步細(xì)化、健全，讓有開源意愿的機構(gòu)能夠放心地進行數(shù)據(jù)開源，充分激發(fā)互聯(lián)網(wǎng)精神。

而在算力方面，“百模大戰(zhàn)”對算力的高需求也讓我國本就緊張的算力資源更加捉襟見肘。在“東數(shù)西算”基礎(chǔ)上建立起的算力互聯(lián)網(wǎng)或許有望成為解決這一問題的答案。通過對不同地區(qū)的算力資源進行調(diào)度，實現(xiàn)算力資源的均衡分配。但目前仍然需要在高帶寬、低延遲的算力網(wǎng)絡(luò)建設(shè)方面突破更多技術(shù)瓶頸。

如果說數(shù)據(jù)和算力是大模型的硬件“基礎(chǔ)設(shè)施”，算法則體現(xiàn)著更多“人”的因素。小冰公司首席執(zhí)行官李笛認(rèn)為，就訓(xùn)練大模型而言，參數(shù)的數(shù)量并不是最重要的，工程化過程中的調(diào)優(yōu)才是真正的考驗。“研發(fā)、訓(xùn)練一個大模型可能只需要一個月，但調(diào)優(yōu)可能需要一年的時間。這個過程格外需要謹(jǐn)慎、細(xì)致、耐心，有足夠的定力和專注力，也是一種‘工匠精神’的體現(xiàn)。”

耐心，是談及大模型發(fā)展時多位業(yè)內(nèi)專家反復(fù)提及的關(guān)鍵詞。“大模型不是把數(shù)據(jù)‘喂’進去，算力一跑就有了。這其中有許多復(fù)雜細(xì)致的工作要做。”唐杰表示，人工智能自20世紀(jì)50年代被提出至今，其發(fā)展已經(jīng)歷過多次起伏，任何技術(shù)的發(fā)展都不是一蹴而就的，要對其有充分耐心。

（記者手記）

◎劉艷

不要等大模型“無所不能”時才入局

ChatGPT讓公眾再一次體驗到現(xiàn)代人工智能的強大功能，它背后的大模型技術(shù)及應(yīng)用范式，將極大沖擊現(xiàn)有人工智能產(chǎn)業(yè)研發(fā)路線、發(fā)展方式，并有望成為新一輪科技革命與產(chǎn)業(yè)變革的核心驅(qū)動力和新入口。

這一范式的變化，引發(fā)了全球大模型競逐。中國工程院院士鄭緯民認(rèn)為，大模型是新型基礎(chǔ)設(shè)施的關(guān)鍵底座之一，大模型的競爭也是國家科技戰(zhàn)略的競爭。

誰都不想錯過這一機遇，全球科技企業(yè)紛紛下場投身這一科技新賽道。在這一輪AI競賽中，中國不能掉隊。

《中國人工智能大模型地圖研究報告》顯示，從全球已發(fā)布的大模型分布看，中國和美國大幅領(lǐng)先，超過全球總數(shù)的80%，中國已形成了緊跟世界前沿的大模型技術(shù)群。

隨著我國數(shù)字科技領(lǐng)軍企業(yè)大模型悉數(shù)登場，各方思辨與爭論不斷，“百模大戰(zhàn)”是否存在重復(fù)建設(shè)？垂直類大模型是否有建設(shè)的必要？

在百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏看來，新的國際競爭戰(zhàn)略關(guān)鍵點，不是一個國家有多少個大模型，而是大模型上有多少原生的AI應(yīng)用，這些應(yīng)用在多大程度上提升了生產(chǎn)效率。他點出了一個淺顯的道理，科技作用于社會、造福于人類，必會向不同行業(yè)延展。

先發(fā)者不一定制人。在大模型角逐中，全球基本形成了各有優(yōu)勢的中美兩大集群，中國企業(yè)在推進大模型中表現(xiàn)得更加務(wù)實，依托中國強大的工業(yè)基礎(chǔ)和豐富的行業(yè)應(yīng)用場景，切入實體經(jīng)濟、制造業(yè)等行業(yè)，形成了“以場景架構(gòu)大模型，以場景訓(xùn)練大模型”的路徑。

大模型賽道上擠著形形色色的中美企業(yè)。有志于此的機構(gòu)、產(chǎn)業(yè)在科技誕生促動期階段“蜂擁而上”是技術(shù)發(fā)展的必然，也正因此，才有可能迎來技術(shù)的成熟和廣泛應(yīng)用，這種熱情值得鼓勵和包容。

技術(shù)的落地和產(chǎn)業(yè)的發(fā)展需要百花齊放，誰也不知道大模型未來的潛力到底有多大、其邊界到底在哪。“百模大戰(zhàn)”說到底是對不同發(fā)展路徑的探索，也為大家提供了更多選項，人們樂見其成。即便有一小部分公司盲目跟風(fēng)，市場也會優(yōu)勝劣汰。

生成式人工智能進步速度驚人，我們是否需要擔(dān)心它作惡？

不可否認(rèn)，大模型的可控、安全至關(guān)重要，大模型熱潮下社會各界的種種憂慮和思考無不切中要害。無論技術(shù)創(chuàng)新還是業(yè)務(wù)創(chuàng)新，“合規(guī)”是底線。在我國相關(guān)管理辦法逐步出臺的同時，針對大模型的通用能力應(yīng)用到各場景，有可能發(fā)生的新安全隱私問題。產(chǎn)業(yè)各方已開始著手為大模型戴上“緊箍咒”，即用技術(shù)手段解決技術(shù)的“胡作非為”。

有抗拒有擔(dān)憂，卻也激發(fā)出更多創(chuàng)新可能。顯然，積極擁抱這一未來服務(wù)載體和入口形式的重大變化，從國家到行業(yè)，皆已有跡可循。

就像有人說的，不要在新的工業(yè)革命到來之際袖手旁觀，不要等大模型“無所不能”時才入局，現(xiàn)在就可以開始干了。

免責(zé)聲明：凡本網(wǎng)注明“來源：XXX（非駐馬店廣視網(wǎng)、駐馬店融媒、駐馬店網(wǎng)絡(luò)問政、掌上駐馬店、駐馬店頭條、駐馬店廣播電視臺）”的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)，作品版權(quán)歸原作者所有，如有侵犯您的原創(chuàng)版權(quán)請告知，我們將盡快刪除相關(guān)內(nèi)容。凡是本網(wǎng)原創(chuàng)的作品，拒絕任何不保留版權(quán)的轉(zhuǎn)載，如需轉(zhuǎn)載請標(biāo)注來源并添加本文鏈接：http://cokin-filiter.com.cn/chengshi/show-252-301175-0.html，否則承擔(dān)相應(yīng)法律后果。

責(zé)任編輯 / 劉潔瓊

審核 / 李俊杰劉曉明

終審 / 平筠

上一篇：駐馬店車務(wù)段加開31趟臨客列車應(yīng)對雙節(jié)客流高峰

下一篇：“現(xiàn)代豫劇之父”樊粹庭和他的傳人們(之二)發(fā)揚樊粹庭精神努力打造優(yōu)秀劇團