9月17日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1研究論文,登上了國(guó)際權(quán)威期刊《自然》的封面。該雜志直言:目前幾乎所有主流的大模型都還沒有經(jīng)過獨(dú)立同行評(píng)審,這一空白“終于被DeepSeek打破”。
和橫空出世時(shí)帶來(lái)的轟動(dòng)效應(yīng)不同,此次引發(fā)關(guān)注,是因?yàn)镈eepSeek團(tuán)隊(duì)領(lǐng)風(fēng)氣之先,讓AI大模型朝著透明化邁出了一大步。與今年1月發(fā)布的初版論文相比,本次論文披露了更多模型訓(xùn)練的細(xì)節(jié),并正面回應(yīng)了模型發(fā)布之初的“蒸餾”質(zhì)疑。通過完整公開訓(xùn)練方法,DeepSeek團(tuán)隊(duì)證明了該大模型演化出了多樣且復(fù)雜的推理行為,成功地學(xué)會(huì)了更優(yōu)的推理策略。DeepSeek-R1也由此成為全球首個(gè)經(jīng)過同行評(píng)審的主流大語(yǔ)言模型,填補(bǔ)了當(dāng)前大模型領(lǐng)域缺乏獨(dú)立學(xué)術(shù)監(jiān)督的“空白”。
以“技”服人之外,更彰顯出Deepseek的開放與自信:不怕同行檢驗(yàn),敢于將路徑和方法置于審視之下。
同行評(píng)審為何如此重要?當(dāng)前,盡管各大廠商的大模型早已席卷全球,但它們幾乎均未經(jīng)過傳統(tǒng)意義上的同行評(píng)審。各大廠商更喜歡通過社交媒體、營(yíng)銷發(fā)布會(huì)等向外界傳遞信息,而不是借助嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)期刊。這種方法雖然傳播效果好,卻缺乏學(xué)術(shù)系統(tǒng)獨(dú)立、客觀、批判性的檢驗(yàn)。況且,一些AI開發(fā)者還可能通過挑選最有利于自己模型的測(cè)試,進(jìn)行“自我打分”。DeepSeek-R1則打破了這一局面。同行評(píng)審為模型效果提供了更加客觀的評(píng)價(jià),意味著其原理、方法經(jīng)得起學(xué)術(shù)標(biāo)準(zhǔn)的追問和復(fù)現(xiàn)。
開放與自信,還體現(xiàn)在DeepSeek-R1開源生態(tài)中,體現(xiàn)在技術(shù)路線的選擇上。
正如阿里云創(chuàng)始人王堅(jiān)所說(shuō),“開源與閉源的選擇,是AI競(jìng)爭(zhēng)的關(guān)鍵變量”。兩種路線,代表了AI技術(shù)兩種不同的發(fā)展哲學(xué)。目前,市面上流行的商業(yè)大模型基本上是閉源的,而DeepSeek卻選擇了模型權(quán)重開放、代碼公開、訓(xùn)練細(xì)節(jié)披露的路線。這不僅降低了行業(yè)門檻,也更符合人工智能開放、共享的精神。
用實(shí)力說(shuō)話,以自信示人。DeepSeek-R1,只是中國(guó)式創(chuàng)新的一個(gè)縮影。
中國(guó)是在追趕中實(shí)施創(chuàng)新驅(qū)動(dòng)戰(zhàn)略,創(chuàng)新的艱巨性和復(fù)雜性前所未有。不過,中國(guó)式創(chuàng)新不是閉門造車,不是與全球創(chuàng)新市場(chǎng)分割,而是在學(xué)習(xí)借鑒、開放合作中不斷提高自主創(chuàng)新能力。9月18日,科技部部長(zhǎng)陰和俊在“高質(zhì)量完成‘十四五’規(guī)劃”系列主題新聞發(fā)布會(huì)上,不僅透露了目前“我國(guó)高新技術(shù)企業(yè)超50萬(wàn)家”“我國(guó)研發(fā)人員總量世界第一”這些厚實(shí)的“創(chuàng)新家底”,也提出要建設(shè)具有全球競(jìng)爭(zhēng)力的開放創(chuàng)新生態(tài),深度參與全球科技治理等。
既要提升自主創(chuàng)新能力,也要與世界各種創(chuàng)新“流派”保持接觸和交流,才能讓創(chuàng)新成果惠及世界,實(shí)現(xiàn)創(chuàng)新的合作共贏。
責(zé)任編輯:高瑋怡梁文鋒