科學發展,有時理論先行,有時則工程先出成果。隨著大語言模型的成功,工程師們熱衷于尋找其數學根據。事實上,特立獨行的數學家所羅門諾夫(1926—2009)在20世紀60年代初期就為大模型奠定了數學基礎。如今,他的理論開始被重新發現,并被期待能進一步為未來指明方向。毫無疑問,所羅門諾夫可算是大語言模型的先知。
1956年,人工智能兩位先驅麥卡錫和明斯基在達特茅斯學院召開夏季研討會,這標志著AI作為一門獨立學科的建立。最認真對待會議的就是所羅門諾夫,他在達特茅斯待了整整一個暑假。
位于美國新罕布什爾州漢諾威鎮的達特茅斯學院。
所羅門諾夫1947年進入芝加哥大學隨費米主修物理,只獲得碩士學位就離開象牙塔,開始了他半工半學、快樂但并不富貴的一生。在芝加哥求學期間,對他影響最大的是哲學家卡爾納普。卡爾納普的《概率的邏輯基礎》一書被所羅門諾夫深研,受其影響,歸納推理成為他畢生的研究方向。順便說一句,另一位AI開拓者司馬賀(中國科學院外籍院士、諾貝爾經濟學獎獲得者)也聽過卡爾納普的數理邏輯課,從而萌生對機器定理證明的興趣。
1952年所羅門諾夫結識了麥卡錫,那時后者還是普林斯頓大學數學系的博士生。麥卡錫認為所有數學問題都可以表達為圖靈機求逆,而這正是所羅門諾夫想解決的歸納推理問題。所羅門諾夫認為麥卡錫的問題可以轉化成“給定一個序列的初始段,求這個序列的后續”,即通過為已知數據建模,預測未來數據。反過來,麥卡錫則把所羅門諾夫的思想通俗解釋為“假設發現一座老房子里有一臺計算機正打印你說的序列,并接近序列的末尾,馬上就要打印下一個字符,你敢打賭它會打印正確的字符嗎?”用今天ChatGPT的術語來說,這就是“預測下一個詞元”。
不久,所羅門諾夫又認識了語言學家喬姆斯基,這是他后來把語言作為研究例子的起點。
法國數學家博雷爾1913年考慮過這樣一個問題:讓猴子在打字機上隨意敲字,能敲出《哈姆雷特》嗎?博雷爾認為概率極小,但不是絕對不可能,這被稱為“無限猴子定理”。阿根廷作家博爾赫斯的短篇小說集《小徑分岔的花園》中收錄了一篇哲理小說“巴比倫圖書館”,文中設想一個完美的圖書館,可以收藏由字母枚舉產生的所有可能的書。這些思想實驗都可以被看作是所羅門諾夫歸納法的特例。
達特茅斯會議結束前,所羅門諾夫寫好一篇關于歸納推理的備忘錄,給參會人員傳閱。明斯基2011年回憶:“正是這篇文章讓我從神經網絡轉向符號的思想”。但值得玩味的是,明斯基這一轉向使得神經網絡的研究停滯了20年,而最終又是神經網絡首先實現所羅門諾夫歸納法。所羅門諾夫經過10年的深思熟慮,在1964年正式發表《歸納推理的形式理論》一文,奠定了60年后大語言模型的理論基礎。
20世紀50年代,蘇聯數學家柯爾莫格羅夫對信息論和概率論有過深刻評價:“信息論在邏輯上先于概率論,而不是以后者為基礎。”他認為圖靈機比信息論更基礎:一段信息所包含的信息量,可用最短生成這段信息的程序的長度衡量。這就是所謂“柯爾莫格羅夫復雜性”,它和所羅門諾夫歸納法是等價的。柯爾莫格羅夫在文章中引用所羅門諾夫的理論,使得他在蘇聯的名聲比在西方更響亮。柯爾莫格羅夫的幾位學生設立柯爾莫格羅夫獎章,第一屆獲獎者就是所羅門諾夫。
出生于阿根廷的猶太裔美國理論計算機科學家格里高里·蔡廷,只上了一年大學就輟學了。他19歲時獨立地把所羅門諾夫和柯爾莫格羅夫的思想又“發明”了一遍。他的論文審稿人已知道柯爾莫格羅夫的工作并告知蔡廷,于是,蔡廷在1966年發表論文時,以腳注形式承認了柯氏的工作。
所羅門諾夫、柯爾莫格羅夫和蔡廷等人發明算法信息論的過程,頗有點像上世紀30年代,哥德爾、丘奇和圖靈等人發現丘奇—圖靈論題的過程:每項獨立工作都是等價的。
時間到了2024年,理論計算機科學家李明獲得了有信息科技諾貝爾獎之譽的麥克道爾獎,頒獎辭中提到李明對所羅門諾夫—柯爾莫格羅夫—蔡廷理論的推廣。李明和另一位科學家維特涅合著的《柯爾莫格羅夫復雜性及其應用》則被譽為該領域的《圣經》。
大語言模型成功后,人們困惑為什么其底層架構的發明者谷歌反而落后于OpenAI。一種解釋是谷歌的算法框架缺乏OpenAI框架所具備的堅實數學基礎,即所羅門諾夫歸納法。OpenAI首席科學家蘇茨凱弗之前對此含糊其辭,直到2023年才明確透露,所羅門諾夫—柯爾莫格羅夫—蔡廷理論正是其數學基礎。大語言模型重新激活了這一具有60年歷史的理論。值得一提的是,所羅門諾夫很早就意識到人工智能的安全問題,并提出“無限點”概念,該概念后被改稱為“奇點”。
20世紀60年代,美國軍方停止資助民間的獨立科研,所羅門諾夫被迫成立他自己的咨詢公司“牛橋”(牛津+劍橋的簡稱)以獲取不多的政府研究經費維持生計,公司只有他自己一個雇員。他的學術自傳《算法概率論的發現》歷經修訂,最新一版在他去世后被收錄在為紀念他而設立的網站上。這樣一位人工智能歷史上最重要的科學家,一生都沒有固定工作,也沒有子嗣,但他很快樂。他的太太格蕾絲在悼念他的文章中說,認識他的年輕人都認為他是最快樂的長輩。
所羅門諾夫還是學術共同體“通用人工智能”(AGI)的創始人之一,他2008年參加AGI第一次會議,2009年去世。2010年AGI會議就是為了紀念他,會上晚輩們研讀了他的最后一篇文章《算法概率論與AGI》。
回顧所羅門諾夫歸納法的發展過程,再來看大語言模型,我們會覺得也許不是理論落后于實踐,而是太超前了。
(作者單位:烏鎮智庫)
官方微信
官方微博
今日頭條
川公網安備51019002004313號