在北京東三環(huán)的北京市方志館,館藏了約100種1000卷舊志。在北京市方志館館長劉宗永的觀察中,每年大概有一萬名讀者會到館借閱舊志和文獻。同時,在北京地方志網(wǎng)站上,部分古籍已提供掃描圖片,一些傳統(tǒng)文化愛好者也會選擇在線閱覽。
最近,劉宗永發(fā)現(xiàn)了一個現(xiàn)實難題——無論是到館借閱還是在線閱讀,繁體豎排無標點的舊志文本讓許多讀者望而卻步,這無形中提高了舊志和文獻的閱讀門檻。
如何跨越這道“門檻”,使記載北京城市脈絡(luò)的珍貴典籍,從少數(shù)專家的研究“秘藏”,轉(zhuǎn)變?yōu)槿窨勺x、可查、可感的公共文化資源?隨著北京舊志數(shù)據(jù)庫正式上線,首批30種珍貴北京舊志、文獻完成數(shù)字化“變身”,這個問題正逐漸有了清晰的答案。
把“藏書樓”變成“資源庫”
北京作為擁有三千年建城史、八百年建都史的古都,方志編修源遠流長,積淀了大量珍貴的地方志文獻。這些舊志堪稱記錄北京城市變遷、社會風(fēng)貌與風(fēng)土人情的“百科全書”。北京市方志館館藏豐富,尤其以北京舊方志和地情文獻為重。為此,中共北京市委黨史研究室、北京市地方志編纂委員會辦公室聯(lián)合字節(jié)跳動識典古籍平臺,共同啟動“北京舊志數(shù)字化整理項目”,致力構(gòu)建系統(tǒng)化的舊志數(shù)據(jù)庫。
舊志整理并非易事。在動輒上百卷、文字漫漶不清的方志面前,傳統(tǒng)的整理方式費時費力,投入成本高,僅靠有限的專業(yè)人員,整理出版工作周期漫長。
比整理更難的是公開的難度。在識典古籍相關(guān)負責(zé)人看來,雖然部分館藏機構(gòu)開始自建古籍?dāng)?shù)據(jù)庫,推動古籍公開,但仍有許多機構(gòu)出于文物保護、管理要求等,對完全公開心存猶豫。
“目前的公開方式也較為分散。一些機構(gòu)以掃描圖片形式公開,但圖片不利于檢索與閱讀;另一些通過出版物發(fā)布,但對讀者而言,購買成本高、使用便捷性較低。”識典古籍相關(guān)負責(zé)人表示。
而這種對公開的期待與劉宗永的想法不謀而合。“館藏機構(gòu)不能停留在‘藏書樓’的觀念。作為館藏機構(gòu),我們的使命是千方百計讓公眾使用、閱讀古籍。”
一方手握珍貴的文獻資源,一方擁有高效的技術(shù)工具和開放的流量平臺。共識一旦達成,合作便水到渠成。
據(jù)了解,識典古籍是字節(jié)跳動聯(lián)合北京大學(xué)共同打造的公益性古籍?dāng)?shù)字化平臺。希望整合字節(jié)跳動科技優(yōu)勢、產(chǎn)品研發(fā)能力以及北大學(xué)術(shù)能力,助力古籍整理、研究和利用。目前,平臺已經(jīng)上線包含3萬余部古籍的閱讀平臺,并提供了一系列功能,讓古籍內(nèi)容的檢索、閱讀、研究更加便利;同時,還建設(shè)了涉及古籍整理全流程的智能整理平臺,讓古籍整理能夠在AI的助力下,提高效率。今年四月,識典古籍還推出App版,方便用戶隨時隨地查閱古籍。

“我們做平臺的初衷不是為自己擴充資源,而是要支持像北京市方志館這樣的機構(gòu),幫助他們高效、高質(zhì)量地完成古籍整理與開放工作。”識典古籍相關(guān)負責(zé)人表示。
將舊志搬上數(shù)字平臺,大幅降低了閱讀和檢索的門檻。曾經(jīng)需要專業(yè)訓(xùn)練才能“啃動”的繁體豎排無標點文本,被轉(zhuǎn)化為帶智能標點的簡體橫排格式;曾經(jīng)需要逐頁翻檢的“大海撈針”,變成了關(guān)鍵詞秒出結(jié)果的“一鍵可達”。作為時代賦予文化傳承的“必答題”,北京舊志數(shù)據(jù)庫無疑是文化遺產(chǎn)普惠于民的成功實踐。
技術(shù)如何讓故紙堆“活”起來
解決了“要不要做”的理念問題,更艱巨的挑戰(zhàn)在于“如何做成”。一本古籍從書庫到“上屏”的過程如同一場高效的接力賽。
北京市方志館是第一棒。作為資源方,北京市方志館需要準備好古籍的高清書影和權(quán)威的“源信息”,包括朝代、作者、版本等。這是古籍舊志的身份證。
第二棒是識典古籍平臺的技術(shù)團隊。“我們會對書影進行批量化的切頁、裁邊、矯正等規(guī)整化處理,批量上傳到識典古籍平臺后,將古籍書影按卷分好。”識典古籍相關(guān)負責(zé)人說。
第三棒是審核,平臺依托文字識別、自動標點、實體識別三大核心技術(shù),對書影進行初步整理,當(dāng)遇到不確定的情況時會標注出來,這樣,人工環(huán)節(jié)不再需要花太多的精力在校勘異同上,大大減少傳統(tǒng)模式下校點人花費的精力。
這個過程中,難點在于處理“不確定性”。一方面,有些方志年代久遠,文字漫漶不清,AI的文字識別效果不佳。“我們會把AI初步處理后的文本放到眾包任務(wù)中,邀請公眾與愛好者參與初級校對與結(jié)構(gòu)整理。”識典古籍相關(guān)負責(zé)人表示。
另一方面,人名、地名的識別和考證,對技術(shù)平臺提出更高的要求。方志中記載的古地名,在今天何處?一個名不見經(jīng)傳的歷史人物,生平如何?AI無法回答這些問題。例如,很多地方志中的古地名比較生僻,前期的研究程度和數(shù)字化程度都不夠高,這就需要借助專家和社會愛好者的力量進行考證。
事實上,這也是古籍?dāng)?shù)字化的深層價值——并非用技術(shù)取代人文,而是通過技術(shù)將學(xué)者從繁重的重復(fù)勞動中解放出來,讓他們能更專注于高層次的知識挖掘、考據(jù)與闡釋。這套模式在確保質(zhì)量的前提下,提升了古籍“活化”的效率,讓舊志的規(guī)模化上線數(shù)字平臺成為可能。
地方“樣本”能否走向全國
北京舊志數(shù)據(jù)庫上線是一次重要的嘗試,更是為全國各地的地方志數(shù)字化工作探索出了一條行之有效的道路:通過數(shù)字化讓其“可讀”,再借助平臺開放讓其“可用”,讓每個人都能在歷史中找到自己家鄉(xiāng)、家族的影子。數(shù)字化平臺讓這種尋找變得無比便捷,從而將宏大的“歷史文化傳承”轉(zhuǎn)化為具體的“探尋個體根脈”,激發(fā)了全民參與文化傳承的內(nèi)在動力。
不僅如此,數(shù)字化也已從“可選項”變成了“必選項”,成為傳統(tǒng)文化在當(dāng)代延續(xù)生命、擴大影響力的優(yōu)選。“時代發(fā)展使古籍?dāng)?shù)字化成為大勢所趨,繼續(xù)束之高閣則是落后于時代的表現(xiàn)。”劉宗永認為。

然而,北京舊志數(shù)據(jù)庫這一“新樣本”在全國推廣的可能性有多大?識典古籍相關(guān)負責(zé)人給出的答案是前景廣闊,但挑戰(zhàn)并存。
公開意愿仍是平臺與館藏機構(gòu)之間的首道坎。“一些地方館藏機構(gòu)或整理團隊將整理成果用于出版,對于在識典古籍平臺上公開的意愿較弱。”識典古籍相關(guān)負責(zé)人稱,“針對這一點,我們可以共同探討靈活方案,比如初校成果先行在識典古籍平臺公開,精校后可再用于出版。”
此外,館藏機構(gòu)的信息化基礎(chǔ)同樣重要。識典古籍相關(guān)負責(zé)人觀察到,一些地方的方志收藏機構(gòu)信息化水平較低,可能連最基礎(chǔ)的數(shù)字掃描都尚未完成。“如果我們評判這個方志確實有比較高的價值,值得優(yōu)先做數(shù)字化的話,我們也會提供一定的資源協(xié)助數(shù)字化發(fā)展。”相關(guān)負責(zé)人表示,這樣可以降低合作門檻,讓更多珍貴的地方文獻有機會重見天日。
盡管前路漫長,但北京樣本的價值,正在于為破解這些難題提供了思路與信心。其更深遠的意義在于,這不僅是一次技術(shù)嘗試,更是一場深刻的文化實踐。從一本古籍的困境到一個平臺的破局,再到一個樣本的示范,這條路徑證明了數(shù)字化所能帶來的變革。
當(dāng)全國各地的方志都能夠以數(shù)字化的形式匯聚,古籍將不再是一個個孤立的信息孤島,而是共同編織成一張鮮活的“地方知識圖譜”,讓更多人都能一鍵抵達故鄉(xiāng)的歷史深處,真切地感知“何以中國”的深沉力量。
責(zé)任編輯:蔡曉慧古籍,舊志,北京