思考:“最好”與“最壞”的時代
清代學者姚鼐對傳統學術有一個經典概括,即義理、考據、辭章。近代學者陳寅恪、傅斯年等也指出史學研究的創新不外乎新材料、新問題和新方法三個方面,史料的整理無疑是重要的基礎工作。隨著史學研究視野的不斷拓展,考古遺跡與文物、口頭流傳及圖像資料等史料的利用逐漸活躍起來,但仍然無法撼動文獻這一最重要史料的地位。
就科技史研究來說,整理文獻依然是不可或缺的基礎工作,理應得到足夠的重視。英國作家狄更斯在《雙城記》的開頭富有哲理地說:“這是最好的時代,這是最壞的時代。”如今這個時代對于典籍整理來說也正是如此,一方面我們迎來了基本文獻占有的小康時代,另一方面,文獻整理研究的深度和廣度都向我們提出了更大的挑戰。
先來談談基本文獻的占有情況,科學史所李儼圖書館近幾年的文獻資源建設工作就足以說明問題,作為一個科技史專業圖書館,我館的紙本書刊已達到18萬冊,典藏空間成為發展瓶頸。因此,我們下大力氣引進電子文獻資源。目前,已經卓有成效地建立起覆蓋中外文科技史基本文獻的文獻資源體系。
先說中文方面:通過先后引進雕龍、書同文、愛如生等系列古籍數據庫,保障了2萬余種基本古籍的圖文檢索利用;開通晚清民國期刊全文庫,幾乎覆蓋了全部近2萬種晚清民國期刊,而民國圖書庫前三期則收錄圖書15萬種,已近存世民國圖書數量的一半;在現刊和學位論文方面,CNKI、維普、萬方覆蓋了大陸范圍,臺灣華藝則作為臺灣地區的補充;通過讀秀數據庫可閱覽和申請文獻傳遞的圖書數量達到310萬冊;報紙方面初步選擇了《申報》《大公報》《中央日報》《人民日報》《光明日報》和近代英文報刊庫等大報,以提供近現代重要事件人物新聞報道的查證檢索。
外文方面:我們開通了EEBO-EEB(17世紀以前英文及非英文文獻)、ECCO、NCCO(18、19世紀英文文獻)等數據庫;通過Springer、Elsevier、Wiley、Cambridge、Oxford、JSTOR、MUSE等數據庫覆蓋近200種外文科技史及科技哲學期刊,還可通過百鏈云申請外文文獻傳遞?梢圆豢鋸埖卣f,這是一個基本文獻的“嘉年華”。
然而,面對這樣前所未有的好時代我們卻似乎高興不起來,因為海量文獻的突然涌來同樣帶給我們前所未有的挑戰,我們如何以一己之力閱讀、挖掘和分析如此多的文獻?面對文獻,我們從來都是充滿了喜悅和興奮,如今直面這個“嘉年華”卻讓我們不覺有一種困惑和迷茫。
應該說明這里的海量數據還不能和時下流行的“大數據”相提并論,“大數據”特征經典描述為4V:Volume(巨量),Velocity(幾何級高速增長),Variety(數據類型的多樣性),Value(平均價值低),就更非我等可以想象了。
不過沒關系,回過頭人文學科畢竟有自己的看家本領,就是經典文獻的解讀和分析,這是方法論層面人文學科區別于自然科學、社會學科的最重要表現。而這一時代又向我們提出了更深度和廣角地分析解讀一部經典文獻的挑戰。我們無比熟悉和親近的典籍文獻領域正在上演一部“雙城記”。
展望:科技典籍整理的未來
聚焦到科技典籍整理上來,據《中國古籍總目》,現存1912年以前出版的古籍約為20萬種。其中與科技相關的典籍主要分布于如下幾個類屬:史部地理類總志之屬(444種)、政書類考工之屬(81種)以及水利之屬(314種),子部農家類(467種)、譜錄類花木鳥獸之屬(339種)、醫家類(6684種)、天算類(1656種)、新學類(884種),合計10869種。西學東漸相關典籍除此處“新學類”外,又據《近代漢譯西學書目提要(明末至1919)》計算合計1678種,其中心理學25種,地理272種,自然科學1381種。當然,“漢譯西學”和“新學類”有部分重合,再加上以上暫時忽略的零星分布,估計現今留存的中國古代科技典籍數量在1.2萬種左右,約占古籍總量的6%?萍嫉浼嗅t學類典籍因為涉及應用,整理數量最多,估計超過存世數量的10%,農學次之,其他科技典籍整理十分有限,估計不超過2%,所以科技史文獻的整理還是亟待解決的瓶頸問題。
在學術整理體式方面,我們通過國家古籍整理出版中長期規劃項目“中國科技典籍選刊”做了新的嘗試,采用圖、文、校釋對排的樣式,兼顧了典籍原貌保真和整理成果呈現兩方面的需求,取得了不錯的效果。 進一步,我們認為在定本式整理的基礎上附加匯校,將有益于對典籍傳播史的考察研究。
要加快推進典籍整理工作,就要在文獻整理工作中充分利用信息技術,開拓典籍數字化,這是如今方興未艾的“數字人文”中的一個重要方面。
在信息時代從事人文研究,人腦和電腦應該如何分工和合作?我們認為人腦還是研究的主導,主要承擔的工作是理論和算法的創新以及具體問題的考證和分析,通俗說就是“腦力活”;而電腦的長處在于檢索、計算和排列等工作,通俗說就是“體力活”,但這種“體力活”不可小覷,它可以大大縮短研究時間,節省研究者的精力,使一些費時費力的研究項目變得可行。
另外,隨著計算語言學理論的發展,電腦參與學術研究的程度必將越來越深。 典籍數字化可分為三個層次,即圖像化、全文化和數據庫化。圖像化和全文化大家都比較熟悉,尤其是全文檢索,有其優勢,但缺點也很明顯,即檢索失誤是不可避免的,造成檢索失誤的原因是多方面的,其中文本質量只是一部分原因,還存在漢字的別體、語義的切分及別稱等問題,這些都會導致漏檢或多檢。要解決以上問題最重要的方法是實現文本語義的“本體化”,而“本體化”要求我們推進典籍數據庫化。 數據庫化除了本體的結構化,還包括由本體建構起知識的語義網,以達到“數字人文”可計算的目標?茖W史所與哈工大有關院系正在合作開發“典籍分析平臺”,初步設計具有目錄導航,圖、文、校釋對排,本體標記與編輯等功能,還將不斷根據研究實踐推進分析功能的開發。我們希望早日投入使用,共享給學界!