當前位置: 首頁  >  國學經(jīng)典 > 正文

大數(shù)據(jù)時代的古典文學研究

來源:光明日報 作者:      2018-10-21

 

  編者按

  對人文學者來說,作為工具的計算機,已從文獻檢索時代進入到數(shù)據(jù)分析時代。計算機不僅能幫助我們從海量文獻中快速檢索到所需的資料,還能以數(shù)據(jù)為基礎(chǔ)幫助我們發(fā)現(xiàn)問題和分析問題。隨著數(shù)字人文技術(shù)的發(fā)展,數(shù)據(jù)分析的技術(shù)和方法越來越有針對性和強效性,能清晰地揭示隱藏在文學史背后的作家與社會之間、作家與作家之間、文本與文本之間的直接與間接、顯性與隱性的多種關(guān)聯(lián),能以全知型的視角系統(tǒng)整體地還原和呈現(xiàn)文學史的立體景觀,改變傳統(tǒng)的思維方式和文學研究范式。

  目前的中國古代文學研究,在數(shù)據(jù)分析方面雖然已經(jīng)起步,但還沒有完全跟上數(shù)字人文的發(fā)展步伐,可用于統(tǒng)計分析的關(guān)系型文學數(shù)據(jù)庫建設(shè)還比較薄弱,適用于古代文學研究的分析工具、分析方法、分析模型還相當有限。近些年學界和業(yè)界推出了相當豐富的數(shù)字化的文獻資源庫,如《中國基本古籍庫》《中華經(jīng)典古籍庫》等,但主要用于檢索,還不是結(jié)構(gòu)化的能進行統(tǒng)計分析和再生知識的數(shù)據(jù)庫。運用數(shù)字人文的分析工具和技術(shù)方法來研究古代文學,也取得了一定的實績,但還處在嘗試性階段,未成規(guī)模,影響不大。

  為推進數(shù)字人文技術(shù)在古代文學研究中的應(yīng)用與突破,本期約請清華大學中國古典文獻研究中心數(shù)字人文研究團隊的劉石、孫茂松、張力偉和劉京臣四位先生從不同的角度筆談他們的構(gòu)想和規(guī)劃。劉石、孫茂松先生構(gòu)建了古典文學研究的分析模型,劉京臣先生闡述了基于社會網(wǎng)絡(luò)分析的文本與人物研究的理路,既有理論的前瞻性,也有方法的可操作性;張力偉先生提出了建設(shè)“中國古典知識庫”(CCKB)的宏大構(gòu)想,令人期待?。ㄍ跽座i)

  一

  20世紀60年代,電腦就被西方國家運用于人文學科研究,稱為“人文計算”。美、英、法、德等國利用大數(shù)據(jù)技術(shù)研究文學開展得早、影響大,相繼成立了國家級項目組或研究中心,致力于莎士比亞戲劇、法國中世紀詩歌等多語種文學經(jīng)典的內(nèi)容分析,產(chǎn)生了一批引人注目的理論著述與應(yīng)用成果。

  進入新世紀,一些研究機構(gòu)及企業(yè)開始對書籍進行大規(guī)模數(shù)據(jù)化。谷歌與哈佛大學共同研發(fā)的數(shù)據(jù)庫可對1600年至2000年間出版的500多萬冊書籍的單詞和短語的使用頻率進行統(tǒng)計,通過關(guān)鍵詞使用頻率的變化,可以嶄新的視角揭示500年來人類文化發(fā)展史的總體趨勢。伴隨人工智能技術(shù)的進步,機器的深度學習在文本分析方面展現(xiàn)了驚人效率。《布谷鳥的呼喚》原是《哈利·波特》的作者J. K. 羅琳于2013年匿名發(fā)表的小說。牛津大學的Peter Millican和杜肯大學的Patrick Juola運用法律語言學的分析方法對比分析,推測它很可能是羅琳的新作,最后,羅琳承認這部小說確出己手。

  國內(nèi)在20世紀80年代也出現(xiàn)了“人文計算應(yīng)用”的概念,一些學者開始致力于運用電腦技術(shù)研究人文課題。早期對古典文學尤其詩詞的研究多為計算機或統(tǒng)計專業(yè)的學者。廈門大學周昌樂教授課題組針對宋詞風格“豪放與婉約”的分類問題,研創(chuàng)了基于字和詞為特征的風格分類模型、基于頻繁關(guān)鍵字共現(xiàn)的詩歌風格判定方法以及基于詞和語義為特征的風格分類模型。首都師范大學尹小林教授最早研發(fā)了“《全唐詩》檢索系統(tǒng)”,北京大學李鐸教授也研發(fā)了“《全宋詩》分析系統(tǒng)”“《全唐詩》分析系統(tǒng)”“《資治通鑒》分析系統(tǒng)”等。北京大學杜曉勤教授研發(fā)的“中國古典詩文聲律分析系統(tǒng)”首次實現(xiàn)對中國古典詩歌及有關(guān)韻文進行批量四聲自動標注和八病標識、數(shù)據(jù)統(tǒng)計功能,不僅有助于研究永明體詩歌的聲病情況,還可考察永明詩律向近體詩律演變的環(huán)節(jié)和過程。中南民族大學王兆鵬教授是較早采用量化分析研究古代文學經(jīng)典的專家,他先后主持了“中國古代詩歌史的計量分析”“20世紀唐五代文學研究論著目錄檢索系統(tǒng)與定量分析”等多個項目,尤其是唐宋詩詞名篇的定量分析(排行榜)及國家社科重大項目“唐宋文學編年系地信息平臺”引發(fā)了社會的普遍關(guān)注。

  鄭永曉先生數(shù)年前已經(jīng)呼吁古典文學研究從數(shù)字化向數(shù)據(jù)化的轉(zhuǎn)變?;诖髷?shù)據(jù)技術(shù)對古代文學經(jīng)典文本進行高效和深度分析,可將文學研究納入到一個更宏觀的視野,提高研究結(jié)論的精準性、穩(wěn)定性及可驗證性,促生新的研究理念、方法與范式。但總體來看,古典文學研究領(lǐng)域目前還基本處在古籍數(shù)字化、數(shù)字化檢索和少數(shù)專題數(shù)據(jù)平臺建設(shè)階段。

  二

  現(xiàn)階段數(shù)字人文研究的主要技術(shù)方法,包括機器學習與人工智能、數(shù)據(jù)庫建設(shè)、計算語言學、社會網(wǎng)絡(luò)與地理信息系統(tǒng)、數(shù)據(jù)與文本挖掘等方面。這些技術(shù)方法可分別用于古典詩歌分析系統(tǒng)的嘗試、作家生平事跡研究、古典小說研究、文本與人物研究、文體與文論研究,涵蓋了古典文學研究的主要方面。

  基于這樣的理解,我們擬以先秦至明清品類紛繁的古代文學經(jīng)典文本為中心,利用計算機、統(tǒng)計學、信息科學等學科的新興技術(shù)手段,形成如右上圖所示的研究結(jié)構(gòu)。

  研究的流程是文學專家提出問題——技術(shù)專家設(shè)計算法模型——借助知識庫或數(shù)據(jù)庫等平臺進行文本分析——文學專家對分析結(jié)果進行解析和研究。數(shù)據(jù)庫建設(shè)、技術(shù)創(chuàng)新運用與文本研究三位一體。數(shù)據(jù)庫是基礎(chǔ),文本分析技術(shù)是關(guān)鍵,最終要落實到發(fā)掘依靠閱讀經(jīng)驗難以發(fā)現(xiàn)的文本組織特征及相互關(guān)系,通過定量統(tǒng)計、定性分析,解決古典文學研究領(lǐng)域長期存在的疑而難決的作品歸屬、作品辨?zhèn)?、異文辨析、修辭特色、風格生成、題材變遷、因革影響等方面的問題,期望在以下諸方向有所推進:

  1.重新驗證已有成說的經(jīng)典史論問題。比如,提出“文必秦漢,詩必盛唐”的明代前后七子為代表的文人群體,其詩文創(chuàng)作是否落實和如何落實其文學創(chuàng)作的主張?利用共詞分析、語義分析、人物事件交雜等技術(shù)思路,嘗試全新分析和解決諸如文體形式、社團流派、人物關(guān)系、情節(jié)演進、階段特征、歷史影響等問題。

  2.解決人力難以徹底解決的疑難問題,為作品歸屬、重出異文、改編續(xù)寫、風格流派、文類劃分等提供新的證據(jù)、思路與方法。如唐宋詩“體格性分之殊”的判斷,詩詞曲三種相近文類格律、用韻、題材、語詞、典故、句法、意象、風格的窮盡性統(tǒng)計,為定性分析提供數(shù)據(jù)支撐,可以提高研究結(jié)論的精確性、穩(wěn)定性及可驗證性。

  3.超越主觀感受與印象分析層面,科學梳理文學史長時段中存在的特征、規(guī)律、關(guān)聯(lián)性問題。比如陸游詩近萬首,詞自中唐產(chǎn)生而歷經(jīng)各代,他或它們的題材、修辭、風格變化軌跡究竟如何,數(shù)者之間的關(guān)系怎樣?通過對一個作家或一類作品的“深度學習”(計算語言學專業(yè)術(shù)語),發(fā)揮其文本比對、關(guān)聯(lián)分析等技術(shù)優(yōu)勢,追蹤挖掘以往不曾注意到的跡象或線索,以期提高文學經(jīng)典研究的可靠性與科學性。

  三

  利用大數(shù)據(jù)技術(shù)研究中國古代文學,對學術(shù)發(fā)展和學科建設(shè)的意義是明顯的,特別體現(xiàn)在研究范式與思維方式的革新。

  傅斯年認為,“凡一種學問能擴張他所研究的材料便進步,不能的便退步”。大數(shù)據(jù)技術(shù)可以實現(xiàn)相關(guān)研究史料的全覆蓋,是對以往研究資料的極大擴充。目前研究中普遍存在的檢索依賴會造成史料的類型遮蔽,特別是反證材料的遮蔽。檢索依賴也會導致對史料的解讀脫離歷史語境,無數(shù)孤零零的沒有歷史氣息的材料斷片的組合,無法反映真實的歷史場域中的問題。文學研究者接受的信息如果是非全息的,文史研究的科學性和有效性必然值得懷疑。全數(shù)據(jù)分析模式拋棄了隨機性的樣本研究模式,讓研究者具有“上帝視角”,重視對事情整體系統(tǒng)的感知,又強調(diào)基于全數(shù)據(jù)的細節(jié)化,提高認知的精確度,是一種理想的學術(shù)研究模式。

  傳統(tǒng)的文獻材料彼此間基本上呈現(xiàn)出相對明顯的線性關(guān)系,可以找到前因后果,進而形成相對完整和自洽的因果鏈。大數(shù)據(jù)時代面對的只是具有相關(guān)性的海量數(shù)據(jù),幾乎不可能找到每個數(shù)據(jù)的微觀因果鏈,如果堅持因果路徑,將陷入無窮無盡的因果關(guān)系之中而茫然無措。因此,大數(shù)據(jù)時代不必非得知道現(xiàn)象背后的原因,而是讓數(shù)據(jù)自己發(fā)聲。對思想、情感和藝術(shù)為主體的古典文學學科而言,強調(diào)差異性、變異性和獨特性的相關(guān)性分析方法比因果性分析方法可能具有更強的裁斷力。

  大數(shù)據(jù)技術(shù)的興起,使數(shù)據(jù)采集、存儲和處理極大地智能化、自動化?!叭珨?shù)據(jù)模式”將與問題相關(guān)的數(shù)據(jù)一網(wǎng)打盡,最大限度地擺脫客觀條件局限造成的以局部論全部,問題可以得到更系統(tǒng)、更全面、更整體的刻畫,從而得到更精確、更徹底的解決。這是數(shù)據(jù)化帶來的一種嚴格意義上的整體論,將使思維方式從還原性思維走向整體性思維。

  歷史與邏輯、事實與價值的統(tǒng)一是人文社科研究的基本方法,大數(shù)據(jù)時代的研究尊重全體材料、重視量化分析和兼顧所有關(guān)系,這將有助于促進人文學科的研究由“解釋性”向“求是性”轉(zhuǎn)向。隨著人的思想、情感、心理的數(shù)據(jù)化,人文學科的研究對象也能夠?qū)崿F(xiàn)數(shù)據(jù)化,可以通過數(shù)據(jù)挖掘、數(shù)據(jù)分析和數(shù)據(jù)建模來進行研究,這樣人文學科也就由以往被認作非科學的學科躋身于科學成員的大家庭中,進而發(fā)展出人文科學。

  總之,大數(shù)據(jù)思維為人文社科研究的變革與創(chuàng)新帶來了千載難逢的歷史機遇,正如美國康奈爾大學教授杰弗里·漢考克(Jeffrey T. Hancock)所說:“這是社科研究的一個全新時代,就好比顯微鏡的誕生對化學科學發(fā)展所起到的促進作用。”

  需要指出的是,古典文學研究中新技術(shù)手段的應(yīng)用需要充分依靠計算機科學和統(tǒng)計學的專業(yè)技術(shù),在尚缺乏此類技術(shù)力量的今天,必然會促進學術(shù)研究人力資源的整合,倒逼跨學科合作研究的開展。但文學性問題的提出和分析處理不可能完全交給機器,也就不可能完全交給技術(shù)專家。相反,從問題的設(shè)置到語料的選取再到分析結(jié)果的解讀、意義的闡釋、體系的建構(gòu)等,都將由古代文學和文獻學相關(guān)領(lǐng)域高水平的專家學者完成。

 ?。ㄗ髡撸簞⑹?,系清華大學人文學院教授;孫茂松,系清華大學計算機科學與技術(shù)系教授)

  原文鏈接:http://www.guoxue.com/?p=53599

 

【責任編輯:堯日】

掃一掃關(guān)注北疆風韻微信公眾號

微信