您當前的位置 : 中國甘肅網 >> 書香隴原 >> 前沿觀點

    人工智能如何輔助古文字研究

    22-10-31 09:39 來源:光明網-《光明日報》 編輯:張?zhí)m琴

      作者:李春桃(吉林大學考古學院古籍研究所教授,“人工智能識別古文字形體軟件系統(tǒng)研發(fā)與建設”項目負責人)

      人工智能已經參與到人們的生活、工作、學習等諸多方面,科研工作同樣如此。古文字專業(yè)雖然屬于傳統(tǒng)學科,卻與人工智能技術十分契合。相較于人文學科中的許多專業(yè),古文字考釋更為客觀,其研究結論具有唯一性,研究過程也遵循一定的規(guī)律,在人文學科中最接近自然科學,這符合人工智能技術的工作原理。

      那么,人工智能的哪些技術能夠輔助古文字研究?之前需要人力完成什么工作?學界目前又做到了什么程度?本文便擬談談這些內容。

      古文字形體系聯圖譜

      就古文字考釋而言,人工智能可以提供的幫助是多方面的。著名古文字學家唐蘭先生曾將古文字的考釋方法總結為形體對照法、推勘法、偏旁分析法與歷史考證法。人工智能中的圖像識別、自然語言處理、知識圖譜等技術正可與這幾種方法相互對應。

      形體對照法是把不同材料中的古文字形體加以比較、對照,利用已識字來考證未釋形體。這種方法需要研究者能夠熟記大量古文字形體,如此才能把不同材料聯系起來。而人工智能識別利用的是深度學習與計算機視覺技術和算法,只要提供足夠多的古文字形體來訓練模型,就能實現識別功能。記憶方面,數以百萬計的文字形體總量,人腦只能記住其中很小的一部分,而智能模型卻可以全面覆蓋,能力更為強大,識別推薦結果會給專家以有效提示。

      推勘法是將出土材料與文獻中的記載進行對勘,尋繹文義,進而破解未釋形體。隨著深度學習技術的使用,尤其是2018年谷歌公司開發(fā)的BERT預訓練模型在自然語言處理領域的大規(guī)模使用,近年來,自然語言信息處理技術發(fā)展迅速,在命名實體識別、語義關系等方面有重大提升。經過足夠的數據訓練,模型能夠具有普通人甚至專家一般的能力。舉一個通俗易懂的例子,假設“過節(jié)了我們煮△▽吃”一句中的“△▽”二形是未釋字或殘損字。如果要考證這兩個形體,經過訓練的深度學習模型可以給出備選答案,如“餃子”“湯圓”“粽子”等相符合的詞語。因為有“過節(jié)”限定,所以“白粥”等普通熬煮食物不會被推薦;因為有“煮”字限定,“月餅”等非熬煮食品不會被推薦。深度學習模型完全能夠捕捉語句里面關鍵字詞的文意。對于例子中的這句話,普通人也能給出正確的判斷方向。但是如果面對的是古文字材料,情況就不同了,因為多數人對古代漢語并不熟悉,即使專業(yè)學者也無法熟記大量的古代語料。所以,我們可以利用出土文獻的釋文數據和傳世古書的記載來訓練語言模型,從而在研究過程中利用模型圈定待釋字的目標范圍,有時甚至能夠鎖定正確答案,這能給予專家極大的幫助。

      偏旁分析法是通過分析、識別偏旁來考釋古文字。歷史考證法是根據不同時期形體的特征及演變規(guī)律來考釋古文字。人工智能知識圖譜技術與這兩種方法相關。知識圖譜是描繪實體之間關系的智能網絡,能夠整合部件、字形、詞義幾個層次的古文字知識。可以根據文字偏旁系聯圖譜,從而展示出那些具有相同偏旁的文字及對應形體;知識圖譜也具有挖掘文字演變規(guī)律的潛力,進而為專家提供幫助。可見,在古文字研究過程中,人工智能技術可以從多個維度為專家提供輔助。

      當然,隨著戰(zhàn)國竹簡的公布,古文字的考釋方法也發(fā)生了變化,通過破解通假關系找到文字所代表的“詞”顯得尤為重要。這就需要專家做好通假現象標注,經過反復訓練使模型具有通假語感。但是面對以往從未出現過的通假用例,模型是無能為力的,所以還需要音韻學家介入,從通假規(guī)律等角度進行研究,讓模型同時掌握通假條件所需要的“實例”和“規(guī)律”。

      筆者認為,人工智能與古文字結合可分成三個階段:第一階段是人工塑造模型。古文字專家需要整理基礎數據,包括資料釋文、圖版切字、字形拆分、屬性標注等等;計算機專家利用這些數據完成功能實現。這一階段費時費力,最為艱苦。第二階段是人工智能利用已經實現的技術為專家提供輔助。這有可能是省時省力的資料對勘,有可能是思考方向的積極引導,也有可能是研究結果的智能推薦。此階段專家也會針對智能技術的不足進行完善。第三個階段就是人工智能的獨立判斷,它可以綜合以上所有方面給出問題的答案。目前在這一領域的研究,學界似乎尚處在第一階段。

      以上重點談了人工智能與古文字考釋的關系。事實上,人工智能在其他方面也能給研究者提供幫助,如甲骨綴合、甲骨文分組分類、青銅器斷代、竹簡編聯等等。可以預見,將來人工智能技術會在更多方面為古文字研究提供幫助。人們常說,古文字學是一門古老而又年輕的學問。由于人工智能技術的介入,古文字學的“年輕”也體現在研究的方法上,可以與最新的科技相互結合。相信新的研究資料與新的研究方法能讓古文字學一直年輕且充滿活力。

      《光明日報》( 2022年10月30日 05版)

    版權聲明:凡注有稿件來源為“中國甘肅網”的稿件,均為中國甘肅網版權稿件,轉載必須注明來源為“中國甘肅網”。

    西北角西北角
    中國甘肅網微信中國甘肅網微信
    中國甘肅網微博中國甘肅網微博
    微博甘肅微博甘肅
    學習強國學習強國
    今日頭條號今日頭條號

    互聯網新聞信息服務許可證編號:6212006002 | ICP備案:隴ICP備17001500號 | 經營許可證編號:甘B2-20060006 | 廣播電視節(jié)目制作經營許可證編號:(甘)字第079號增值電信業(yè)務許可證編號:甘B2__20120010

    食品藥品監(jiān)管總局投訴舉報電話:12331 | 互聯網違法和不良信息舉報電話:12377

    主辦:甘肅中甘網傳媒有限責任公司 | 本網常年法律顧問團:甘肅和諧律師事務所(0931-8580115)甘肅天旺律師事務所(0931-8864528)

    Copyright © 2006 - 2016 中國甘肅網(GSCN.COM.CN) All Rights Reserved

    網站簡介 | 人才招聘 | 廣告服務 | 聯系我們 | 違法和不良信息舉報電話: 0931-8960109 0931-8960307(傳真)

    分享到
    中文字幕不卡亚洲| 亚洲精品中文字幕乱码三区| 亚洲精品无码国产| 伊人久久精品无码av一区| 精品无码免费专区毛片| 人妻无码久久一区二区三区免费 | 日韩AV无码精品人妻系列| 久久久无码一区二区三区| 最近中文字幕mv免费高清在线| 一级中文字幕免费乱码专区| 亚洲一级特黄大片无码毛片 | 精品少妇无码AV无码专区| 亚洲中文字幕伊人久久无码| 中文字幕精品亚洲无线码二区| 国产亚洲精久久久久久无码AV| 中文国产成人精品久久亚洲精品AⅤ无码精品| 亚洲真人无码永久在线| 最近更新中文字幕在线| 午夜不卡无码中文字幕影院| 亚洲精品色午夜无码专区日韩| 久久伊人中文无码| 国产又爽又黄无码无遮挡在线观看 | 亚洲AV无码第一区二区三区| 国产高清无码视频| 最近中文字幕2019视频1| 无码专区中文字幕无码| 亚洲AV蜜桃永久无码精品| 无码人妻丰满熟妇区BBBBXXXX | 亚洲∧v久久久无码精品| 我的小后妈中文翻译| 日本中文字幕在线2020| 人妻丰满av无码中文字幕| 一本加勒比HEZYO无码资源网| 日韩av无码免费播放| 最近中文2019字幕第二页| 日韩视频中文字幕精品偷拍| 最新版天堂中文在线| 中文字幕亚洲无线码| 久久久久亚洲AV片无码下载蜜桃| 免费A级毛片无码A∨免费| 久久午夜无码鲁丝片秋霞|