您當(dāng)前的位置 : 中國甘肅網(wǎng) >> 書香隴原 >> 要聞

    科技守護(hù)文明:中國古籍“回家”之路

    2021-05-24 10:51 來源:新華網(wǎng)

      科技守護(hù)文明:中國古籍“回家”之路

      新華社成都5月20日電(記者童芳)中國是世界四大文明古國之一,中國浩如煙海的文獻(xiàn)典籍記錄了歷史。然而遺憾的是,近代以來超過400萬冊中國古籍由于種種原因流散海外。

      阿里巴巴達(dá)摩院、四川大學(xué)、美國加州大學(xué)伯克利分校近日公布,他們花費(fèi)兩年多的時間,教會了AI識別中國古籍,將它們以數(shù)字化的形式接回故土,置于網(wǎng)絡(luò)公益平臺,向所有人開放。

      這個項(xiàng)目的名字叫“漢典重光”,意為讓失落的珍貴古籍重放光芒。“漢典重光”以97.5%的準(zhǔn)確率,識別了20萬頁古籍,覆蓋3萬多字的古籍字典。

      現(xiàn)代科技照亮中國古籍“回家”之路

      中國古籍擁有非常龐大且復(fù)雜的知識體系,包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖、少數(shù)民族文獻(xiàn)等等。所涉及的范圍也是極其廣泛,有應(yīng)對自然災(zāi)害、流行疫病、經(jīng)濟(jì)波動、政治斗爭、外交危機(jī)、氣候變遷等的經(jīng)驗(yàn),有戰(zhàn)爭、瘟疫、地震、洪澇災(zāi)害、病蟲害等方面的經(jīng)驗(yàn)總結(jié),還有醫(yī)療、中藥、養(yǎng)生、家具、服飾、飲食文化等生活經(jīng)驗(yàn)。

      加州大學(xué)伯克利分校的東亞圖書館是全美三大東亞圖書館之一,90萬冊藏書里四成都是中文書,還有不少甲骨文和拓片。第一次到這兒的中國學(xué)者總感覺在穿越歷史的“蟲洞”,這些古籍不能運(yùn)回中國,那就用數(shù)字化手段讓古籍的內(nèi)容“回家”。

      2019年,阿里巴巴和四川大學(xué)提出“數(shù)字化回歸”設(shè)想,四川大學(xué)歷史文化學(xué)院副院長王果與中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書機(jī)構(gòu),最后獲得加州大學(xué)伯克利分校支持,達(dá)成共識,將伯克利東亞圖書館的中文古籍善本逐步數(shù)字化。

      前所未有的挑戰(zhàn)

      據(jù)王果介紹,“漢典重光”的分工非常明確——采集側(cè)把紙質(zhì)書變?yōu)橛坝“妫瑪?shù)字化生產(chǎn)側(cè)把影印版變?yōu)槲淖职妫瑧?yīng)用側(cè)為文字版增加檢索、字典和知識圖譜等研學(xué)系統(tǒng)。東亞圖書館完成第一個環(huán)節(jié)后,四川大學(xué)將和達(dá)摩院共同完成另外兩個步驟。其中,四川大學(xué)將提供一切非計算層面的專業(yè)支持,并與達(dá)摩院的機(jī)器視覺實(shí)驗(yàn)室合作,共同開發(fā)古籍AI技術(shù)。

      首批數(shù)字化的古籍共20萬頁,包含40余種珍貴宋元善本。剛開始大家對這個項(xiàng)目很有信心,但實(shí)際一上手才知道難度有多大。

      首先是中國古籍的載體很多,紙、布、竹子、木頭、甲骨、石碑……幾乎所有能用的載體都被古人留了字,不同載體上面的字識別起來差別非常大。年代久遠(yuǎn)的紙張大多殘缺不全,上面還布滿斑點(diǎn),而且排列非常復(fù)雜。古人喜歡從上到下,從右到左,還非常喜歡在上面做批注。

      字跡的精美也成了負(fù)擔(dān)。隸書、楷書、草書、行書都漂亮,但也真難認(rèn)。大部分字還是手寫的,不但兩個人寫的同一個字不一樣,同一個人寫的同一個字也差別很大,很多字還有不同寫法。

      團(tuán)隊原有的OCR(圖像文字識別)的識別準(zhǔn)確率只有40%,這顯然是不夠的,較早涉足古籍識別的Google Books(谷歌圖書)針對的都是英文古籍,對中文也不適用。

      大量創(chuàng)造性和創(chuàng)新性的辛勤勞動

      沒有前車可鑒,只能自己來了。“這就像教小朋友識字,確實(shí)難,但也有簡單的部分,我們就由易到難慢慢做。”王果說。

      前所未有的開拓性成果,包含著中國學(xué)者大量創(chuàng)造性和創(chuàng)新性的辛勤勞動。

      達(dá)摩院的古籍識別算法,用AI替代人工,大幅壓縮了專家標(biāo)注工作量。在機(jī)器為主進(jìn)行識別的97.5%的內(nèi)容中,約有1%(1萬字左右)需要專家錄入;機(jī)器不能識別的余下2.5%(2.5萬字)的文字,全部交給專家做后期標(biāo)注。相比人工專家錄入,百萬字書籍的數(shù)字化工作量從1000天降低到了35天,效率比人工專家錄入方案提升近30倍。這種古籍識別算法,為中華古籍的回歸提供了另一種可行可期的思路。

      非計算機(jī)層面的工作也非常重要,四川大學(xué)專門組織了30多個歷史系學(xué)生來做標(biāo)注,這很耗神,眼力、腦力缺一不可,但這個過程沒法省略,就像學(xué)生要學(xué)習(xí),算法也要迭代,“只有數(shù)據(jù)夠多夠好,機(jī)器才能搞定”。

      這是一件非常難但非常有意義的事情。古籍識別的挑戰(zhàn)巨大,但大家還是想通過技術(shù)讓古籍活起來,用科技守護(hù)文明。

      據(jù)了解,達(dá)摩院、四川大學(xué)、美國加州大學(xué)伯克利分校、中國國家圖書館、浙江圖書館將繼續(xù)投入人力、物力,擴(kuò)大古籍?dāng)?shù)字化回歸的數(shù)量,讓所有蒙塵的古籍重?zé)ㄐ律?/p>

      達(dá)摩院院長張建鋒表示,阿里計劃將這套技術(shù)工具連同古籍?dāng)?shù)字化平臺一并捐贈,交由權(quán)威公共機(jī)構(gòu)長期運(yùn)營,最終將成為一個開放的網(wǎng)絡(luò)平臺,供大眾檢索學(xué)習(xí)。

    版權(quán)聲明:凡注有稿件來源為“中國甘肅網(wǎng)”的稿件,均為中國甘肅網(wǎng)版權(quán)稿件,轉(zhuǎn)載必須注明來源為“中國甘肅網(wǎng)”。

    西北角西北角
    中國甘肅網(wǎng)微信中國甘肅網(wǎng)微信
    中國甘肅網(wǎng)微博中國甘肅網(wǎng)微博
    微博甘肅微博甘肅
    學(xué)習(xí)強(qiáng)國學(xué)習(xí)強(qiáng)國
    今日頭條號今日頭條號

    互聯(lián)網(wǎng)新聞信息服務(wù)許可證編號:6212006002 | ICP備案:隴ICP備17001500號 | 經(jīng)營許可證編號:甘B2-20060006 | 廣播電視節(jié)目制作經(jīng)營許可證編號:(甘)字第079號增值電信業(yè)務(wù)許可證編號:甘B2__20120010

    食品藥品監(jiān)管總局投訴舉報電話:12331 | 互聯(lián)網(wǎng)違法和不良信息舉報電話:12377

    主辦:甘肅中甘網(wǎng)傳媒有限責(zé)任公司 | 本網(wǎng)常年法律顧問團(tuán):甘肅和諧律師事務(wù)所(0931-8580115)甘肅天旺律師事務(wù)所(0931-8864528)

    Copyright © 2006 - 2016 中國甘肅網(wǎng)(GSCN.COM.CN) All Rights Reserved

    網(wǎng)站簡介 | 人才招聘 | 廣告服務(wù) | 聯(lián)系我們 | 違法和不良信息舉報電話: 0931-8960109 0931-8960307(傳真)

    分享到
    国产日韩精品中文字无码| 久久久久无码专区亚洲av| 亚洲中文字幕无码久久综合网| 无码人妻久久一区二区三区 | 玖玖资源站无码专区| 91在线中文字幕| 亚洲av无码不卡私人影院| 无码精品人妻一区二区三区免费看| yellow中文字幕久久网| 中文无码久久精品| 日韩精品无码久久一区二区三| 亚洲性无码一区二区三区| 精品人妻V?出轨中文字幕| 亚洲 欧美 中文 在线 视频| 国产午夜无码精品免费看动漫| 中文字幕av无码一区二区三区电影| 最近免费中文字幕高清大全| 亚洲中文字幕在线乱码| 中文字字幕在线中文无码| 无码 免费 国产在线观看91 | 蜜桃无码一区二区三区| 久久超乳爆乳中文字幕| 最近中文字幕在线中文高清版| 国产精品无码专区| 国产精品va无码一区二区| 国产在线无码视频一区二区三区| 无码无套少妇毛多18PXXXX | 丰满人妻AV无码一区二区三区| 免费A级毛片无码视频| 久久ZYZ资源站无码中文动漫| 日韩欧精品无码视频无删节| 人妻少妇偷人精品无码| 国产AV无码专区亚汌A√| 国产精品亚洲αv天堂无码| 色欲香天天综合网无码| 亚洲中文字幕AV在天堂| 精品久久久久久久久中文字幕 | 日韩精品久久无码中文字幕| 天堂√中文最新版在线下载| 久久婷婷综合中文字幕| 精品久久久久中文字|