您當(dāng)前的位置：中國(guó)甘肅網(wǎng) >> 書(shū)香隴原 >> 要聞

“識(shí)典古籍”來(lái)了！三年將上線一萬(wàn)種儒釋道經(jīng)典

22-10-14 14:42 來(lái)源：中國(guó)青年報(bào)客戶端編輯：張?zhí)m琴

　　中國(guó)青年報(bào)客戶端訊（中青報(bào)·中青網(wǎng)記者沈杰群）10月11日，由“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開(kāi)放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”測(cè)試版正式上線。目前，該平臺(tái)涵蓋390部經(jīng)典古籍，主要來(lái)自《四部叢刊》，共計(jì)3000多萬(wàn)字，即日起向公眾免費(fèi)開(kāi)放。未來(lái)三年，“識(shí)典古籍”將陸續(xù)完成一萬(wàn)種古籍的智能化整理工作，基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄，屆時(shí)將全部免費(fèi)開(kāi)放。

　　據(jù)了解，上述實(shí)驗(yàn)室系今年3月北京大學(xué)與字節(jié)跳動(dòng)合作成立，將人工智能技術(shù)應(yīng)用于古籍資源的智能化整理。“識(shí)典古籍”平臺(tái)上線，即是雙方合作的最新進(jìn)展。

　　當(dāng)前，中國(guó)的古籍?dāng)?shù)字化面臨技術(shù)難度高、資金缺口大、人才緊張等難點(diǎn)。相關(guān)資料顯示，現(xiàn)存的20多萬(wàn)種古籍中，只有8萬(wàn)種完成影像數(shù)字化掃描，近4萬(wàn)種完成文本數(shù)字化。據(jù)專家統(tǒng)計(jì)，從1949年到2019年，國(guó)內(nèi)共修復(fù)整理出版古籍近3.8萬(wàn)種，要將現(xiàn)存古籍全部修復(fù)整理出來(lái)，可能需要300年時(shí)間；若利用人工智能技術(shù)輔助修復(fù)整理，大概二三十年就能完成。據(jù)“識(shí)典古籍”項(xiàng)目負(fù)責(zé)人介紹，該平臺(tái)當(dāng)前主要使用了三種技術(shù)，包括文字識(shí)別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別。文字識(shí)別技術(shù)，是對(duì)古籍的影印版文字進(jìn)行單個(gè)切分，再進(jìn)行文字識(shí)別和順序識(shí)別。自動(dòng)標(biāo)點(diǎn)技術(shù)，是通過(guò)序列標(biāo)注的方式對(duì)古籍自動(dòng)進(jìn)行標(biāo)點(diǎn)劃分。命名實(shí)體識(shí)別技術(shù)，則是通過(guò)序列標(biāo)注識(shí)別文本中的人名、地名、書(shū)籍、時(shí)間、官職等信息。據(jù)悉，目前行業(yè)內(nèi)OCR識(shí)別準(zhǔn)確率平均為93%至94%，“識(shí)典古籍”的準(zhǔn)確率為96%至97%。

　　與其他古籍?dāng)?shù)字化平臺(tái)相比，“識(shí)典古籍”頁(yè)面簡(jiǎn)潔，瀏覽流暢，提供影印底本作為參照，還具備主題詞檢索和繁簡(jiǎn)體轉(zhuǎn)換功能，便于專業(yè)研究人員、廣大古籍愛(ài)好者使用。同時(shí)，“識(shí)典古籍”書(shū)目將持續(xù)更新，后續(xù)將上線手機(jī)移動(dòng)版。

　　未來(lái)，“識(shí)典古籍”將向全社會(huì)開(kāi)放古籍閱讀檢索研究能力，還將實(shí)現(xiàn)全自動(dòng)整理校對(duì)，更高效地實(shí)現(xiàn)存量古籍全部數(shù)字化。同時(shí)，平臺(tái)也鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn)，用戶甚至可參與再創(chuàng)作和再闡釋，助力古籍文化傳承和研究。

　　（圖片由主辦方提供）

版權(quán)聲明：凡注有稿件來(lái)源為“中國(guó)甘肅網(wǎng)”的稿件，均為中國(guó)甘肅網(wǎng)版權(quán)稿件，轉(zhuǎn)載必須注明來(lái)源為“中國(guó)甘肅網(wǎng)”。