国产精品亚洲第一区在线暖暖韩国,精品久久二区,视频在线观看一区二区,97在线观看,午夜狠狠干,精品美女国产,性视频日韩

您當前的位置 : 中國甘肅網(wǎng) >> 書香隴原 >> 要聞

“識典古籍”來了!三年將上線一萬種儒釋道經(jīng)典

22-10-14 14:42 來源:中國青年報客戶端 編輯:張?zhí)m琴

  中國青年報客戶端訊(中青報·中青網(wǎng)記者 沈杰群)10月11日,由“北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室”研發(fā)的古籍數(shù)字化平臺“識典古籍”測試版正式上線。目前,該平臺涵蓋390部經(jīng)典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時將全部免費開放。

  據(jù)了解,上述實驗室系今年3月北京大學(xué)與字節(jié)跳動合作成立,將人工智能技術(shù)應(yīng)用于古籍資源的智能化整理。“識典古籍”平臺上線,即是雙方合作的最新進展。

  當前,中國的古籍數(shù)字化面臨技術(shù)難度高、資金缺口大、人才緊張等難點。相關(guān)資料顯示,現(xiàn)存的20多萬種古籍中,只有8萬種完成影像數(shù)字化掃描,近4萬種完成文本數(shù)字化。據(jù)專家統(tǒng)計,從1949年到2019年,國內(nèi)共修復(fù)整理出版古籍近3.8萬種,要將現(xiàn)存古籍全部修復(fù)整理出來,可能需要300年時間;若利用人工智能技術(shù)輔助修復(fù)整理,大概二三十年就能完成。據(jù)“識典古籍”項目負責(zé)人介紹,該平臺當前主要使用了三種技術(shù),包括文字識別、自動標點和命名實體識別。文字識別技術(shù),是對古籍的影印版文字進行單個切分,再進行文字識別和順序識別。自動標點技術(shù),是通過序列標注的方式對古籍自動進行標點劃分。命名實體識別技術(shù),則是通過序列標注識別文本中的人名、地名、書籍、時間、官職等信息。據(jù)悉,目前行業(yè)內(nèi)OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。

  與其他古籍數(shù)字化平臺相比,“識典古籍”頁面簡潔,瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉(zhuǎn)換功能,便于專業(yè)研究人員、廣大古籍愛好者使用。同時,“識典古籍”書目將持續(xù)更新,后續(xù)將上線手機移動版。

  未來,“識典古籍”將向全社會開放古籍閱讀檢索研究能力,還將實現(xiàn)全自動整理校對,更高效地實現(xiàn)存量古籍全部數(shù)字化。同時,平臺也鼓勵擁有文獻的學(xué)者自行上傳文獻,用戶甚至可參與再創(chuàng)作和再闡釋,助力古籍文化傳承和研究。

 ?。▓D片由主辦方提供)

版權(quán)聲明:凡注有稿件來源為“中國甘肅網(wǎng)”的稿件,均為中國甘肅網(wǎng)版權(quán)稿件,轉(zhuǎn)載必須注明來源為“中國甘肅網(wǎng)”。

西北角西北角
中國甘肅網(wǎng)微信中國甘肅網(wǎng)微信
中國甘肅網(wǎng)微博中國甘肅網(wǎng)微博
微博甘肅微博甘肅
學(xué)習(xí)強國學(xué)習(xí)強國
今日頭條號今日頭條號

互聯(lián)網(wǎng)新聞信息服務(wù)許可證編號:6212006002 | ICP備案:隴ICP備17001500號 | 經(jīng)營許可證編號:甘B2-20060006 | 廣播電視節(jié)目制作經(jīng)營許可證編號:(甘)字第079號增值電信業(yè)務(wù)許可證編號:甘B2__20120010

食品藥品監(jiān)管總局投訴舉報電話:12331 | 互聯(lián)網(wǎng)違法和不良信息舉報電話:12377

主辦:甘肅中甘網(wǎng)傳媒有限責(zé)任公司 | 本網(wǎng)常年法律顧問團:甘肅和諧律師事務(wù)所(0931-8580115)甘肅天旺律師事務(wù)所(0931-8864528)

Copyright © 2006 - 2016 中國甘肅網(wǎng)(GSCN.COM.CN) All Rights Reserved

網(wǎng)站簡介 | 人才招聘 | 廣告服務(wù) | 聯(lián)系我們 | 違法和不良信息舉報電話: 0931-8960109 0931-8960307(傳真)

分享到