運用人工智慧解鎖歷史文本

計畫介紹

目前的文本OCR技術在印刷體上已能達到很高的準確率,但在辨識中文手寫文本、複雜版面、多語種等性質的文本上,仍停留在不堪使用的階段。本計畫擬將多樣化的歷史文獻全文數位化,以現有的OCR系統結合AI技術,取代傳統大量人工校對與打字的數位化方式,提昇數位化過程的速度和準確性。本計畫的成果可以令日後紙本文獻全文數位化的門檻大幅降低,促進學術研究的進程,並同時推進中文OCR技術的發展。

計畫主持人

連玲玲 mhllien@gate.sinica.edu.tw

本計畫之重大里程碑

將現有的OCR模型訓練至可辨識中文手寫體,以及處理多語言、複雜版面等任務。
完成近代婦女期刊、王世慶檔案、日治時期戶口調查簿等資料的數位化。
開發與AI協作的低人工參與OCR流程。