漢王影研依托數(shù)字化行業(yè)開發(fā)及應(yīng)用經(jīng)驗(yàn),打造全行業(yè)數(shù)字化周邊智能硬件,通過軟件+硬件的完美結(jié)合,更好的服務(wù)于全行業(yè)數(shù)字化、數(shù)據(jù)化、數(shù)智化的發(fā)展。
導(dǎo)言:
2023年是生成式AI爆發(fā)的元年,同時(shí)也開啟了“以內(nèi)容驅(qū)動(dòng)生產(chǎn)力”的廣闊前景。文檔識別,作為快速獲取非數(shù)字原生文檔內(nèi)容的核心技術(shù),也將在這個(gè)已然爆發(fā)的內(nèi)容時(shí)代,再次回到科技舞臺的中心。
近期,漢王科技董事、中國科學(xué)院自動(dòng)化研究所研究員劉成林,及相關(guān)領(lǐng)域的專家,共同發(fā)表綜述論文《文檔智能分析與識別前沿:回顧與展望》,小編特此全文轉(zhuǎn)載《中國圖像圖形學(xué)報(bào)》相關(guān)欄目內(nèi)容,與各位讀者一道,縱覽文檔智能分析與識別技術(shù)的前世今生。
中國圖象圖形學(xué)報(bào)
20世紀(jì)60年代以來,文檔識別方法研究與應(yīng)用受到廣泛關(guān)注并取得巨大進(jìn)展。近年來,得益于深度學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用,文檔識別的性能快速提升,相關(guān)技術(shù)在文檔數(shù)字化、票據(jù)處理、筆跡錄入、智能交通、文檔檢索與信息抽取等領(lǐng)域得到廣泛應(yīng)用。
圖圖今日推薦《中國圖象圖形學(xué)報(bào)》2023年第8期“文檔圖像智能處理與識別”專欄中的重磅綜述——
文檔智能分析與識別前沿:回顧與展望
作者:劉成林,金連文,白翔 ,李曉輝,殷飛
圖 復(fù)雜文檔的例子
“文檔圖像智能處理與識別”專欄
專欄簡介全文鏈接:
http://www.cjig.cn/jig/article/html/2300008
關(guān)注并回復(fù)【OCR】
免費(fèi)獲取專欄論文電子版
論文信息
引用格式:
Liu Chenglin, Jin Lianwen, Bai Xiang, Li Xiaohui, Yin Fei. 2023. Frontiers of intelligent document analysis and recognition:review and prospects. Journal of Image and Graphics, 28(08):2223-2252
劉成林, 金連文, 白翔, 李曉輝, 殷飛. 2023. 文檔智能分析與識別前沿:回顧與展望. 中國圖象圖形學(xué)報(bào), 28(08):2223-2252
全文鏈接:
http://www.cjig.cn/jig/article/html/221112
關(guān)鍵詞:文檔分析與識別; 文檔智能; 版面分析; 文本檢測; 文本識別; 圖形符號識別; 語義信息抽取
論文看點(diǎn)
1. 本文對文檔智能分析與識別領(lǐng)域60多年的研究歷史進(jìn)行了簡要回顧。
2. 重點(diǎn)對深度學(xué)習(xí)興起以來的研究進(jìn)展從幾個(gè)主要技術(shù)環(huán)節(jié)(圖像預(yù)處理、版面分析、場景文本檢測、文本識別、圖形符號識別和信息抽?。┻M(jìn)行了回顧和分析。
3. 總結(jié)了當(dāng)前技術(shù)發(fā)展的主要特點(diǎn)和研究與應(yīng)用中存在的不足。
4. 最后從系統(tǒng)性能提升、應(yīng)用擴(kuò)展、學(xué)習(xí)能力增強(qiáng)3個(gè)角度提出了未來研究方向。在這些方向上努力深耕,有望持續(xù)推進(jìn)文檔識別技術(shù)的發(fā)展和推廣應(yīng)用。
關(guān)鍵表格
表1 文檔分析與識別的主要研究內(nèi)容
表2 部分場景文本識別方法在6個(gè)不同數(shù)據(jù)集上的
性能(詞正確率)對比
表3 部分?jǐn)?shù)學(xué)公式識別方法性能(公式級別正確率)
表4 文檔分析與識別中的學(xué)習(xí)問題
未來研究方向
從提升性能、應(yīng)用擴(kuò)展、提升學(xué)習(xí)能力幾個(gè)角度提出以下研究方向:
1. 從提升性能角度,研究問題包括文本識別可靠性、可解釋性、全要素識別、長尾問題、多語言、復(fù)雜版面分割與理解、變形文檔分析與識別等。
2. 應(yīng)用擴(kuò)展包括新應(yīng)用(如機(jī)器人流程自動(dòng)化RPA)、文字信息抄錄、考古)和新技術(shù)問題(語義信息抽取、跨模態(tài)融合、面向應(yīng)用的推理決策等)兩方面。
3. 從提升學(xué)習(xí)能力角度,相關(guān)問題包括小樣本學(xué)習(xí)、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、領(lǐng)域自適應(yīng)、結(jié)構(gòu)化預(yù)測、弱監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、開放集學(xué)習(xí)和跨模態(tài)學(xué)習(xí)等。
作者簡介
劉成林,中國科學(xué)院自動(dòng)化研究所多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室,研究員,《中國圖象圖形學(xué)報(bào)》領(lǐng)域主編。主要研究方向?yàn)槟J阶R別、機(jī)器學(xué)習(xí)、文檔分析與識別。
E-mail:liucl@nlpr.ia.ac.cn
金連文,華南理工大學(xué)電子與信息學(xué)院,教授,《中國圖象圖形學(xué)報(bào)》領(lǐng)域主編。主要研究方向?yàn)槟J阶R別、文檔分析與識別、信息抽取。
E-mail:eelwjin@scut.edu.cn
白翔,華中科技大學(xué)電子信息與通信學(xué)院,教授,《中國圖象圖形學(xué)報(bào)》編委。主要研究方向?yàn)槟J阶R別、計(jì)算機(jī)視覺、文檔分析與識別。
E-mail:xbai@hust.edu.cn
李曉輝,中國科學(xué)院自動(dòng)化研究所多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室,助理研究員,主要研究方向?yàn)槟J阶R別、文檔分析與識別。
E-mail:xiaohui.li@nlpr.ia.ac.cn
殷飛,中國科學(xué)院自動(dòng)化研究所多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室,研究員,主要研究方向?yàn)槟J阶R別、文檔分析與識別。
E-mail:fyin@nlpr.ia.ac.cn
漢王影研云圖OCR識別
北京漢王影研科技有限公司云圖OCR引擎,基于AI文字識別技術(shù)及圖像處理技術(shù),從文檔數(shù)據(jù)化、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)精細(xì)化、數(shù)據(jù)智能化出發(fā),打造數(shù)據(jù)處理產(chǎn)品矩陣,圍繞數(shù)據(jù)應(yīng)用場景研發(fā)系列產(chǎn)品,為政法、醫(yī)療、檔案等各行業(yè)客戶及集成商提供數(shù)據(jù)利用服務(wù),并在價(jià)值挖掘過程中提供技術(shù)賦能。
影研科技
掃描左側(cè)小程序碼
體驗(yàn)影研云圖OCR
產(chǎn)品特點(diǎn)
識別信息多樣化
除常規(guī)印刷體文字外,支持手寫體、英文、證件、表格、圖像等多類文本材料中常見內(nèi)容識別。
識別準(zhǔn)確率高
利用AI技術(shù),印刷體文字識別準(zhǔn)確率99%;手寫體文字識別準(zhǔn)確率95%以上,高于人眼辨認(rèn)。
干擾因素自適應(yīng)
在圖片灰暗、成像不清、輕微污損、文字傾斜、文字扣章等環(huán)境下保證高準(zhǔn)確率,無懼識別干擾。
識別結(jié)果版式還原
識別結(jié)果可按照原圖中文字大小、位置、段落、排版進(jìn)行1:1還原,無限接近原圖閱讀體驗(yàn)。
識別速度快
整機(jī)服務(wù)器識別速度可達(dá)20QPS,處國內(nèi)領(lǐng)先水平,可根據(jù)業(yè)務(wù)需求及并發(fā)量對算力進(jìn)行橫向擴(kuò)展以滿足不同業(yè)務(wù)量需求。
支持個(gè)性化定制
基于深度學(xué)習(xí)技術(shù),可根據(jù)需求對識別引擎做個(gè)性化定制,適用于特殊業(yè)務(wù)材料的識別。
應(yīng)用場景
結(jié)構(gòu)化信息回填
基于業(yè)務(wù)需求對文檔中結(jié)構(gòu)化信息自動(dòng)提取,提取結(jié)果自動(dòng)回填至業(yè)務(wù)系統(tǒng),減輕人工著錄工作。
文檔輔助編寫
將紙質(zhì)文檔識別為可編輯文本,在編寫其他文檔時(shí)可直接對已有文檔信息進(jìn)行快速復(fù)用。
文檔質(zhì)量審查
對文檔進(jìn)行結(jié)構(gòu)化信息提取,對文檔關(guān)鍵信息進(jìn)行業(yè)務(wù)規(guī)則校對,提升文檔合規(guī)性及嚴(yán)謹(jǐn)性。
文檔全文檢索
將紙質(zhì)/圖像文檔進(jìn)行內(nèi)容識別,可基于內(nèi)容進(jìn)行更精準(zhǔn)檢索,替代傳統(tǒng)標(biāo)題檢索形式。
關(guān)于影研
北京漢王影研科技有限公司,成立于2005年,是漢王科技(股票代碼002362)旗下高新技術(shù)企業(yè)。自成立起,始終專注行業(yè)數(shù)據(jù)內(nèi)容管理,是業(yè)內(nèi)優(yōu)秀的業(yè)務(wù)數(shù)據(jù)內(nèi)容管理信息化與流程服務(wù)提供商,幫助用戶提供貫穿全業(yè)務(wù)生命周期的綜合數(shù)據(jù)服務(wù),包括IT系統(tǒng)規(guī)劃、信息系統(tǒng)建設(shè)、業(yè)務(wù)流程外包、數(shù)據(jù)生產(chǎn)、數(shù)據(jù)挖掘與治理、AI智能硬件、AI智能應(yīng)用服務(wù)等。
END