��޲��av��һ��,��Ʒ��av�� һ��

首頁動態資訊行(xing)業資訊

淺談智能文檔處理技術與應用

來源：易道(dao)博識發布時間：2023-04-26

智能(neng)文檔處(chu)理介紹

智(zhi)能(neng)(neng)文(wen)檔處理（IDP）是利用人工智(zhi)能(neng)(neng)技術(shu)，自動(dong)從復雜的非結(jie)構(gou)化(hua)和半結(jie)構(gou)化(hua)文(wen)檔中抽取(qu)關鍵數據(ju)(ju)(ju)，并將其轉換(huan)成結(jie)構(gou)化(hua)數據(ju)(ju)(ju)的技術(shu)。IDP又稱(cheng)為認知數據(ju)(ju)(ju)處理（Cognitive Data Processing）或智(zhi)能(neng)(neng)數據(ju)(ju)(ju)捕獲（Intelligent Data Capturing）技術(shu)。

眾所周知，商(shang)業數(shu)(shu)(shu)據是企(qi)業數(shu)(shu)(shu)字化(hua)轉型的(de)核(he)心。然而，現實中80%的(de)商(shang)業數(shu)(shu)(shu)據都是非結構(gou)化(hua)格式，比(bi)如郵件、圖片和各種(zhong)企(qi)業文(wen)(wen)檔(dang)，其中非結構(gou)化(hua)文(wen)(wen)檔(dang)占據了絕(jue)大多(duo)數(shu)(shu)(shu)。據統計(ji)，到2025年，全球(qiu)企(qi)業數(shu)(shu)(shu)據總(zong)量將達(da)到175ZB。借助于(yu)IDP技(ji)術，企(qi)業能夠實現文(wen)(wen)檔(dang)自動化(hua)處(chu)理、文(wen)(wen)檔(dang)語義理解、智(zhi)能審核(he)和數(shu)(shu)(shu)據智(zhi)能分析(xi)等方面的(de)功(gong)能，提升企(qi)業用戶(hu)文(wen)(wen)檔(dang)處(chu)理的(de)效率和質量，為企(qi)業降本增效。

智能文檔處理難點

從文檔的(de)(de)結(jie)(jie)構特點(dian)上，我們可(ke)以將現實世界的(de)(de)文檔劃分(fen)為結(jie)(jie)構化、半結(jie)(jie)構化和(he)非結(jie)(jie)構化三種類型(xing)。對應到(dao)版(ban)(ban)式特征上，分(fen)別是固定版(ban)(ban)式、多版(ban)(ban)式和(he)開放(fang)版(ban)(ban)式三種類型(xing)。

結(jie)構化(hua)文檔(dang)具有版(ban)(ban)式固定(ding)的(de)(de)特點，同(tong)(tong)一類型不(bu)同(tong)(tong)樣(yang)(yang)本之間沒有差異，如固定(ding)版(ban)(ban)式的(de)(de)信息(xi)采(cai)集表(biao)、申(shen)請文件等(deng)(deng)。半結(jie)構化(hua)文檔(dang)版(ban)(ban)式相對固定(ding)，或稱為多(duo)版(ban)(ban)式文檔(dang)，同(tong)(tong)一類型不(bu)同(tong)(tong)樣(yang)(yang)本之間關鍵(jian)內(nei)容(rong)(rong)相同(tong)(tong)，但是往往內(nei)容(rong)(rong)出現的(de)(de)位(wei)置(zhi)卻不(bu)同(tong)(tong)，如不(bu)同(tong)(tong)供(gong)應商(shang)采(cai)購的(de)(de)送貨(huo)單，每個供(gong)應商(shang)都不(bu)同(tong)(tong)，但是其關鍵(jian)內(nei)容(rong)(rong)都包含訂單號、商(shang)品(pin)信息(xi)等(deng)(deng)。

非(fei)結(jie)構化文(wen)檔又稱為開放版(ban)式(shi)文(wen)檔，通常沒有(you)顯著的版(ban)式(shi)特征，幾乎(hu)是純文(wen)本表(biao)達，雖然(ran)表(biao)達的內容相同(tong)，但是表(biao)達方式(shi)卻(que)差(cha)異很(hen)大。常見(jian)的如合(he)同(tong)、簡(jian)歷、招標文(wen)件等(deng)。

對于(yu)結構化和(he)半結構化文(wen)檔(dang)，由(you)于(yu)版(ban)式相對固定，當前行業內(nei)普遍(bian)的(de)(de)做法是(shi)通過(guo)模板或深度學習模型的(de)(de)方法，完成分(fen)類和(he)信(xin)息抽取等自動化處(chu)(chu)理，已經能夠解決大多數應(ying)用場景的(de)(de)問題(ti)。但是(shi)，開放版(ban)式文(wen)檔(dang)，由(you)于(yu)其天然的(de)(de)諸多難(nan)(nan)點，給智能文(wen)檔(dang)處(chu)(chu)理帶(dai)來(lai)了很大的(de)(de)困難(nan)(nan)。如(ru)下表，是(shi)我們歸納的(de)(de)開放版(ban)式文(wen)檔(dang)處(chu)(chu)理的(de)(de)主(zhu)要(yao)難(nan)(nan)點。

表(biao)1 開放版式文檔特點

智(zhi)能文檔處(chu)理核心技術

如(ru)表(biao)1，相比于純(chun)文(wen)(wen)(wen)(wen)本或固(gu)定和多版式文(wen)(wen)(wen)(wen)檔(dang)，開放(fang)版式文(wen)(wen)(wen)(wen)檔(dang)處理(li)(li)具(ju)有諸多難點(dian)。因此(ci)，智(zhi)能文(wen)(wen)(wen)(wen)檔(dang)處理(li)(li)過(guo)程必須綜(zong)合應用(yong)計算機視覺（CV）、光學字符處理(li)(li)（OCR）、文(wen)(wen)(wen)(wen)檔(dang)解析、自(zi)然語言處理(li)(li)（NLP）和文(wen)(wen)(wen)(wen)檔(dang)信息抽取等(deng)關鍵技(ji)術，才能更好地實現自(zi)動化和智(zhi)能化處理(li)(li)。

計(ji)算(suan)機視覺(jue)（CV）技術

CV技術(shu)(shu)主要(yao)(yao)是(shi)對于文檔(dang)圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)進行各種圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)處(chu)理，常(chang)見如圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)去(qu)噪聲(sheng)、去(qu)干擾、圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)增強、圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)壓縮(suo)、圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)分(fen)割(ge)等。其(qi)處(chu)理目的(de)主要(yao)(yao)是(shi)為后續OCR環節提供高(gao)質量的(de)圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)輸(shu)入，以提升(sheng)OCR的(de)性能。同時，利用圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)檢測和(he)分(fen)割(ge)等技術(shu)(shu)，可以實現文檔(dang)物理版面解析。

光學字(zi)符處理（OCR）技術

OCR是將(jiang)紙(zhi)質文檔、圖片等(deng)非數字化文件中的(de)文字內容轉換(huan)為(wei)數字化格(ge)式的(de)技術(shu)。當前主流(liu)實(shi)現上，借助(zhu)表格(ge)識(shi)別、印章(zhang)識(shi)別、勾選和(he)二維(wei)碼識(shi)別等(deng)技術(shu)，在OCR環(huan)節(jie)(jie)可(ke)以(yi)實(shi)現圖像中所有通(tong)用(yong)對象（文字、表格(ge)、印章(zhang)、勾選、二維(wei)碼、簽名等(deng)）的(de)統一識(shi)別和(he)輸出，作為(wei)后續智能化文檔處(chu)理環(huan)節(jie)(jie)的(de)輸入(ru)。

文檔解析(xi)技術

文檔(dang)(dang)解(jie)(jie)析是在文檔(dang)(dang)協議(yi)解(jie)(jie)析或OCR處理(li)的(de)(de)結果(guo)上，通(tong)過版面分(fen)析、表格解(jie)(jie)析等技(ji)術(shu)，實(shi)現文檔(dang)(dang)物理(li)和(he)邏輯結構(gou)的(de)(de)解(jie)(jie)析，得到(dao)文檔(dang)(dang)內容的(de)(de)統一表示。以此作為(wei)進一步文檔(dang)(dang)分(fen)類、信(xin)息抽取(qu)和(he)文檔(dang)(dang)比對等處理(li)的(de)(de)輸入。IDP通(tong)常(chang)需(xu)要能(neng)夠支持所(suo)有格式的(de)(de)文檔(dang)(dang)輸入，包括圖片、PDF、Word、OFD等，因此，文檔(dang)(dang)解(jie)(jie)析環(huan)節需(xu)要能(neng)夠解(jie)(jie)析以上各種格式的(de)(de)輸入文件，將其轉換(huan)成統一的(de)(de)表示形式，如JSON文件。

自然語言處(chu)理（NLP）

NLP是(shi)一(yi)種利(li)用計算機技(ji)術對自然語言(yan)進(jin)(jin)行(xing)(xing)分(fen)析(xi)(xi)(xi)和處理(li)(li)的(de)(de)技(ji)術，常見的(de)(de)NLP任(ren)務包括分(fen)詞、詞性標注(zhu)、句法分(fen)析(xi)(xi)(xi)、語義分(fen)析(xi)(xi)(xi)、文(wen)(wen)(wen)本分(fen)類(lei)、信(xin)息(xi)抽取(qu)(qu)、文(wen)(wen)(wen)檔摘要(yao)(yao)、情感分(fen)析(xi)(xi)(xi)等(deng)。IDP中主要(yao)(yao)使(shi)用的(de)(de)NLP技(ji)術包括文(wen)(wen)(wen)本分(fen)類(lei)、文(wen)(wen)(wen)本信(xin)息(xi)抽取(qu)(qu)、語義理(li)(li)解(jie)(jie)等(deng)。通常的(de)(de)做法是(shi)將(jiang)OCR輸出或文(wen)(wen)(wen)檔協議解(jie)(jie)析(xi)(xi)(xi)后的(de)(de)所有文(wen)(wen)(wen)本塊進(jin)(jin)行(xing)(xing)拼(pin)接，得(de)到文(wen)(wen)(wen)本序(xu)列，再通過文(wen)(wen)(wen)本分(fen)類(lei)、信(xin)息(xi)抽取(qu)(qu)等(deng)技(ji)術，實(shi)現文(wen)(wen)(wen)檔的(de)(de)分(fen)類(lei)和信(xin)息(xi)抽取(qu)(qu)。另外，通過NLP技(ji)術，也(ye)可以對文(wen)(wen)(wen)檔進(jin)(jin)行(xing)(xing)自動(dong)摘要(yao)(yao)、情感分(fen)析(xi)(xi)(xi)和智能(neng)問答等(deng)處理(li)(li)。

文檔信(xin)息抽取(qu)

相比于純文本，文檔(dang)(dang)(dang)(dang)的(de)(de)最大(da)(da)特點是其富格式特點。因此，文檔(dang)(dang)(dang)(dang)中信息(xi)抽(chou)(chou)取(qu)必須依(yi)賴于版面位置等視覺特征，比如(ru)從文檔(dang)(dang)(dang)(dang)中的(de)(de)圖表(biao)或(huo)表(biao)格中抽(chou)(chou)取(qu)信息(xi)，或(huo)者從特定版面位置區域的(de)(de)結構(gou)化(hua)信息(xi)塊中抽(chou)(chou)取(qu)信息(xi)。相比于簡單地(di)從大(da)(da)段文本序列中做(zuo)信息(xi)抽(chou)(chou)取(qu)，文檔(dang)(dang)(dang)(dang)信息(xi)抽(chou)(chou)取(qu)技術難(nan)度更大(da)(da)。

智能(neng)文(wen)檔處理流程

如下圖(tu)，是智能文檔(dang)統一處理(li)流程。

圖1 智(zhi)能(neng)文檔處理流程(cheng)

主要包含以下環節：

文檔預處理(li)

該步驟主要針(zhen)對Word、PDF等文檔協議進行(xing)解析處(chu)理。

通過(guo)通用OCR識(shi)別模型，對輸(shu)入的文檔圖像(xiang)上(shang)的文字、印章、簽(qian)名、表(biao)格等通用要素進行識(shi)別，得到文本和位置，以及(ji)表(biao)格結構化數據。

版面分析

利用版(ban)面分析(xi)(xi)技術(shu)，定位出文檔圖像上所有的標題、段落(luo)、表格(ge)、圖表、頁眉(mei)、頁腳(jiao)等版(ban)面信息。再利用標題和段落(luo)等信息，做文檔邏輯結構(gou)分析(xi)(xi)，得到(dao)文檔結構(gou)。

信息抽取

基于版面(mian)和(he)目錄分析的(de)結(jie)果，結(jie)合(he)文檔(dang)協議解析或OCR的(de)結(jie)果，利用自然語言(yan)處(chu)理等技(ji)術(shu)，進行文檔(dang)關鍵信息(xi)抽取。

信息校(xiao)驗

利用預(yu)設(she)(she)的(de)規則，對抽取(qu)出的(de)信息進行校驗，包括數據格式檢(jian)查、預(yu)設(she)(she)的(de)審閱規則檢(jian)查等(deng)。

智能文檔處理應用場景(jing)

主要的智能文(wen)檔處理應用場景包(bao)括：

分類和標簽化

通(tong)過智(zhi)能(neng)文檔(dang)處(chu)(chu)理技術，可以對大(da)量文檔(dang)進行(xing)分類和標簽化，從而實(shi)現文檔(dang)的快速檢(jian)索、內容推薦和歸檔(dang)處(chu)(chu)理等功(gong)能(neng)。

信息抽取

智(zhi)能(neng)(neng)文(wen)檔(dang)處理可以幫助(zhu)從文(wen)檔(dang)中抽取關鍵信息，如關鍵的短(duan)語、實體、事件等。這(zhe)些信息在知(zhi)識圖譜構建、智(zhi)能(neng)(neng)搜索、智(zhi)能(neng)(neng)比對、智(zhi)能(neng)(neng)問答等應(ying)用(yong)場景中具有重要的價值。

摘要與生成(cheng)

利用(yong)智能文(wen)檔處理(li)技(ji)術，可以(yi)對文(wen)檔進(jin)行自動(dong)摘要，生成(cheng)簡(jian)潔(jie)、精煉的(de)摘要內容。此外，還可以(yi)根(gen)據用(yong)戶輸入的(de)關鍵詞或短語(yu)生成(cheng)特定主題(ti)的(de)文(wen)章，以(yi)滿(man)足用(yong)戶需求。

問答與(yu)對話

通過(guo)智能文檔(dang)處(chu)理技術，可(ke)以構建智能問答系(xi)統，為(wei)用戶提供及時準確的文檔(dang)內容信息。

未來(lai)隨著大(da)模(mo)型等人工智(zhi)能技術的不(bu)斷發展，智(zhi)能文(wen)檔處(chu)理將會在各個行(xing)業的應用場景中(zhong)不(bu)斷普及化。

賽博(bo)智(zhi)能學習平臺智(zhi)能文檔處(chu)理

賽博智(zhi)能(neng)(neng)學習(xi)平(ping)臺(tai)定(ding)位于(yu)一(yi)體(ti)化(hua)機器學習(xi)訓(xun)練平(ping)臺(tai)，集成了對于(yu)結構(gou)化(hua)和(he)非(fei)結構(gou)文(wen)(wen)檔(dang)(dang)的智(zhi)能(neng)(neng)化(hua)處理功能(neng)(neng)，包括智(zhi)能(neng)(neng)文(wen)(wen)檔(dang)(dang)分類、文(wen)(wen)檔(dang)(dang)解析(xi)和(he)文(wen)(wen)檔(dang)(dang)信息抽取等。能(neng)(neng)夠支持合同(tong)、法律文(wen)(wen)書(shu)、招投標(biao)文(wen)(wen)件(jian)等各種開放版式(shi)長文(wen)(wen)檔(dang)(dang)的智(zhi)能(neng)(neng)化(hua)處理。基(ji)于(yu)平(ping)臺(tai)自(zi)定(ding)義(yi)模(mo)板和(he)自(zi)訓(xun)練模(mo)型能(neng)(neng)力(li)，通過現場(chang)模(mo)板定(ding)制、模(mo)型標(biao)注訓(xun)練的方式(shi)，能(neng)(neng)夠形成即時可用的文(wen)(wen)檔(dang)(dang)AI能(neng)(neng)力(li)。

如下圖，是賽(sai)博智能學習平臺智能文檔(dang)處理的基本流程。

圖2 賽(sai)博智能(neng)學習平(ping)臺智能(neng)文檔處理流程(cheng)

未來，易道博識(shi)將繼續針對(dui)金融、能(neng)源、通信(xin)等(deng)行業(ye)客戶，在(zai)業(ye)務運營、審核和監(jian)督管理(li)、信(xin)息檢(jian)索和風險管理(li)等(deng)場景(jing)下，圍繞數字化、自動化和智能(neng)化需求，依(yi)托賽博智能(neng)學習平臺，為企(qi)業(ye)打造強大AI底座，助力企(qi)業(ye)建設基于(yu)AI模型全生(sheng)命周期的標準化、一體化生(sheng)產運營體系。

賽博智能學習平臺以(yi)私有化部署、現場(chang)訓練的形式滿足(zu)客戶對數(shu)據安全要求，通過與業務系統深度(du)融合，滿足(zu)各業務場(chang)景在圖像處理(li)、OCR、智能文檔處理(li)和NLP等(deng)方向(xiang)需求。

賽博智能學習平臺持(chi)續將AI大模(mo)型等前沿技術與行業數(shu)據(ju)深度結合(he)，在(zai)技術與業務(wu)場(chang)景之間(jian)搭橋鋪路，讓AI技術快速在(zai)場(chang)景中落(luo)地(di)，在(zai)應用場(chang)景中產(chan)生價值，帶動(dong)產(chan)業發展(zhan)和升級。

上一篇：金融領域數智化轉型創新應用和實踐——賽博智能學習平臺

下一篇：易道博識榮獲第二屆光合組織AI解決方案大賽一等獎

返回列表

更多資訊

易道博識(shi)OCR智能(neng)識(shi)別方(fang)案，助(zhu)力(li)金融業(ye)降本(ben)增效

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

搜索

淺談智能文檔處理技術與應用

國內統一咨詢服務熱線

（早09:00 - 晚18:00）