色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行(xing)業資訊

淺談智能文檔處理技術與應用

來源:易道(dao)博識 發布時間:2023-04-26
智能(neng)文檔處(chu)理介紹
智(zhi)能(neng)(neng)文(wen)檔處理(IDP)是利用人工智(zhi)能(neng)(neng)技術(shu),自動(dong)從復雜的非結(jie)構(gou)化(hua)和半結(jie)構(gou)化(hua)文(wen)檔中抽取(qu)關鍵數據(ju)(ju)(ju),并將其轉換(huan)成結(jie)構(gou)化(hua)數據(ju)(ju)(ju)的技術(shu)。IDP又稱(cheng)為認知數據(ju)(ju)(ju)處理(Cognitive Data Processing)或智(zhi)能(neng)(neng)數據(ju)(ju)(ju)捕獲(Intelligent Data Capturing)技術(shu)。
眾所周知,商(shang)業數(shu)(shu)(shu)據是企(qi)業數(shu)(shu)(shu)字化(hua)轉型的(de)核(he)心。然而,現實中80%的(de)商(shang)業數(shu)(shu)(shu)據都是非結構(gou)化(hua)格式,比(bi)如郵件、圖片和各種(zhong)企(qi)業文(wen)(wen)檔(dang),其中非結構(gou)化(hua)文(wen)(wen)檔(dang)占據了絕(jue)大多(duo)數(shu)(shu)(shu)。據統計(ji),到2025年,全球(qiu)企(qi)業數(shu)(shu)(shu)據總(zong)量將達(da)到175ZB。借助于(yu)IDP技(ji)術,企(qi)業能夠實現文(wen)(wen)檔(dang)自動化(hua)處(chu)理、文(wen)(wen)檔(dang)語義理解、智(zhi)能審核(he)和數(shu)(shu)(shu)據智(zhi)能分析(xi)等方面的(de)功(gong)能,提升企(qi)業用戶(hu)文(wen)(wen)檔(dang)處(chu)理的(de)效率和質量,為企(qi)業降本增效。
智能文檔處理難點
從文檔的(de)(de)結(jie)(jie)構特點(dian)上,我們可(ke)以將現實世界的(de)(de)文檔劃分(fen)為結(jie)(jie)構化、半結(jie)(jie)構化和(he)非結(jie)(jie)構化三種類型(xing)。對應到(dao)版(ban)(ban)式特征上,分(fen)別是固定版(ban)(ban)式、多版(ban)(ban)式和(he)開放(fang)版(ban)(ban)式三種類型(xing)。
結(jie)構化(hua)文檔(dang)具有版(ban)(ban)式固定(ding)的(de)(de)特點,同(tong)(tong)一類型不(bu)同(tong)(tong)樣(yang)(yang)本之間沒有差異,如固定(ding)版(ban)(ban)式的(de)(de)信息(xi)采(cai)集表(biao)、申(shen)請文件等(deng)(deng)。半結(jie)構化(hua)文檔(dang)版(ban)(ban)式相對固定(ding),或稱為多(duo)版(ban)(ban)式文檔(dang),同(tong)(tong)一類型不(bu)同(tong)(tong)樣(yang)(yang)本之間關鍵(jian)內(nei)容(rong)(rong)相同(tong)(tong),但是往往內(nei)容(rong)(rong)出現的(de)(de)位(wei)置(zhi)卻不(bu)同(tong)(tong),如不(bu)同(tong)(tong)供(gong)應商(shang)采(cai)購的(de)(de)送貨(huo)單,每個供(gong)應商(shang)都不(bu)同(tong)(tong),但是其關鍵(jian)內(nei)容(rong)(rong)都包含訂單號、商(shang)品(pin)信息(xi)等(deng)(deng)。
非(fei)結(jie)構化文(wen)檔又稱為開放版(ban)式(shi)文(wen)檔,通常沒有(you)顯著的版(ban)式(shi)特征,幾乎(hu)是純文(wen)本表(biao)達,雖然(ran)表(biao)達的內容相同(tong),但是表(biao)達方式(shi)卻(que)差(cha)異很(hen)大。常見(jian)的如合(he)同(tong)、簡(jian)歷、招標文(wen)件等(deng)。
對于(yu)結構化和(he)半結構化文(wen)檔(dang),由(you)于(yu)版(ban)式相對固定,當前行業內(nei)普遍(bian)的(de)(de)做法是(shi)通過(guo)模板或深度學習模型的(de)(de)方法,完成分(fen)類和(he)信(xin)息抽取等自動化處(chu)(chu)理,已經能夠解決大多數應(ying)用場景的(de)(de)問題(ti)。但是(shi),開放版(ban)式文(wen)檔(dang),由(you)于(yu)其天然的(de)(de)諸多難(nan)(nan)點,給智能文(wen)檔(dang)處(chu)(chu)理帶(dai)來(lai)了很大的(de)(de)困難(nan)(nan)。如(ru)下表,是(shi)我們歸納的(de)(de)開放版(ban)式文(wen)檔(dang)處(chu)(chu)理的(de)(de)主(zhu)要(yao)難(nan)(nan)點。


表(biao)1 開放版式文檔特點

智(zhi)能文檔處(chu)理核心技術
如(ru)表(biao)1,相比于純(chun)文(wen)(wen)(wen)(wen)本或固(gu)定和多版式文(wen)(wen)(wen)(wen)檔(dang),開放(fang)版式文(wen)(wen)(wen)(wen)檔(dang)處理(li)(li)具(ju)有諸多難點(dian)。因此(ci),智(zhi)能文(wen)(wen)(wen)(wen)檔(dang)處理(li)(li)過(guo)程必須綜(zong)合應用(yong)計算機視覺(CV)、光學字符處理(li)(li)(OCR)、文(wen)(wen)(wen)(wen)檔(dang)解析、自(zi)然語言處理(li)(li)(NLP)和文(wen)(wen)(wen)(wen)檔(dang)信息抽取等(deng)關鍵技(ji)術,才能更好地實現自(zi)動化和智(zhi)能化處理(li)(li)。
計(ji)算(suan)機視覺(jue)(CV)技術

CV技術(shu)(shu)主要(yao)(yao)是(shi)對于文檔(dang)圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)進行各種圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)處(chu)理,常(chang)見如圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)去(qu)噪聲(sheng)、去(qu)干擾、圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)增強、圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)壓縮(suo)、圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)分(fen)割(ge)等。其(qi)處(chu)理目的(de)主要(yao)(yao)是(shi)為后續OCR環節提供高(gao)質量的(de)圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)輸(shu)入,以提升(sheng)OCR的(de)性能。同時,利用圖(tu)(tu)(tu)像(xiang)(xiang)(xiang)檢測和(he)分(fen)割(ge)等技術(shu)(shu),可以實現文檔(dang)物理版面解析。

  • 光學字(zi)符處理(OCR)技術

OCR是將(jiang)紙(zhi)質文檔、圖片等(deng)非數字化文件中的(de)文字內容轉換(huan)為(wei)數字化格(ge)式的(de)技術(shu)。當前主流(liu)實(shi)現上,借助(zhu)表格(ge)識(shi)別、印章(zhang)識(shi)別、勾選和(he)二維(wei)碼識(shi)別等(deng)技術(shu),在OCR環(huan)節(jie)(jie)可(ke)以(yi)實(shi)現圖像中所有通(tong)用(yong)對象(文字、表格(ge)、印章(zhang)、勾選、二維(wei)碼、簽名等(deng))的(de)統一識(shi)別和(he)輸出,作為(wei)后續智能化文檔處(chu)理環(huan)節(jie)(jie)的(de)輸入(ru)。

  • 文檔解析(xi)技術

文檔(dang)(dang)解(jie)(jie)析是在文檔(dang)(dang)協議(yi)解(jie)(jie)析或OCR處理(li)的(de)(de)結果(guo)上,通(tong)過版面分(fen)析、表格解(jie)(jie)析等技(ji)術(shu),實(shi)現文檔(dang)(dang)物理(li)和(he)邏輯結構(gou)的(de)(de)解(jie)(jie)析,得到(dao)文檔(dang)(dang)內容的(de)(de)統一表示。以此作為(wei)進一步文檔(dang)(dang)分(fen)類、信(xin)息抽取(qu)和(he)文檔(dang)(dang)比對等處理(li)的(de)(de)輸入。IDP通(tong)常(chang)需(xu)要能(neng)夠支持所(suo)有格式的(de)(de)文檔(dang)(dang)輸入,包括圖片、PDF、Word、OFD等,因此,文檔(dang)(dang)解(jie)(jie)析環(huan)節需(xu)要能(neng)夠解(jie)(jie)析以上各種格式的(de)(de)輸入文件,將其轉換(huan)成統一的(de)(de)表示形式,如JSON文件。

  • 自然語言處(chu)理(NLP)
NLP是(shi)一(yi)種利(li)用計算機技(ji)術對自然語言(yan)進(jin)(jin)行(xing)(xing)分(fen)析(xi)(xi)(xi)和處理(li)(li)的(de)(de)技(ji)術,常見的(de)(de)NLP任(ren)務包括分(fen)詞、詞性標注(zhu)、句法分(fen)析(xi)(xi)(xi)、語義分(fen)析(xi)(xi)(xi)、文(wen)(wen)(wen)本分(fen)類(lei)、信(xin)息(xi)抽取(qu)(qu)、文(wen)(wen)(wen)檔摘要(yao)(yao)、情感分(fen)析(xi)(xi)(xi)等(deng)。IDP中主要(yao)(yao)使(shi)用的(de)(de)NLP技(ji)術包括文(wen)(wen)(wen)本分(fen)類(lei)、文(wen)(wen)(wen)本信(xin)息(xi)抽取(qu)(qu)、語義理(li)(li)解(jie)(jie)等(deng)。通常的(de)(de)做法是(shi)將(jiang)OCR輸出或文(wen)(wen)(wen)檔協議解(jie)(jie)析(xi)(xi)(xi)后的(de)(de)所有文(wen)(wen)(wen)本塊進(jin)(jin)行(xing)(xing)拼(pin)接,得(de)到文(wen)(wen)(wen)本序(xu)列,再通過文(wen)(wen)(wen)本分(fen)類(lei)、信(xin)息(xi)抽取(qu)(qu)等(deng)技(ji)術,實(shi)現文(wen)(wen)(wen)檔的(de)(de)分(fen)類(lei)和信(xin)息(xi)抽取(qu)(qu)。另外,通過NLP技(ji)術,也(ye)可以對文(wen)(wen)(wen)檔進(jin)(jin)行(xing)(xing)自動(dong)摘要(yao)(yao)、情感分(fen)析(xi)(xi)(xi)和智能(neng)問答等(deng)處理(li)(li)。
  • 文檔信(xin)息抽取(qu)
相比于純文本,文檔(dang)(dang)(dang)(dang)的(de)(de)最大(da)(da)特點是其富格式特點。因此,文檔(dang)(dang)(dang)(dang)中信息(xi)抽(chou)(chou)取(qu)必須依(yi)賴于版面位置等視覺特征,比如(ru)從文檔(dang)(dang)(dang)(dang)中的(de)(de)圖表(biao)或(huo)表(biao)格中抽(chou)(chou)取(qu)信息(xi),或(huo)者從特定版面位置區域的(de)(de)結構(gou)化(hua)信息(xi)塊中抽(chou)(chou)取(qu)信息(xi)。相比于簡單地(di)從大(da)(da)段文本序列中做(zuo)信息(xi)抽(chou)(chou)取(qu),文檔(dang)(dang)(dang)(dang)信息(xi)抽(chou)(chou)取(qu)技術難(nan)度更大(da)(da)。
智能(neng)文(wen)檔處理流程
如下圖(tu),是智能文檔(dang)統一處理(li)流程。

圖1 智(zhi)能(neng)文檔處理流程(cheng)

主要包含以下環節:
  • 文檔預處理(li)
該步驟主要針(zhen)對Word、PDF等文檔協議進行(xing)解析處(chu)理。
  • OCR
通過(guo)通用OCR識(shi)別模型,對輸(shu)入的文檔圖像(xiang)上(shang)的文字、印章、簽(qian)名、表(biao)格等通用要素進行識(shi)別,得到文本和位置,以及(ji)表(biao)格結構化數據。
  • 版面分析
利用版(ban)面分析(xi)(xi)技術(shu),定位出文檔圖像上所有的標題、段落(luo)、表格(ge)、圖表、頁眉(mei)、頁腳(jiao)等版(ban)面信息。再利用標題和段落(luo)等信息,做文檔邏輯結構(gou)分析(xi)(xi),得到(dao)文檔結構(gou)。
  • 信息抽取
基于版面(mian)和(he)目錄分析的(de)結(jie)果,結(jie)合(he)文檔(dang)協議解析或OCR的(de)結(jie)果,利用自然語言(yan)處(chu)理等技(ji)術(shu),進行文檔(dang)關鍵信息(xi)抽取。
  • 信息校(xiao)驗
利用預(yu)設(she)(she)的(de)規則,對抽取(qu)出的(de)信息進行校驗,包括數據格式檢(jian)查、預(yu)設(she)(she)的(de)審閱規則檢(jian)查等(deng)。
智能文檔處理應用場景(jing)
主要的智能文(wen)檔處理應用場景包(bao)括:
  • 分類和標簽化
通(tong)過智(zhi)能(neng)文檔(dang)處(chu)(chu)理技術,可以對大(da)量文檔(dang)進行(xing)分類和標簽化,從而實(shi)現文檔(dang)的快速檢(jian)索、內容推薦和歸檔(dang)處(chu)(chu)理等功(gong)能(neng)。
  • 信息抽取
智(zhi)能(neng)(neng)文(wen)檔(dang)處理可以幫助(zhu)從文(wen)檔(dang)中抽取關鍵信息,如關鍵的短(duan)語、實體、事件等。這(zhe)些信息在知(zhi)識圖譜構建、智(zhi)能(neng)(neng)搜索、智(zhi)能(neng)(neng)比對、智(zhi)能(neng)(neng)問答等應(ying)用(yong)場景中具有重要的價值。
  • 摘要與生成(cheng)
利用(yong)智能文(wen)檔處理(li)技(ji)術,可以(yi)對文(wen)檔進(jin)行自動(dong)摘要,生成(cheng)簡(jian)潔(jie)、精煉的(de)摘要內容。此外,還可以(yi)根(gen)據用(yong)戶輸入的(de)關鍵詞或短語(yu)生成(cheng)特定主題(ti)的(de)文(wen)章,以(yi)滿(man)足用(yong)戶需求。
  • 問答與(yu)對話
通過(guo)智能文檔(dang)處(chu)理技術,可(ke)以構建智能問答系(xi)統,為(wei)用戶提供及時準確的文檔(dang)內容信息。
未來(lai)隨著大(da)模(mo)型等人工智(zhi)能技術的不(bu)斷發展,智(zhi)能文(wen)檔處(chu)理將會在各個行(xing)業的應用場景中(zhong)不(bu)斷普及化。
賽博(bo)智(zhi)能學習平臺智(zhi)能文檔處(chu)理
賽博智(zhi)能(neng)(neng)學習(xi)平(ping)臺(tai)定(ding)位于(yu)一(yi)體(ti)化(hua)機器學習(xi)訓(xun)練平(ping)臺(tai),集成了對于(yu)結構(gou)化(hua)和(he)非(fei)結構(gou)文(wen)(wen)檔(dang)(dang)的智(zhi)能(neng)(neng)化(hua)處理功能(neng)(neng),包括智(zhi)能(neng)(neng)文(wen)(wen)檔(dang)(dang)分類、文(wen)(wen)檔(dang)(dang)解析(xi)和(he)文(wen)(wen)檔(dang)(dang)信息抽取等。能(neng)(neng)夠支持合同(tong)、法律文(wen)(wen)書(shu)、招投標(biao)文(wen)(wen)件(jian)等各種開放版式(shi)長文(wen)(wen)檔(dang)(dang)的智(zhi)能(neng)(neng)化(hua)處理。基(ji)于(yu)平(ping)臺(tai)自(zi)定(ding)義(yi)模(mo)板和(he)自(zi)訓(xun)練模(mo)型能(neng)(neng)力(li),通過現場(chang)模(mo)板定(ding)制、模(mo)型標(biao)注訓(xun)練的方式(shi),能(neng)(neng)夠形成即時可用的文(wen)(wen)檔(dang)(dang)AI能(neng)(neng)力(li)。
如下圖,是賽(sai)博智能學習平臺智能文檔(dang)處理的基本流程。


圖2 賽(sai)博智能(neng)學習平(ping)臺智能(neng)文檔處理流程(cheng)

未來,易道博識(shi)將繼續針對(dui)金融、能(neng)源、通信(xin)等(deng)行業(ye)客戶,在(zai)業(ye)務運營、審核和監(jian)督管理(li)、信(xin)息檢(jian)索和風險管理(li)等(deng)場景(jing)下,圍繞數字化、自動化和智能(neng)化需求,依(yi)托賽博智能(neng)學習平臺,為企(qi)業(ye)打造強大AI底座,助力企(qi)業(ye)建設基于(yu)AI模型全生(sheng)命周期的標準化、一體化生(sheng)產運營體系。
賽博智能學習平臺以(yi)私有化部署、現場(chang)訓練的形式滿足(zu)客戶對數(shu)據安全要求,通過與業務系統深度(du)融合,滿足(zu)各業務場(chang)景在圖像處理(li)、OCR、智能文檔處理(li)和NLP等(deng)方向(xiang)需求。
賽博智能學習平臺持(chi)續將AI大模(mo)型等前沿技術與行業數(shu)據(ju)深度結合(he),在(zai)技術與業務(wu)場(chang)景之間(jian)搭橋鋪路,讓AI技術快速在(zai)場(chang)景中落(luo)地(di),在(zai)應用場(chang)景中產(chan)生價值,帶動(dong)產(chan)業發展(zhan)和升級。
在線留言