99�þ��޾�Ʒ��Ѷ��,��ɫһ��

首頁動態資訊行業資訊

大模型技術在智能文檔處理中的應用（下篇）

來源(yuan)：易道博識發布(bu)時間：2023-06-15

一(yi)個專業(ye)的IDP系統(tong)至少需要(yao)具備如(ru)下(xia)兩方面(mian)的能力，才能夠滿足(zu)富格式文檔的智能化處理需求。

具備多模態信息處理能力

由于文檔本(ben)身多模(mo)態(tai)的特點，決定了(le)IDP系(xi)統(tong)必(bi)須能夠綜合應用計算機視覺和自(zi)然(ran)語言處(chu)理(li)等技術，包括圖像處(chu)理(li)、OCR、表(biao)格(ge)識(shi)別、文檔解(jie)析、文本(ben)分(fen)析、文本(ben)理(li)解(jie)等，對于文檔中的(de)標(biao)題(ti)、段落、表(biao)格(ge)、圖(tu)表(biao)、印章(zhang)、簽名等多模態信息進行識(shi)別、提取和(he)進一(yi)步的(de)理(li)解(jie)和(he)分(fen)析。

具備領(ling)域樣本高效學(xue)習能(neng)力

由(you)于不同領(ling)(ling)域的文(wen)檔(dang)特征(zheng)差異很(hen)大，為了(le)在領(ling)(ling)域數據(ju)上達到業務可用的精度要求，IDP系(xi)統必(bi)須具備(bei)領域(yu)樣本高(gao)效(xiao)學習(xi)能力，能夠生成(cheng)優化后的模型，滿足業(ye)務(wu)場景應用需求，為實(shi)際業(ye)務(wu)創造價值。

多模態能(neng)(neng)力和領域學習能(neng)(neng)力等(deng)方面的(de)要(yao)求(qiu)，決定(ding)了通用(yong)IDP系(xi)(xi)統(tong)是一個復雜的(de)綜合性軟(ruan)件系(xi)(xi)統(tong)，對于技術(shu)架(jia)(jia)構和系(xi)(xi)統(tong)設計(ji)提出(chu)了很高的(de)要(yao)求(qiu)。架(jia)(jia)構上，IDP系(xi)(xi)統(tong)需要(yao)能(neng)(neng)夠兼容各種深度學習框架(jia)(jia)，并能(neng)(neng)夠對于各種預訓練大模型(xing)、多模態預置模型(xing)和用(yong)戶自訓練的(de)領域模型(xing)實現有效(xiao)的(de)模型(xing)治理。并且，能(neng)(neng)夠以(yi)統(tong)一的(de)模型(xing)能(neng)(neng)力層(ceng)，向文檔應用(yong)層(ceng)提供接口(kou)，滿足上層(ceng)智能(neng)(neng)化(hua)應用(yong)的(de)調用(yong)需求(qiu)。

大語言模型在智能文(wen)檔(dang)處理中的價值與挑戰

如(ru)下(xia)圖，是一個(ge)常見的(de)IDP系(xi)統(tong)模型技(ji)術(shu)棧(zhan)。可(ke)以(yi)看出，LLMs僅僅是(shi)在自然語言文本這(zhe)個模態(tai)上，作為預(yu)訓練基礎模型（如紅色高亮部分）。相比于(yu)文本領域的處理(li)能力，IDP系統中更加(jia)核心的功(gong)能在于(yu)文檔(dang)圖像(xiang)和(he)多(duo)模態信息的綜合(he)處理(li)能力，包括OCR、表格識別、印章識別，以及文檔(dang)分類、信息檢索和(he)文檔(dang)抽(chou)取等。

圖(tu)2 IDP模型技(ji)術棧

因此，對于IDP系(xi)統，大語言模型主要(yao)作用(yong)是幫助提升文(wen)檔文(wen)本的(de)理解(jie)和(he)生(sheng)成能力(li)，尚(shang)無法完全替代IDP模型技術棧(zhan)。

大語言模型在IDP系統的(de)主要應用包括：

提升文(wen)檔(dang)分類(lei)精度(du)

利用大語言模型(xing)強大的(de)文(wen)(wen)本(ben)理解能力，提(ti)升文(wen)(wen)檔中文(wen)(wen)本(ben)信(xin)息的(de)分(fen)類能力，如(ru)段落(luo)和條款，進而(er)提(ti)升文(wen)(wen)檔信(xin)息檢索和文(wen)(wen)檔分(fen)類的(de)效(xiao)果。

提供文檔知識問答能力(li)

相比(bi)于(yu)BERT等大(da)語言模(mo)型，GPT大(da)模(mo)型具備生(sheng)成式的特(te)點，能(neng)夠更(geng)好滿足(zu)文檔知識(shi)實時問(wen)答的應用，幫助實現諸(zhu)如(ru)“與你的文檔聊天”等應用功(gong)能(neng)。

提升(sheng)信息抽取(qu)精度

大語言模(mo)型(xing)在(zai)文本信(xin)息抽取方(fang)面具備強(qiang)大的能(neng)力，如從特定條款或段(duan)落中抽取實體、關系和事件(jian)，幫(bang)助提(ti)升文檔關鍵信(xin)息抽取能(neng)力。

提升條款和段落比(bi)對精(jing)度

利用大(da)語言模型(xing)強大(da)的理解能力，能夠(gou)提升(sheng)文檔中不同條款(kuan)、段落之間，以及與標準條款(kuan)和段落的比對(dui)精度，改(gai)善文檔比對(dui)效(xiao)果。

大語言(yan)模(mo)型在幫助(zhu)提(ti)升IDP文本處(chu)理能力(li)的(de)同時，也面臨諸多挑戰和風(feng)險，主(zhu)要(yao)包括：

模型輸(shu)入長(chang)度有(you)限，長(chang)文檔處理能力受限

GPT-4具(ju)有(you)最大32K Token輸入和25K Word輸(shu)入的(de)要(yao)求(qiu)，限(xian)制了(le)對于長文(wen)檔的(de)處理(li)能(neng)力，如幾十上百(bai)頁的(de)合同和報告文(wen)件。這就要(yao)求(qiu)必須通過前置的(de)信(xin)息檢(jian)索或段落抽取等預(yu)處理(li)，提(ti)取出(chu)大篇幅文(wen)檔中的(de)相關(guan)部分，再輸(shu)入大模型進行后續任務(wu)處理(li)。

生(sheng)成(cheng)式特點(dian)，導致模型輸出無法溯源(yuan)，準(zhun)確(que)性差

不同于BERT等大(da)模型(xing)，GPT(Generative Pre-trained Tranformer)模(mo)型(xing)屬于(yu)生成(cheng)式語(yu)言模(mo)型(xing)，對(dui)于(yu)模(mo)型(xing)輸出(chu)的信(xin)息(xi)無法進行精(jing)準(zhun)溯源，即很多情(qing)況下(xia)無法準(zhun)確獲得輸出(chu)內容在文檔中的具體位置，這就增加了(le)輸出(chu)的風險性。在對(dui)于(yu)模(mo)型(xing)精(jing)準(zhun)度要求高的場(chang)景下(xia)，如(ru)金融業務場(chang)景，往(wang)往(wang)極(ji)小概率的風險也會帶來巨大的損失。因此，就需要通(tong)過模(mo)型(xing)優化和后處理等方法進行有(you)效規避，避免非法輸出(chu)問題。

領域知(zhi)識匱(kui)乏，影響模(mo)型效果

上文提到，文檔的一大(da)特征在于其領域(yu)信息的多樣性和差(cha)異性。通用大(da)語言(yan)模型通常基于公開的互(hu)聯(lian)網語料訓練獲得，包括維基百科、新聞(wen)文章、社(she)交媒體等，因此，缺乏對于(yu)領域知識的深度學(xue)習(xi)和理解。實(shi)際應(ying)用中，必須結合領域數據基于(yu)預(yu)訓(xun)練語(yu)言模型進行學(xue)習(xi)和調優(you)，以達到實(shi)際業務場景的使用要求，這(zhe)也是IDP系統必須具備(bei)高效學(xue)習(xi)能力的根本(ben)原因。

模型參數(shu)量巨大，對算力要求高

大模型(xing)通常具備較大的參數規模，如(ru)GPT-3.5有1750億(yi)參數，對于本地化和私有(you)(you)化部(bu)署場景下的算力成本具有(you)(you)很高的要求(qiu)。因此，這些場景下，必須進(jin)行(xing)模型輕量化處理(li)才能真(zhen)正落地使用，如(ru)通(tong)過(guo)知識蒸餾和模型量化等技術(shu)。

賽博結合(he)大模型技術打造(zao)高效學習能(neng)力(li)，提供IDP全新解決方(fang)案

賽博智能學習平臺定位于一站式(shi)機器學習平臺，基于預置的(de)多模(mo)態(tai)能力(li)(li)和高(gao)效的(de)領(ling)域數據學習能力(li)(li)，支持對于圖片和文檔等非(fei)結構化數據的(de)智能化處理。在(zai)預(yu)置(zhi)多模態能(neng)力(li)的基礎(chu)上，提供高效(xiao)的領域數據學習能(neng)力(li)，是賽(sai)博平(ping)臺智能(neng)文(wen)檔處理的核(he)心(xin)優勢(shi)。如下圖，是關于(yu)賽博平臺(tai)智能文檔處理的核心能力(li)介紹(shao)。

圖3 賽博平臺智能(neng)文檔(dang)處理(li)核心(xin)能(neng)力

主要(yao)的預置(zhi)多模態能力包括：

圖像(xiang)處理

提(ti)供通(tong)用文(wen)(wen)檔圖(tu)像檢測(ce)、區(qu)域分割和矯正、文(wen)(wen)檔圖(tu)像質量檢測(ce)（模糊、反光、遮擋、拍屏、水印、復印、篡改、變形、切邊和距離(li)遠等）、干擾和噪聲去(qu)除等預置(zhi)能力。

OCR

提供通用和場景(jing)OCR功能(neng)。通用OCR支(zhi)持對(dui)于常見的文檔圖像要素的識別(bie)，包括(kuo)文本（打(da)印(yin)、手(shou)寫(xie)、多語言(yan)）、表(biao)格、印(yin)章、勾(gou)選(xuan)和簽名等。場景(jing)OCR功能(neng)支(zhi)持超過50種場(chang)景文(wen)檔圖(tu)像的識別能力，涵(han)蓋(gai)標準卡證、票據、表單和憑證。

文(wen)檔處理

提供通用的文(wen)(wen)檔處理能(neng)力(li)，包括(kuo)文(wen)(wen)檔格(ge)式轉換(huan)、協議解析、版面分析、文(wen)(wen)檔解析等(deng)，以及合(he)同等(deng)場景文(wen)(wen)檔抽取能(neng)力(li)。

自然語言(yan)處理

提供基礎的(de)自然語言(yan)處(chu)理(li)功能(neng)，包(bao)括文本分類、信息抽(chou)取、通(tong)用(yong)問答(da)、情感分析等(deng)。

如前節所述，文檔(dang)具有領域特(te)征差異大(da)的特(te)點，主要表(biao)現在不(bu)同(tong)領域文檔(dang)之間在種類、版式、語料和(he)表(biao)達方(fang)式等方(fang)面存在較大(da)差異。因此，高效的領域文檔(dang)學習能(neng)力(li)，是IDP系統必(bi)備(bei)的(de)基本(ben)功能(neng)，這也是賽(sai)博平(ping)臺的(de)核心功能(neng)之一。如下圖是關于賽(sai)博平(ping)臺高效學習能(neng)力的(de)原(yuan)理介紹(shao)。

圖(tu)4 賽博學(xue)習能力

賽博(bo)平臺(tai)IDP學習能力以大(da)規(gui)模語言模型(xing)(xing)和文檔版式(shi)預訓練模型(xing)(xing)為基(ji)礎，通過下(xia)游任(ren)務中/小模型算法設計，結合領域數(shu)據(ju)，高效生成場景模型，并通過一鍵(jian)式(shi)模(mo)型部署(shu)和API生成(cheng)，輸出場景化(hua)AI能力，如文檔(dang)分類、信息檢索、文檔(dang)抽(chou)取、段落(luo)比對(dui)等。依托機器學習(xi)功(gong)能(neng)(neng)底座，賽(sai)博(bo)平臺(tai)能(neng)(neng)夠提供文檔(dang)數據(ju)集(ji)標(biao)注、模型訓練、模型部署和(he)API應用等一體化(hua)操作功(gong)能(neng)(neng)，支(zhi)持用戶通(tong)過可視化(hua)頁(ye)面(mian)，高效完成(cheng)領域文檔(dang)數據(ju)的學習(xi)和(he)模型能(neng)(neng)力(li)的輸(shu)出與應用。

另外，為了更(geng)好地滿足(zu)業(ye)務場景(jing)需求，實現(xian)與(yu)業(ye)務深度(du)融合(he)，賽博(bo)平(ping)臺支持模型(xing)(xing)輸出規則和API代碼補丁定(ding)制，能夠(gou)在線實現(xian)模型(xing)(xing)輸出格式(shi)轉換、字(zi)段拆(chai)分與(yu)合(he)并(bing)、噪(zao)聲剔除以及其他高(gao)級后處理功能，有效解(jie)決模型(xing)(xing)輸出與(yu)業(ye)務需求之(zhi)間“最后一公里”的問題。

未來，易道(dao)博(bo)識將(jiang)繼(ji)續(xu)立足于金融(rong)、能(neng)(neng)源、通信(xin)(xin)等行業(ye)(ye)，圍繞(rao)企業(ye)(ye)在(zai)日常業(ye)(ye)務(wu)運營、審核和監督管理(li)、信(xin)(xin)息檢索和風險管控等場景下(xia)的(de)數智(zhi)化轉(zhuan)型需求，依托(tuo)賽博(bo)智(zhi)能(neng)(neng)學習(xi)平臺底座(zuo)，在(zai)滿足客(ke)戶(hu)數據安全(quan)的(de)前(qian)提下(xia)，通過高效學習(xi)能(neng)(neng)力，將(jiang)大模(mo)型等前(qian)沿(yan)技(ji)術(shu)與客(ke)戶(hu)業(ye)(ye)務(wu)數據相(xiang)結合，發揮巨大效能(neng)(neng)，通過與業(ye)(ye)務(wu)場景的(de)深度融(rong)合，為業(ye)(ye)務(wu)賦能(neng)(neng)。

上一篇：易道博識入選“第六屆數字金融創新大賽——2023數字金融創新先鋒榜”

下一篇：大模型技術在智能文檔處理中的應用（上篇）

返回列表

更多資訊

易(yi)道博識OCR智能識別方案(an)，助力金融業降本增效

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

搜索

大模型技術在智能文檔處理中的應用（下篇）

國內統一咨詢服務熱線

（早09:00 - 晚18:00）