��׷��۰׽��߹ۿ�,��AV�ۺ�AVһ��

首頁動態資訊行業資訊

大模型技術在智能文檔處理中的應用（下篇）

來源：易道博識發布時間(jian)：2023-06-15

一個專(zhuan)業的IDP系統至少需(xu)要具(ju)備如下(xia)兩方面的能(neng)(neng)力，才能(neng)(neng)夠滿足(zu)富格式文檔的智能(neng)(neng)化(hua)處理需(xu)求(qiu)。

具(ju)備(bei)多模態信息處理能力(li)

由于文檔本身多(duo)模態(tai)的(de)特點，決(jue)定了IDP系統必須能夠綜合應用計算機視覺和自然(ran)語言(yan)處理等技術(shu)，包括圖像處理、OCR、表格(ge)識(shi)別、文檔(dang)解(jie)析、文本分(fen)析、文本理解(jie)等，對于文檔(dang)中的標(biao)題、段(duan)落、表格(ge)、圖表、印(yin)章(zhang)、簽名(ming)等多模(mo)態信息進行(xing)識(shi)別、提取和進一步的理解(jie)和分(fen)析。

具備領域樣本高(gao)效學習(xi)能力

由于不同領域(yu)的(de)文檔特征差異很大(da)，為(wei)了在領域(yu)數據(ju)上達到業務可(ke)用的(de)精度要求，IDP系統必須具備(bei)領域樣本(ben)高效學習能力，能夠生(sheng)成(cheng)優(you)化后的模(mo)型，滿足(zu)業(ye)務(wu)場景應用(yong)需求(qiu)，為實際(ji)業(ye)務(wu)創造價值。

多模(mo)(mo)態(tai)能(neng)(neng)力和領域學(xue)(xue)習能(neng)(neng)力等方面(mian)的(de)(de)要(yao)求，決定(ding)了通用(yong)IDP系統是一個復雜的(de)(de)綜合性軟件系統，對于技(ji)術架構和系統設(she)計(ji)提出了很高的(de)(de)要(yao)求。架構上，IDP系統需(xu)要(yao)能(neng)(neng)夠(gou)兼容(rong)各種深度學(xue)(xue)習框架，并(bing)能(neng)(neng)夠(gou)對于各種預訓練大模(mo)(mo)型(xing)、多模(mo)(mo)態(tai)預置模(mo)(mo)型(xing)和用(yong)戶自訓練的(de)(de)領域模(mo)(mo)型(xing)實現有效的(de)(de)模(mo)(mo)型(xing)治理(li)。并(bing)且，能(neng)(neng)夠(gou)以統一的(de)(de)模(mo)(mo)型(xing)能(neng)(neng)力層，向(xiang)文(wen)檔應用(yong)層提供接口(kou)，滿足上層智能(neng)(neng)化應用(yong)的(de)(de)調用(yong)需(xu)求。

大(da)語(yu)言模型在智能文檔處理中的價值(zhi)與(yu)挑戰(zhan)

如下(xia)圖，是一個常見的IDP系統模(mo)型(xing)技術棧。可以看出，LLMs僅僅是在自(zi)然語言文(wen)本這個模(mo)態上，作為預訓練(lian)基礎(chu)模(mo)型（如紅(hong)色高亮部分）。相比于文本(ben)領域的(de)處理能力，IDP系(xi)統中更加(jia)核心的(de)功能在于文檔(dang)圖(tu)像和多模態信(xin)息的(de)綜(zong)合處理能力，包括OCR、表格識別(bie)、印章識別(bie)，以及文檔(dang)分類、信(xin)息檢索(suo)和文檔(dang)抽(chou)取等。

圖2 IDP模型技術棧

因此(ci)，對(dui)于IDP系(xi)統，大(da)語言模型主要作用是幫助提升文(wen)檔文(wen)本的理(li)解和生成能(neng)力(li)，尚(shang)無(wu)法完全替代IDP模型技術棧。

大語言(yan)模型在IDP系統的(de)主要應用包括：

提升(sheng)文檔分類精度

利用大語言模(mo)型強大的(de)文本(ben)理解(jie)能(neng)力，提升(sheng)文檔(dang)中文本(ben)信(xin)息的(de)分(fen)(fen)類(lei)能(neng)力，如段落和條(tiao)款，進(jin)而提升(sheng)文檔(dang)信(xin)息檢(jian)索和文檔(dang)分(fen)(fen)類(lei)的(de)效果。

提供文檔知(zhi)識問答(da)能力(li)

相比于BERT等(deng)大語言模型，GPT大模型具備生(sheng)成式的(de)(de)特點，能(neng)夠更好滿足文檔知(zhi)識實時問答(da)的(de)(de)應(ying)用，幫助實現(xian)諸如“與你的(de)(de)文檔聊天”等(deng)應(ying)用功(gong)能(neng)。

提(ti)升信(xin)息抽取精度

大語(yu)言模型(xing)在(zai)文本(ben)信(xin)(xin)息抽取(qu)方面具備強大的能(neng)力，如從特(te)定條款或段落中抽取(qu)實體、關系(xi)和事件，幫助提升文檔關鍵信(xin)(xin)息抽取(qu)能(neng)力。

提升條(tiao)款(kuan)和段落比對精度

利(li)用大語言模型強(qiang)大的(de)理解能力，能夠提(ti)升(sheng)文(wen)檔中不同條(tiao)款、段落之間，以及與標準(zhun)條(tiao)款和(he)段落的(de)比對精度，改善文(wen)檔比對效果。

大語言模型在幫助(zhu)提升IDP文(wen)本處理能力的同時，也面臨諸多挑戰和風險，主要包(bao)括：

模型輸入(ru)長度有限，長文檔處理能力受限

GPT-4具有最大32K Token輸入和25K Word輸入(ru)(ru)的(de)要求(qiu)，限制了對于長文檔的(de)處(chu)理能力，如幾(ji)十上百頁的(de)合同和報告(gao)文件。這就要求(qiu)必須通過(guo)前置的(de)信息(xi)檢索或段落抽取等預處(chu)理，提取出大(da)(da)篇幅(fu)文檔中(zhong)的(de)相(xiang)關(guan)部分，再輸入(ru)(ru)大(da)(da)模型進行后續(xu)任務處(chu)理。

生成式特點，導(dao)致模型輸出無法溯源，準確性差

不同于BERT等大模(mo)型，GPT(Generative Pre-trained Tranformer)模型(xing)屬于生成式(shi)語言模型(xing)，對于模型(xing)輸(shu)(shu)出的(de)信息無法(fa)(fa)進行(xing)精準(zhun)溯(su)源(yuan)，即(ji)很(hen)多(duo)情況下(xia)(xia)無法(fa)(fa)準(zhun)確獲得輸(shu)(shu)出內(nei)容在文檔中的(de)具體位置，這就增加了輸(shu)(shu)出的(de)風(feng)險性。在對于模型(xing)精準(zhun)度(du)要求高的(de)場景(jing)下(xia)(xia)，如金融業務(wu)場景(jing)，往往極小概率的(de)風(feng)險也會(hui)帶來巨大的(de)損失(shi)。因此，就需要通(tong)過模型(xing)優化和后處理(li)等方法(fa)(fa)進行(xing)有效規避，避免(mian)非(fei)法(fa)(fa)輸(shu)(shu)出問(wen)題。

領域知(zhi)識匱乏，影響模型效果

上文提到，文檔的一大(da)特征在(zai)于(yu)其領(ling)域信息(xi)的多樣性和(he)差異(yi)性。通用大(da)語言模型通常基(ji)于(yu)公開的互聯網語料訓(xun)練(lian)獲得，包括維基(ji)百科、新(xin)聞文章、社交媒體等，因此，缺乏對(dui)于領域(yu)知識(shi)的深度(du)學(xue)習(xi)和(he)(he)理解。實際應用(yong)(yong)中(zhong)，必須結合(he)領域(yu)數(shu)據(ju)基于預訓(xun)練語言(yan)模型進行(xing)學(xue)習(xi)和(he)(he)調優，以(yi)達到實際業務場(chang)景的使用(yong)(yong)要求，這也是IDP系統必須具備(bei)高效學(xue)習(xi)能力的根(gen)本原(yuan)因。

模型參數(shu)量巨大，對算力(li)要求高(gao)

大模型(xing)通常(chang)具備較(jiao)大的(de)參數規模，如GPT-3.5有1750億參數，對于本(ben)地化(hua)和私有化(hua)部署場景下(xia)的(de)算(suan)力成(cheng)本(ben)具有很高的(de)要(yao)求。因(yin)此，這些場景下(xia)，必須進行模(mo)(mo)型輕量化(hua)處(chu)理才(cai)能真(zhen)正落(luo)地使用，如通過知(zhi)識蒸餾和模(mo)(mo)型量化(hua)等技術。

賽博結合大模型技(ji)術(shu)打(da)造(zao)高效學(xue)習能力(li)，提供IDP全新解決方案

賽(sai)博智能(neng)學習(xi)平(ping)臺定位于(yu)一站式機(ji)器學習(xi)平(ping)臺，基于(yu)預置的(de)多(duo)模(mo)態能(neng)力(li)(li)和高效的(de)領域數據學習(xi)能(neng)力(li)(li)，支持對于(yu)圖片(pian)和文檔等非結構化(hua)數據的(de)智能(neng)化(hua)處理(li)。在(zai)預置多模(mo)態能(neng)力(li)的基礎上，提(ti)供高(gao)效(xiao)的領(ling)域數據學習(xi)能(neng)力(li)，是賽博平臺智能(neng)文檔(dang)處理的核心(xin)優勢。如下圖，是關于賽博平臺智能文(wen)檔處理的核心(xin)能力(li)介紹(shao)。

圖3 賽(sai)博(bo)平臺智(zhi)能文檔(dang)處(chu)理核心能力

主(zhu)要的預置多模態能力包(bao)括：

圖像處理

提供(gong)通用(yong)文檔(dang)圖像檢測、區(qu)域分割和(he)矯正、文檔(dang)圖像質量檢測（模(mo)糊、反光、遮擋(dang)、拍屏(ping)、水印、復(fu)印、篡改、變形(xing)、切(qie)邊和(he)距離(li)遠等）、干擾和(he)噪(zao)聲去(qu)除等預置能力。

OCR

提供(gong)通用和(he)場(chang)景(jing)OCR功(gong)能。通用OCR支(zhi)持對于常(chang)見(jian)的(de)文(wen)檔(dang)圖像(xiang)要素(su)的(de)識別，包括文(wen)本（打印、手(shou)寫、多(duo)語言(yan)）、表(biao)格、印章、勾(gou)選和(he)簽名等(deng)。場(chang)景(jing)OCR功(gong)能支(zhi)持超過50種場景(jing)文檔圖像(xiang)的(de)識別能(neng)力，涵蓋(gai)標準卡證(zheng)、票據、表單和憑證(zheng)。

文檔處理

提供通用的(de)文(wen)(wen)檔處理能力(li)，包括文(wen)(wen)檔格式轉換、協議(yi)解析、版面分析、文(wen)(wen)檔解析等，以及合同等場景文(wen)(wen)檔抽取能力(li)。

自然語言(yan)處(chu)理

提供(gong)基礎的(de)自然語言處(chu)理功能，包括(kuo)文本分類(lei)、信息抽取、通用問答、情感分析等。

如前節(jie)所述，文檔具有領域(yu)特征差異大(da)的特點，主要表現在(zai)不同領域(yu)文檔之(zhi)間(jian)在(zai)種類、版(ban)式(shi)、語料(liao)和(he)表達方式(shi)等方面(mian)存在(zai)較大(da)差異。因此，高效(xiao)的領域(yu)文檔學習能力，是IDP系統(tong)必備的(de)(de)基本功(gong)能，這也是賽(sai)博(bo)平(ping)臺的(de)(de)核心功(gong)能之(zhi)一。如下圖(tu)是關于賽(sai)博(bo)平(ping)臺高效學習(xi)能力的(de)(de)原理介紹。

圖4 賽博(bo)學(xue)習能力

賽博(bo)平臺(tai)IDP學習(xi)能力(li)以(yi)大規模(mo)語言模(mo)型(xing)和(he)文(wen)檔版式預訓練(lian)模(mo)型(xing)為基(ji)礎，通過下游任務中/小(xiao)模型算法設計，結(jie)合領域數據(ju)，高效(xiao)生(sheng)成場景模(mo)型，并通(tong)過(guo)一鍵式模型部署和API生成，輸出場景化AI能(neng)力，如文檔(dang)分類、信息(xi)檢索、文檔(dang)抽取、段落比對等(deng)。依托(tuo)機器學(xue)習功能底座，賽博平(ping)臺能夠提供文檔(dang)數據集標注、模型(xing)(xing)訓練、模型(xing)(xing)部署和API應用(yong)等(deng)一體化操作功能，支(zhi)持(chi)用(yong)戶通過(guo)可視化頁面(mian)，高效完(wan)成領域文檔(dang)數據的(de)學(xue)習和模型(xing)(xing)能力的(de)輸出與應用(yong)。

另外，為了更好地滿足業務場景(jing)需(xu)求，實現(xian)與業務深(shen)度融(rong)合，賽博平臺(tai)支持模型(xing)輸出(chu)規(gui)則和API代碼補(bu)丁(ding)定制，能(neng)夠在線實現(xian)模型(xing)輸出(chu)格式轉換、字段拆分(fen)與合并、噪(zao)聲剔除以及(ji)其他高(gao)級后處理功(gong)能(neng)，有效(xiao)解(jie)決模型(xing)輸出(chu)與業務需(xu)求之間(jian)“最后一公(gong)里(li)”的問題。

未來，易道(dao)博識將繼續立足于金融(rong)(rong)、能源、通信等(deng)行業(ye)，圍(wei)繞企業(ye)在(zai)日常(chang)業(ye)務(wu)運(yun)營、審核和監督管理、信息檢索和風險管控等(deng)場(chang)景下的數智化轉型需求，依托(tuo)賽(sai)博智能學習平臺底座，在(zai)滿足客(ke)戶(hu)(hu)數據安全的前提下，通過高(gao)效學習能力，將大模型等(deng)前沿技(ji)術與(yu)客(ke)戶(hu)(hu)業(ye)務(wu)數據相(xiang)結合，發揮巨大效能，通過與(yu)業(ye)務(wu)場(chang)景的深度(du)融(rong)(rong)合，為業(ye)務(wu)賦(fu)能。

上一篇：易道博識入選“第六屆數字金融創新大賽——2023數字金融創新先鋒榜”

下一篇：大模型技術在智能文檔處理中的應用（上篇）

返回列表

更多資訊

易(yi)道博識(shi)OCR智(zhi)能識(shi)別方案，助力金融業(ye)降(jiang)本增效

熱門標簽

人工智能 OCR識別證券 IT 計算機視覺訓練平臺銀行駕駛證識別財務識別保險

色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

搜索

大模型技術在智能文檔處理中的應用（下篇）

國內統一咨詢服務熱線

（早09:00 - 晚18:00）