色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

大模型技術在智能文檔處理中的應用(下篇)

來源(yuan):易道博識 發布(bu)時間:2023-06-15
一(yi)個專業(ye)的IDP系統(tong)至少需要(yao)具備如(ru)下(xia)兩方面(mian)的能力,才能夠滿足(zu)富格式文檔的智能化處理需求。
  • 具備多模態信息處理能力

由于文檔本(ben)身多模(mo)態(tai)的特點,決定了(le)IDP系(xi)統(tong)必(bi)須能夠綜合應用計算機視覺和自(zi)然(ran)語言處(chu)理(li)等技術,包括圖像處(chu)理(li)、OCR、表(biao)格(ge)識(shi)別、文檔解(jie)析、文本(ben)分(fen)析、文本(ben)理(li)解(jie)等,對于文檔中的(de)標(biao)題(ti)、段落、表(biao)格(ge)、圖(tu)表(biao)、印章(zhang)、簽名等多模態信息進行識(shi)別、提取和(he)進一(yi)步的(de)理(li)解(jie)和(he)分(fen)析。

  • 具備領(ling)域樣本高效學(xue)習能(neng)力

由(you)于不同領(ling)(ling)域的文(wen)檔(dang)特征(zheng)差異很(hen)大,為了(le)在領(ling)(ling)域數據(ju)上達到業務可用的精度要求,IDP系(xi)統必(bi)須具備(bei)領域(yu)樣本高(gao)效(xiao)學習(xi)能力,能夠生成(cheng)優化后的模型,滿足業(ye)務(wu)場景應用需求,為實(shi)際業(ye)務(wu)創造價值。

多模態能(neng)(neng)力和領域學習能(neng)(neng)力等(deng)方面的(de)要(yao)求(qiu),決定(ding)了通用(yong)IDP系(xi)(xi)統(tong)是一個復雜的(de)綜合性軟(ruan)件系(xi)(xi)統(tong),對于技術(shu)架(jia)(jia)構和系(xi)(xi)統(tong)設計(ji)提出(chu)了很高的(de)要(yao)求(qiu)。架(jia)(jia)構上,IDP系(xi)(xi)統(tong)需要(yao)能(neng)(neng)夠兼容各種深度學習框架(jia)(jia),并能(neng)(neng)夠對于各種預訓練大模型(xing)、多模態預置模型(xing)和用(yong)戶自訓練的(de)領域模型(xing)實現有效(xiao)的(de)模型(xing)治理。并且,能(neng)(neng)夠以(yi)統(tong)一的(de)模型(xing)能(neng)(neng)力層(ceng),向文檔應用(yong)層(ceng)提供接口(kou),滿足上層(ceng)智能(neng)(neng)化(hua)應用(yong)的(de)調用(yong)需求(qiu)。

大語言模型在智能文(wen)檔(dang)處理中的價值與挑戰
如(ru)下(xia)圖,是一個(ge)常見的(de)IDP系(xi)統(tong)模型技(ji)術(shu)棧(zhan)。可(ke)以(yi)看出,LLMs僅僅是(shi)在自然語言文本這(zhe)個模態(tai)上,作為預(yu)訓練基礎模型(如紅色高亮部分)。相比于(yu)文本領域的處理(li)能力,IDP系統中更加(jia)核心的功(gong)能在于(yu)文檔(dang)圖像(xiang)和(he)多(duo)模態信息的綜合(he)處理(li)能力,包括OCR、表格識別、印章識別,以及文檔(dang)分類、信息檢索和(he)文檔(dang)抽(chou)取等。

圖(tu)2 IDP模型技(ji)術棧

因此,對于IDP系(xi)統,大語言模型主要(yao)作用(yong)是幫助提升文(wen)檔文(wen)本的(de)理解(jie)和(he)生(sheng)成能力(li),尚(shang)無法完全替代IDP模型技術棧(zhan)。
大語言模型在IDP系統的(de)主要應用包括:
  • 提升文(wen)檔(dang)分類(lei)精度(du)

利用大語言模型(xing)強大的(de)文(wen)(wen)本(ben)理解能力,提(ti)升文(wen)(wen)檔中文(wen)(wen)本(ben)信(xin)息的(de)分(fen)類能力,如(ru)段落(luo)和條款,進而(er)提(ti)升文(wen)(wen)檔信(xin)息檢索和文(wen)(wen)檔分(fen)類的(de)效(xiao)果。

  • 提供文檔知識問答能力(li)

相比(bi)于(yu)BERT等大(da)語言模(mo)型,GPT大(da)模(mo)型具備生(sheng)成式的特(te)點,能(neng)夠更(geng)好滿足(zu)文檔知識(shi)實時問(wen)答的應用,幫助實現諸(zhu)如(ru)“與你的文檔聊天”等應用功(gong)能(neng)。
  • 提升(sheng)信息抽取(qu)精度

大語言模(mo)型(xing)在(zai)文本信(xin)息抽取方(fang)面具備強(qiang)大的能(neng)力,如從特定條款或段(duan)落中抽取實體、關系和事件(jian),幫(bang)助提(ti)升文檔關鍵信(xin)息抽取能(neng)力。
  • 提升條款和段落比(bi)對精(jing)度

利用大(da)語言模型(xing)強大(da)的理解能力,能夠(gou)提升(sheng)文檔中不同條款(kuan)、段落之間,以及與標準條款(kuan)和段落的比對(dui)精度,改(gai)善文檔比對(dui)效(xiao)果。
大語言(yan)模(mo)型在幫助(zhu)提(ti)升IDP文本處(chu)理能力(li)的(de)同時,也面臨諸多挑戰和風(feng)險,主(zhu)要(yao)包括:
  • 模型輸(shu)入長(chang)度有(you)限,長(chang)文檔處理能力受限

GPT-4具(ju)有(you)最大32K Token輸入和25K Word輸(shu)入的(de)要(yao)求(qiu),限(xian)制了(le)對于長文(wen)檔的(de)處理(li)能(neng)力,如幾十上百(bai)頁的(de)合同和報告文(wen)件。這就要(yao)求(qiu)必須通過前置的(de)信(xin)息檢(jian)索或段落抽取等預(yu)處理(li),提(ti)取出(chu)大篇幅文(wen)檔中的(de)相關(guan)部分,再輸(shu)入大模型進行后續任務(wu)處理(li)。
  • 生(sheng)成(cheng)式特點(dian),導致模型輸出無法溯源(yuan),準(zhun)確(que)性差

不同于BERT等大(da)模型(xing),GPT(Generative Pre-trained Tranformer)模(mo)型(xing)屬于(yu)生成(cheng)式語(yu)言模(mo)型(xing),對(dui)于(yu)模(mo)型(xing)輸出(chu)的信(xin)息(xi)無法進行精(jing)準(zhun)溯源,即很多情(qing)況下(xia)無法準(zhun)確獲得輸出(chu)內容在文檔中的具體位置,這就增加了(le)輸出(chu)的風險性。在對(dui)于(yu)模(mo)型(xing)精(jing)準(zhun)度要求高的場(chang)景下(xia),如(ru)金融業務場(chang)景,往(wang)往(wang)極(ji)小概率的風險也會帶來巨大的損失。因此,就需要通(tong)過模(mo)型(xing)優化和后處理等方法進行有(you)效規避,避免非法輸出(chu)問題。
  • 領域知(zhi)識匱(kui)乏,影響模(mo)型效果
上文提到,文檔的一大(da)特征在于其領域(yu)信息的多樣性和差(cha)異性。通用大(da)語言(yan)模型通常基于公開的互(hu)聯(lian)網語料訓練獲得,包括維基百科、新聞(wen)文章、社(she)交媒體等,因此,缺乏對于(yu)領域知識的深度學(xue)習(xi)和理解。實(shi)際應(ying)用中,必須結合領域數據基于(yu)預(yu)訓(xun)練語(yu)言模型進行學(xue)習(xi)和調優(you),以達到實(shi)際業務場景的使用要求,這(zhe)也是IDP系統必須具備(bei)高效學(xue)習(xi)能力的根本(ben)原因。
  • 模型參數(shu)量巨大,對算力要求高
大模型(xing)通常具備較大的參數規模,如(ru)GPT-3.5有1750億(yi)參數,對于本地化和私有(you)(you)化部(bu)署場景下的算力成本具有(you)(you)很高的要求(qiu)。因此,這些場景下,必須進(jin)行(xing)模型輕量化處理(li)才能真(zhen)正落地使用,如(ru)通(tong)過(guo)知識蒸餾和模型量化等技術(shu)。

賽博結合(he)大模型技術打造(zao)高效學習能(neng)力(li),提供IDP全新解決方(fang)案
賽博智能學習平臺定位于一站式(shi)機器學習平臺,基于預置的(de)多模(mo)態(tai)能力(li)(li)和高(gao)效的(de)領(ling)域數據學習能力(li)(li),支持對于圖片和文檔等非(fei)結構化數據的(de)智能化處理。在(zai)預(yu)置(zhi)多模態能(neng)力(li)的基礎(chu)上,提供高效(xiao)的領域數據學習能(neng)力(li),是賽(sai)博平(ping)臺智能(neng)文(wen)檔處理的核(he)心(xin)優勢(shi)。如下圖,是關于(yu)賽博平臺(tai)智能文檔處理的核心能力(li)介紹(shao)。 

圖3 賽博平臺智能(neng)文檔(dang)處理(li)核心(xin)能(neng)力

主要(yao)的預置(zhi)多模態能力包括:
  • 圖像(xiang)處理

提(ti)供通(tong)用文(wen)(wen)檔圖(tu)像檢測(ce)、區(qu)域分割和矯正、文(wen)(wen)檔圖(tu)像質量檢測(ce)(模糊、反光、遮擋、拍屏、水印、復印、篡改、變形、切邊和距離(li)遠等)、干擾和噪聲去(qu)除等預置(zhi)能力。
  • OCR
提供通用和場景(jing)OCR功能(neng)。通用OCR支(zhi)持對(dui)于常見的文檔圖像要素的識別(bie),包括(kuo)文本(打(da)印(yin)、手(shou)寫(xie)、多語言(yan))、表(biao)格、印(yin)章、勾(gou)選(xuan)和簽名等。場景(jing)OCR功能(neng)支(zhi)持超過50種場(chang)景文(wen)檔圖(tu)像的識別能力,涵(han)蓋(gai)標準卡證、票據、表單和憑證。
  • 文(wen)檔處理
提供通用的文(wen)(wen)檔處理能(neng)力(li),包括(kuo)文(wen)(wen)檔格(ge)式轉換(huan)、協議解析、版面分析、文(wen)(wen)檔解析等(deng),以及合(he)同等(deng)場景文(wen)(wen)檔抽取能(neng)力(li)。
  • 自然語言(yan)處理

提供基礎的(de)自然語言(yan)處(chu)理(li)功能(neng),包(bao)括文本分類、信息抽(chou)取、通(tong)用(yong)問答(da)、情感分析等(deng)。

如前節所述,文檔(dang)具有領域特(te)征差異大(da)的特(te)點,主要表(biao)現在不(bu)同(tong)領域文檔(dang)之間在種類、版式、語料和(he)表(biao)達方(fang)式等方(fang)面存在較大(da)差異。因此,高效的領域文檔(dang)學習能(neng)力(li),是IDP系統必(bi)備(bei)的(de)基本(ben)功能(neng),這也是賽(sai)博平(ping)臺的(de)核心功能(neng)之一。如下圖是關于賽(sai)博平(ping)臺高效學習能(neng)力的(de)原(yuan)理介紹(shao)。

 圖(tu)4 賽博學(xue)習能力

賽博(bo)平臺(tai)IDP學習能力以大(da)規(gui)模語言模型(xing)(xing)和文檔版式(shi)預訓練模型(xing)(xing)為基(ji)礎,通過下(xia)游任(ren)務中/小模型算法設計,結合領域數(shu)據(ju),高效生成場景模型,并通過一鍵(jian)式(shi)模(mo)型部署(shu)和API生成(cheng),輸出場景化(hua)AI能力,如文檔(dang)分類、信息檢索、文檔(dang)抽(chou)取、段落(luo)比對(dui)等。依托機器學習(xi)功(gong)能(neng)(neng)底座,賽(sai)博(bo)平臺(tai)能(neng)(neng)夠提供文檔(dang)數據(ju)集(ji)標(biao)注、模型訓練、模型部署和(he)API應用等一體化(hua)操作功(gong)能(neng)(neng),支(zhi)持用戶通(tong)過可視化(hua)頁(ye)面(mian),高效完成(cheng)領域文檔(dang)數據(ju)的學習(xi)和(he)模型能(neng)(neng)力(li)的輸(shu)出與應用。
另外,為了更(geng)好地滿足(zu)業(ye)務場景(jing)需求,實現(xian)與(yu)業(ye)務深度(du)融合(he),賽博(bo)平(ping)臺支持模型(xing)(xing)輸出規則和API代碼補丁定(ding)制,能夠(gou)在線實現(xian)模型(xing)(xing)輸出格式(shi)轉換、字(zi)段拆(chai)分與(yu)合(he)并(bing)、噪(zao)聲剔除以及其他高(gao)級后處理功能,有效解(jie)決模型(xing)(xing)輸出與(yu)業(ye)務需求之(zhi)間“最后一公里”的問題。
未來,易道(dao)博(bo)識將(jiang)繼(ji)續(xu)立足于金融(rong)、能(neng)(neng)源、通信(xin)(xin)等行業(ye)(ye),圍繞(rao)企業(ye)(ye)在(zai)日常業(ye)(ye)務(wu)運營、審核和監督管理(li)、信(xin)(xin)息檢索和風險管控等場景下(xia)的(de)數智(zhi)化轉(zhuan)型需求,依托(tuo)賽博(bo)智(zhi)能(neng)(neng)學習(xi)平臺底座(zuo),在(zai)滿足客(ke)戶(hu)數據安全(quan)的(de)前(qian)提下(xia),通過高效學習(xi)能(neng)(neng)力,將(jiang)大模(mo)型等前(qian)沿(yan)技(ji)術(shu)與客(ke)戶(hu)業(ye)(ye)務(wu)數據相(xiang)結合,發揮巨大效能(neng)(neng),通過與業(ye)(ye)務(wu)場景的(de)深度融(rong)合,為業(ye)(ye)務(wu)賦能(neng)(neng)。
在線留言