色噜噜狠狠色综合成人网_色五月丁香六月欧美综合_国产98在线 | 欧美_狠狠躁天天躁夜夜躁婷婷

首頁
核心技術
產品體系
解決方案
動態資訊
關于我們
搜索
首頁 動態資訊 行業資訊

大模型技術在智能文檔處理中的應用(下篇)

來源:易道博識 發布時間(jian):2023-06-15
一個專(zhuan)業的IDP系統至少需(xu)要具(ju)備如下(xia)兩方面的能(neng)(neng)力,才能(neng)(neng)夠滿足(zu)富格式文檔的智能(neng)(neng)化(hua)處理需(xu)求(qiu)。
  • 具(ju)備(bei)多模態信息處理能力(li)

由于文檔本身多(duo)模態(tai)的(de)特點,決(jue)定了IDP系統必須能夠綜合應用計算機視覺和自然(ran)語言(yan)處理等技術(shu),包括圖像處理、OCR、表格(ge)識(shi)別、文檔(dang)解(jie)析、文本分(fen)析、文本理解(jie)等,對于文檔(dang)中的標(biao)題、段(duan)落、表格(ge)、圖表、印(yin)章(zhang)、簽名(ming)等多模(mo)態信息進行(xing)識(shi)別、提取和進一步的理解(jie)和分(fen)析。

  • 具備領域樣本高(gao)效學習(xi)能力

由于不同領域(yu)的(de)文檔特征差異很大(da),為(wei)了在領域(yu)數據(ju)上達到業務可(ke)用的(de)精度要求,IDP系統必須具備(bei)領域樣本(ben)高效學習能力,能夠生(sheng)成(cheng)優(you)化后的模(mo)型,滿足(zu)業(ye)務(wu)場景應用(yong)需求(qiu),為實際(ji)業(ye)務(wu)創造價值。

多模(mo)(mo)態(tai)能(neng)(neng)力和領域學(xue)(xue)習能(neng)(neng)力等方面(mian)的(de)(de)要(yao)求,決定(ding)了通用(yong)IDP系統是一個復雜的(de)(de)綜合性軟件系統,對于技(ji)術架構和系統設(she)計(ji)提出了很高的(de)(de)要(yao)求。架構上,IDP系統需(xu)要(yao)能(neng)(neng)夠(gou)兼容(rong)各種深度學(xue)(xue)習框架,并(bing)能(neng)(neng)夠(gou)對于各種預訓練大模(mo)(mo)型(xing)、多模(mo)(mo)態(tai)預置模(mo)(mo)型(xing)和用(yong)戶自訓練的(de)(de)領域模(mo)(mo)型(xing)實現有效的(de)(de)模(mo)(mo)型(xing)治理(li)。并(bing)且,能(neng)(neng)夠(gou)以統一的(de)(de)模(mo)(mo)型(xing)能(neng)(neng)力層,向(xiang)文(wen)檔應用(yong)層提供接口(kou),滿足上層智能(neng)(neng)化應用(yong)的(de)(de)調用(yong)需(xu)求。

大(da)語(yu)言模型在智能文檔處理中的價值(zhi)與(yu)挑戰(zhan)
如下(xia)圖,是一個常見的IDP系統模(mo)型(xing)技術棧。可以看出,LLMs僅僅是在自(zi)然語言文(wen)本這個模(mo)態上,作為預訓練(lian)基礎(chu)模(mo)型(如紅(hong)色高亮部分)。相比于文本(ben)領域的(de)處理能力,IDP系(xi)統中更加(jia)核心的(de)功能在于文檔(dang)圖(tu)像和多模態信(xin)息的(de)綜(zong)合處理能力,包括OCR、表格識別(bie)、印章識別(bie),以及文檔(dang)分類、信(xin)息檢索(suo)和文檔(dang)抽(chou)取等。

圖2 IDP模型技術棧

因此(ci),對(dui)于IDP系(xi)統,大(da)語言模型主要作用是幫助提升文(wen)檔文(wen)本的理(li)解和生成能(neng)力(li),尚(shang)無(wu)法完全替代IDP模型技術棧。
大語言(yan)模型在IDP系統的(de)主要應用包括:
  • 提升(sheng)文檔分類精度

利用大語言模(mo)型強大的(de)文本(ben)理解(jie)能(neng)力,提升(sheng)文檔(dang)中文本(ben)信(xin)息的(de)分(fen)(fen)類(lei)能(neng)力,如段落和條(tiao)款,進(jin)而提升(sheng)文檔(dang)信(xin)息檢(jian)索和文檔(dang)分(fen)(fen)類(lei)的(de)效果。

  • 提供文檔知(zhi)識問答(da)能力(li)

相比于BERT等(deng)大語言模型,GPT大模型具備生(sheng)成式的(de)(de)特點,能(neng)夠更好滿足文檔知(zhi)識實時問答(da)的(de)(de)應(ying)用,幫助實現(xian)諸如“與你的(de)(de)文檔聊天”等(deng)應(ying)用功(gong)能(neng)。
  • 提(ti)升信(xin)息抽取精度

大語(yu)言模型(xing)在(zai)文本(ben)信(xin)(xin)息抽取(qu)方面具備強大的能(neng)力,如從特(te)定條款或段落中抽取(qu)實體、關系(xi)和事件,幫助提升文檔關鍵信(xin)(xin)息抽取(qu)能(neng)力。
  • 提升條(tiao)款(kuan)和段落比對精度

利(li)用大語言模型強(qiang)大的(de)理解能力,能夠提(ti)升(sheng)文(wen)檔中不同條(tiao)款、段落之間,以及與標準(zhun)條(tiao)款和(he)段落的(de)比對精度,改善文(wen)檔比對效果。
大語言模型在幫助(zhu)提升IDP文(wen)本處理能力的同時,也面臨諸多挑戰和風險,主要包(bao)括:
  • 模型輸入(ru)長度有限,長文檔處理能力受限

GPT-4具有最大32K Token輸入和25K Word輸入(ru)(ru)的(de)要求(qiu),限制了對于長文檔的(de)處(chu)理能力,如幾(ji)十上百頁的(de)合同和報告(gao)文件。這就要求(qiu)必須通過(guo)前置的(de)信息(xi)檢索或段落抽取等預處(chu)理,提取出大(da)(da)篇幅(fu)文檔中(zhong)的(de)相(xiang)關(guan)部分,再輸入(ru)(ru)大(da)(da)模型進行后續(xu)任務處(chu)理。
  • 生成式特點,導(dao)致模型輸出無法溯源,準確性差

不同于BERT等大模(mo)型,GPT(Generative Pre-trained Tranformer)模型(xing)屬于生成式(shi)語言模型(xing),對于模型(xing)輸(shu)(shu)出的(de)信息無法(fa)(fa)進行(xing)精準(zhun)溯(su)源(yuan),即(ji)很(hen)多(duo)情況下(xia)(xia)無法(fa)(fa)準(zhun)確獲得輸(shu)(shu)出內(nei)容在文檔中的(de)具體位置,這就增加了輸(shu)(shu)出的(de)風(feng)險性。在對于模型(xing)精準(zhun)度(du)要求高的(de)場景(jing)下(xia)(xia),如金融業務(wu)場景(jing),往往極小概率的(de)風(feng)險也會(hui)帶來巨大的(de)損失(shi)。因此,就需要通(tong)過模型(xing)優化和后處理(li)等方法(fa)(fa)進行(xing)有效規避,避免(mian)非(fei)法(fa)(fa)輸(shu)(shu)出問(wen)題。
  • 領域知(zhi)識匱乏,影響模型效果
上文提到,文檔的一大(da)特征在(zai)于(yu)其領(ling)域信息(xi)的多樣性和(he)差異(yi)性。通用大(da)語言模型通常基(ji)于(yu)公開的互聯網語料訓(xun)練(lian)獲得,包括維基(ji)百科、新(xin)聞文章、社交媒體等,因此,缺乏對(dui)于領域(yu)知識(shi)的深度(du)學(xue)習(xi)和(he)(he)理解。實際應用(yong)(yong)中(zhong),必須結合(he)領域(yu)數(shu)據(ju)基于預訓(xun)練語言(yan)模型進行(xing)學(xue)習(xi)和(he)(he)調優,以(yi)達到實際業務場(chang)景的使用(yong)(yong)要求,這也是IDP系統必須具備(bei)高效學(xue)習(xi)能力的根(gen)本原(yuan)因。
  • 模型參數(shu)量巨大,對算力(li)要求高(gao)
大模型(xing)通常(chang)具備較(jiao)大的(de)參數規模,如GPT-3.5有1750億參數,對于本(ben)地化(hua)和私有化(hua)部署場景下(xia)的(de)算(suan)力成(cheng)本(ben)具有很高的(de)要(yao)求。因(yin)此,這些場景下(xia),必須進行模(mo)(mo)型輕量化(hua)處(chu)理才(cai)能真(zhen)正落(luo)地使用,如通過知(zhi)識蒸餾和模(mo)(mo)型量化(hua)等技術。

賽博結合大模型技(ji)術(shu)打(da)造(zao)高效學(xue)習能力(li),提供IDP全新解決方案
賽(sai)博智能(neng)學習(xi)平(ping)臺定位于(yu)一站式機(ji)器學習(xi)平(ping)臺,基于(yu)預置的(de)多(duo)模(mo)態能(neng)力(li)(li)和高效的(de)領域數據學習(xi)能(neng)力(li)(li),支持對于(yu)圖片(pian)和文檔等非結構化(hua)數據的(de)智能(neng)化(hua)處理(li)。在(zai)預置多模(mo)態能(neng)力(li)的基礎上,提(ti)供高(gao)效(xiao)的領(ling)域數據學習(xi)能(neng)力(li),是賽博平臺智能(neng)文檔(dang)處理的核心(xin)優勢。如下圖,是關于賽博平臺智能文(wen)檔處理的核心(xin)能力(li)介紹(shao)。 

圖3 賽(sai)博(bo)平臺智(zhi)能文檔(dang)處(chu)理核心能力

主(zhu)要的預置多模態能力包(bao)括:
  • 圖像處理

提供(gong)通用(yong)文檔(dang)圖像檢測、區(qu)域分割和(he)矯正、文檔(dang)圖像質量檢測(模(mo)糊、反光、遮擋(dang)、拍屏(ping)、水印、復(fu)印、篡改、變形(xing)、切(qie)邊和(he)距離(li)遠等)、干擾和(he)噪(zao)聲去(qu)除等預置能力。
  • OCR
提供(gong)通用和(he)場(chang)景(jing)OCR功(gong)能。通用OCR支(zhi)持對于常(chang)見(jian)的(de)文(wen)檔(dang)圖像(xiang)要素(su)的(de)識別,包括文(wen)本(打印、手(shou)寫、多(duo)語言(yan))、表(biao)格、印章、勾(gou)選和(he)簽名等(deng)。場(chang)景(jing)OCR功(gong)能支(zhi)持超過50種場景(jing)文檔圖像(xiang)的(de)識別能(neng)力,涵蓋(gai)標準卡證(zheng)、票據、表單和憑證(zheng)。
  • 文檔處理
提供通用的(de)文(wen)(wen)檔處理能力(li),包括文(wen)(wen)檔格式轉換、協議(yi)解析、版面分析、文(wen)(wen)檔解析等,以及合同等場景文(wen)(wen)檔抽取能力(li)。
  • 自然語言(yan)處(chu)理

提供(gong)基礎的(de)自然語言處(chu)理功能,包括(kuo)文本分類(lei)、信息抽取、通用問答、情感分析等。

如前節(jie)所述,文檔具有領域(yu)特征差異大(da)的特點,主要表現在(zai)不同領域(yu)文檔之(zhi)間(jian)在(zai)種類、版(ban)式(shi)、語料(liao)和(he)表達方式(shi)等方面(mian)存在(zai)較大(da)差異。因此,高效(xiao)的領域(yu)文檔學習能力,是IDP系統(tong)必備的(de)(de)基本功(gong)能,這也是賽(sai)博(bo)平(ping)臺的(de)(de)核心功(gong)能之(zhi)一。如下圖(tu)是關于賽(sai)博(bo)平(ping)臺高效學習(xi)能力的(de)(de)原理介紹。

 圖4 賽博(bo)學(xue)習能力

賽博(bo)平臺(tai)IDP學習(xi)能力(li)以(yi)大規模(mo)語言模(mo)型(xing)和(he)文(wen)檔版式預訓練(lian)模(mo)型(xing)為基(ji)礎,通過下游任務中/小(xiao)模型算法設計,結(jie)合領域數據(ju),高效(xiao)生(sheng)成場景模(mo)型,并通(tong)過(guo)一鍵式模型部署和API生成,輸出場景化AI能(neng)力,如文檔(dang)分類、信息(xi)檢索、文檔(dang)抽取、段落比對等(deng)。依托(tuo)機器學(xue)習功能底座,賽博平(ping)臺能夠提供文檔(dang)數據集標注、模型(xing)(xing)訓練、模型(xing)(xing)部署和API應用(yong)等(deng)一體化操作功能,支(zhi)持(chi)用(yong)戶通過(guo)可視化頁面(mian),高效完(wan)成領域文檔(dang)數據的(de)學(xue)習和模型(xing)(xing)能力的(de)輸出與應用(yong)。
另外,為了更好地滿足業務場景(jing)需(xu)求,實現(xian)與業務深(shen)度融(rong)合,賽博平臺(tai)支持模型(xing)輸出(chu)規(gui)則和API代碼補(bu)丁(ding)定制,能(neng)夠在線實現(xian)模型(xing)輸出(chu)格式轉換、字段拆分(fen)與合并、噪(zao)聲剔除以及(ji)其他高(gao)級后處理功(gong)能(neng),有效(xiao)解(jie)決模型(xing)輸出(chu)與業務需(xu)求之間(jian)“最后一公(gong)里(li)”的問題。
未來,易道(dao)博識將繼續立足于金融(rong)(rong)、能源、通信等(deng)行業(ye),圍(wei)繞企業(ye)在(zai)日常(chang)業(ye)務(wu)運(yun)營、審核和監督管理、信息檢索和風險管控等(deng)場(chang)景下的數智化轉型需求,依托(tuo)賽(sai)博智能學習平臺底座,在(zai)滿足客(ke)戶(hu)(hu)數據安全的前提下,通過高(gao)效學習能力,將大模型等(deng)前沿技(ji)術與(yu)客(ke)戶(hu)(hu)業(ye)務(wu)數據相(xiang)結合,發揮巨大效能,通過與(yu)業(ye)務(wu)場(chang)景的深度(du)融(rong)(rong)合,為業(ye)務(wu)賦(fu)能。
在線留言