icon智能文档处理技术发展icon

 

icon文档智能化抽取过程icon

从一份文档开始,经历众多环节的复杂工序,例如OCR识别、版面解析,精准还原版面要素及阅读顺序,并结合NLP、LLM能力,进行字词、句法、篇章等层级分析,准确理解文档内容,最终模拟人类来完成整个非结构化文处理全过程。

 

icon非结构化文档处理的挑战icon

 

iconOCR-多种复杂场景下的高精度识别icon

 

icon核心文档解析能力,实现复杂版面元素还原icon

 

icon文档解析能力,输出文档结构树icon

技术路径:
输入:整份文档的段落内容,以序列化形式传入模型

推理:
• 提取当前段落的embedding值
• 推理每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题

• 如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点

输出:基于每个段落的情况,构造该文档的文档树,并按JSON结构输出(右图中未渲染段落节点)

 

iconTextin智能文档抽取:开箱即用的“零样本”抽取icon

合合信息Textin智能文档抽取产品,依托合合信息自研的垂直领域语义模型,并结合了合合信息强大的文字识别、文档解析、文档检索和文本生成四项关键技术,让计算机模拟人类的推理方式,来识别在训练阶段从未见过的新事物,实现开箱即用的“零样本”抽取,让AI触手可及。

 

icon优秀的泛化性,兼容不同版式文档icon

TextIn智能文档抽取基于海量的基础数据做预训练,具备极强的泛化性,以医疗单据为例,各家医院出具的住院病案、出入院小结等文档材料版式各不相同,合合信息智能文档抽取产品可以兼容各家医院不同版式的住院材料,无需标注训练,开箱即用,即可达到精准的抽取效果。

 

icon准确理解复杂版面icon

非结构化文档抽取的瓶颈之一在于对文档复杂版面解析的准确性,例如文档中插入的

各类复杂表格,对表格结构的准确还原是进行表格信息结构化抽取的前提。

 

icon多模态抽取,兼顾短文本与长文本icon

TextIn智能文档抽取支持双层PDF电子件、拍摄件、扫描件等不同格式的文档,手写体、印章、表格等不同类型的元素的智能抽取,兼顾短文本与长文本,既支持单页的非标卡证、票据、表单,如海外invoice、国际信用证、电汇凭证、不动产权证等,也支持几十甚至上百页的长文档,如购销合同、借款合同、基金合同等。

 

icon兼备通识能力与专项领域知识icon

合合信息通过对涵盖金融(研报、财报、公告、招股书等)、政务(公文、公告、规章制度、政府工作报告等)、法律(法律法规、法律文书等)等各行业高质量语料库的应用,使得智能文档抽取产品既具备通识能力,也具备不同行业的专项领域知识。

“年度”的表达方式多样:
有2022、2023、2024;2022-2024:2022-2024;2022至2024等多种表述方式,Texitin可准确理解对应年份,无需按规则穷举。

上下文关系理解:
“PE”离“2022-2024”很远,仍可以准确推理。

领域知识推理:
全文没有出现“股票代码”这个Key字段,但准确推理出603605代表的是股票代码。
icon大模型与传统算法相结合的技术路线icon

大模型有极强的泛化能力,但对于准确率要求极高的场景,可以与传统算法、规则结合

 

传统NLP
• 传统算法能力聚焦,精准度高
• 可解释性好,可以进一步解决文档抽取和审核固定的场景
大模型
• 优秀的阅读理解和表达能力
• 举一反三能力强,降低标注负担
• 知识整合能力强,能实现上下文关联、跨文档关联能力
icon智能文档抽取应用场景icon

 

icon场景一:银行国际结算icon

国际结算业务主要包括国际信用证、汇款、托收等国际结算产品以及跨境人民币结算等多种业务形式。以进口信用证开立业务为例,开证行(银行)根据进口商的请求,给出口商开具信用证,作为一种承担支付货款责任的书面凭证;银行授权的出口商在符合信用证所规定的条件下,以该行或其指定的银行为付款人,开具不得超过规定金额的汇票,并按规定按期在指定地点收取货物。在整个业务过程中包括大量的物流、资金流、信息流相关纸质单据。

 

icon场景一:银行国际结算icon

合合信息智能文档抽取能力包含但不限于以下单据信息抽取:国内/国际开立信用证、INVOICE、交易合同、PO单、进出口报关单、境内汇款申请书、提款通知书、贷款变更通知书、涉内外收入申报单、购汇申请书、信用证修改申请书、承兑通知书、海运提单、空运提单、Packing list、原产地证明、保单等。

 

icon场景一:银行国际结算icon

合合信息提供“开箱即用”的方式处理国际结算业务单据抽取任务,具备处理能力强、高精度预测性能、强大的迁移学习能力等多重特点,仅需配置相关抽取字段,即可完成结构化抽取。

 

icon场景一:银行国际结算icon

 

icon场景一:银行国际结算icon

合合信息智能文档抽取能力可直接对接行内业务系统,在必要的节点,赋能业务审核界面,支持图文审核、规则审核与一致性审核,如信用证号是否唯一/是否在有效期内、信用证与境外汇款申请书的收款人与受益人名称是否一致等。业务人员通过可视化的审核页面进行快速复核、确认,以“人机交互”的方式提升审核效率。

 

icon场景二:银行函证业务icon

银行询证函是注册会计师、投行IPO项目组(询证者)直接从银行获取书面答复作为审计证据的过程,具备“独立性”特点。通过采用纸质、电子或者其他介质等形式,根本目的是核对账目,所确定的内容更多集中在应收应付账款的真实性与准确性,用于发现财务舞弊。

 

icon场景二:银行函证业务icon

会计师/IPO项目组发函给到商业银行,银行需要对函证中盖章规范性进行审核,并判定询证函格式是否符合银行规范;在回函之前,需要将回函件与用印件比对查看风险差异项。

 

印章检测识别
合合信息Textin智能文档平台印章检测识别模型可同时判断印章存在性、印章类型、印章颜色、印章内容抽取,智能化实现印章规范性判定审核;同时提供文本比对模型,支持PDF、Word、图片、Excel、txt等多种文档格式,包含手写体、印章比对。
询证函格式比对
支持“修改、删除、增加”三种不同类型差异显示,原文高亮展示文本差异处信息,可左右文档同步预览或异步预览,快速定位、直观比对差异点,将自动过滤骑缝章、授权章及回函章等的影响,支持同步滚动展示模式,文档差异点按条款聚合,一目了然。
icon场景二:银行函证业务icon

银行接收到询证函后,需要采集函证内14大类票据信息,与行内业务系统中客户数据比对,确认是否存在偏差,回复会计师/IPO项目组。合合信息智能文档抽取产品,依托合合信息自研的垂直领域语义模型,实现开箱即用的“零样本”抽取,辅助业务人员智能化完成信息比对。

 

icon场景二:银行函证业务icon

智能化抽取函证上的回函地址、联系人、联系电话等信息,对接快递系统下单寄送。

 

icon场景二:券商/IPO项目组函证审核icon

 

icon场景三:不良资产档案包审核icon

为实现不良资产档案业务快速智能化处理,合合信息搭建全流程AI模型,从文档拆分、预处理、档案分类、文档结构化识别、数据审核校对等综合服务完成数据采集和归档。

 

icon场景三:不良资产档案包审核icon

合合信息智能文档抽取产品支持对借款合同、担保合同等各类资产档案进行关键信息抽取,仅需直接配置抽取字段,即可完成结构化抽取

 

icon场景三:不良资产档案包审核icon

从不良资产档案中可智能抽取财产线索方向:房地产、对外股权投资、设备、交通工具、存货、到期债权、保险理赔款、知识产权等。

合合信息旗下启信慧眼“财产线索”功能,可帮助资管公司挖掘、监控债务人及担保人的潜在可执行资产,帮助资管公司掌握更多有价值资产流向线索。

 

icon场景四:券商综合柜面业务icon

合合信息智能文档抽取产品具备在多种复杂场景下实现高精度文档抽取的能力。这一AI赋能的解决方案特别适用于综合柜面业务系统,能够显著提升业务效率,减少运营风险。面对多种文档类型的复杂要素,合合信息的智能文档抽取能力都能轻松应对,在满足安全与合规要求的前提下,显著提高综合柜面业务的运行效率,降低运营风险。

 

icon场景四:券商综合柜面业务icon

以版式各不相同的三方存管协议为例,第三方存管协议主要用于个人开户业务、机构开户业务、合同企业开户业务、私募产品开户业务、单资金户和休眠户激活等业务,协议格式多样,抽取内容文字信息如投资者姓名、身份证件类型、证件号码等信息,还会涉及签署日期的手写字体识别,投资者签章、机构公章、经办签章、复核签章的公章识别。

 

icon场景五:资产托管icon

 

icon场景五:资产托管icon

 

icon场景五:资产托管icon

 

估值核算
AI文档智能处理:智能对账与持仓核对机器人、企业派息公告要素提取机器人、估值录入和结算核对机器人解决估值数据的审核与自动化录入。
准入管理
AI+DATA:自动登录各类公开信息网站查询,结合外部工商、司法、舆情信息,自动生成尽调报告,高亮提示风险项目,辅助引入人员判断管理人资质。
 
 
投资监督
AI文档智能处理:智能解析、抽取、分类投资监督条款,与标准化板库AI核查匹配,保障投监三要素(范围、预警、限制)的完整性。
资金清算
AI文档智能处理:通过智能文档处理平台,对各类划款指令进行抽取,结合API接口打通业务系统,实现智能AI预审,将审核时效从小时级别提升为分钟级别。
icon场景六:投行业务-底稿结构化icon

 

icon场景六:投行业务-底稿结构化icon

基于合合OCR、NLP、IDP底层能力,针对版式相对固定的底稿类型、或复杂底稿中特征相对明显的字段,

可通过AI模型按照已定义的字段输出结构化后的数据结果。

 

icon场景六:投行业务-底稿结构化icon

• 基于受托管理底稿中,定期收集的募集资金使用相关文档,如:银行流水、转账凭证、发票等,自动抽取其中关键信息,完成募集资金使用交叉核验、生成资金流向链路图。

• 结合工商、舆情数据,对募集资金流向进行风险预警。

 

icon场景七:研报解析-半结构化icon

 

icon场景七:研报关键信息抽取-结构化icon

 

icon场景七:研报解析-研报精细化阅读icon

 

APP端
• 将研报内容中的关键信息进行结构化展示,涉及个股、行业以及总量类研报中的摘要、表格、正文和图表进行结构化解析输出,应用在移动端研报的展示优化。
WEB端
• 图表目录、快览,支持跳转到原文对应位置,让客户在线阅读研报全文,并可以更快更精准地找到感兴趣的数据及观点,提升阅读体验!
icon案例一:央企保理公司icon
系统上线3个月
累计审单1000+笔
平均审核提速1.06小时/单
整体审单效率较同期提升31%
icon案例二:世界500强能源集团icon
 
 
某世界500强能源集团主营矿业、高端化工、电力、新能源材料、高端装备制造、现代物流贸易。集团财务共享中心负责集团下属二级集团及子公司的财务工作。由于子公司众多、凭证种类繁多,审核工作量极大,仅审核岗员工就超过了200名。
 
通过对合同、发票、银行回单、银行承兑汇票、验收单等凭证的文字检测、识别与关键信息抽取,实现审核字段的自动提取。同时,基于凭证信息间的相互对应关系,实现自动化的信息一致性校验。
icon案例三:上港物流兴宝仓储icon

流程改造前:在传统的录单业务流程中,上港兴宝需要将最终客户提供的提货单扫描打印为纸质文件,分配给录单员,再由录单员在WMS系统中手动录入信息。由于采用“数字代码”的方式录入信息,需要录单员牢记常用字段对应的数字代码,新员工培训成本高,需要较长时间才可达到熟练录入程度。

流程改造后:系统可智能识别并抽取提货单中的关键字段信息及印章信息,自动录入WMS系统,录单员仅需进行复核确认,录入审核流程大幅度缩短,实现了智能化的单证信息采集、审核、确认与传输。经上港兴宝试运行效果验证,整体工作效率相较于流程改造前提升了80%。

 

icon我们的优势 - 抽取效果icon

数据集情况:

• 场景覆盖:47个场景,每周更新。

• 文档类型:包括各类非标卡证、票据、单证等短文本;也包括十余种长文本,如购销合同、抵质押合同、基金合同。

 

icon技术优势icon

 

icon服务优势icon

 

 
产品推荐 查看更多>>
    百度智能云交通出行OCR识别

    百度智能云交通出行OCR识别,综合应用百度大脑文字识别、人脸与人体识别、语音识别、车辆分析等多项AI技术,打造覆盖汽车售卖、车辆出行、后市场服务各环节的交通出行应用方案,提升企业营运效率,规范交通监管,便利个人出行。

    百度大脑文字识别

    人脸与人体识别

    语音识别

    车辆分析

    华为云 图像识别 Image

    图像识别(Image Recognition),基于深度学习技术,可准确识别图像中的视觉内容,提供多种物体、场景和概念标签,具备目标检测和属性识别等能力,帮助客户准确识别和理解图像内容

    可识别多种物体、场景和概念标签,更准确进行图像识别、图像分析工作

    提供定制化的场景识别服务,使图像识别结果更加准确

    提供RESTful规范的API接口,以及服务SDK

    帮助客户减少人力成本,节省业务支出

    图像识别

    精准识别超过十万种物体和场景,包含多项高精度的识图能力并提供相应的API服务,充分满足各类个人开发者和企业用户的业务需求

    应用广泛

    使用便捷