从一份文档开始,经历众多环节的复杂工序,例如OCR识别、版面解析,精准还原版面要素及阅读顺序,并结合NLP、LLM能力,进行字词、句法、篇章等层级分析,准确理解文档内容,最终模拟人类来完成整个非结构化文处理全过程。
技术路径:
输入:整份文档的段落内容,以序列化形式传入模型
推理:
• 提取当前段落的embedding值
• 推理每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题
• 如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点
输出:基于每个段落的情况,构造该文档的文档树,并按JSON结构输出(右图中未渲染段落节点)
合合信息Textin智能文档抽取产品,依托合合信息自研的垂直领域语义模型,并结合了合合信息强大的文字识别、文档解析、文档检索和文本生成四项关键技术,让计算机模拟人类的推理方式,来识别在训练阶段从未见过的新事物,实现开箱即用的“零样本”抽取,让AI触手可及。
TextIn智能文档抽取基于海量的基础数据做预训练,具备极强的泛化性,以医疗单据为例,各家医院出具的住院病案、出入院小结等文档材料版式各不相同,合合信息智能文档抽取产品可以兼容各家医院不同版式的住院材料,无需标注训练,开箱即用,即可达到精准的抽取效果。
非结构化文档抽取的瓶颈之一在于对文档复杂版面解析的准确性,例如文档中插入的
各类复杂表格,对表格结构的准确还原是进行表格信息结构化抽取的前提。
TextIn智能文档抽取支持双层PDF电子件、拍摄件、扫描件等不同格式的文档,手写体、印章、表格等不同类型的元素的智能抽取,兼顾短文本与长文本,既支持单页的非标卡证、票据、表单,如海外invoice、国际信用证、电汇凭证、不动产权证等,也支持几十甚至上百页的长文档,如购销合同、借款合同、基金合同等。
合合信息通过对涵盖金融(研报、财报、公告、招股书等)、政务(公文、公告、规章制度、政府工作报告等)、法律(法律法规、法律文书等)等各行业高质量语料库的应用,使得智能文档抽取产品既具备通识能力,也具备不同行业的专项领域知识。
大模型有极强的泛化能力,但对于准确率要求极高的场景,可以与传统算法、规则结合
国际结算业务主要包括国际信用证、汇款、托收等国际结算产品以及跨境人民币结算等多种业务形式。以进口信用证开立业务为例,开证行(银行)根据进口商的请求,给出口商开具信用证,作为一种承担支付货款责任的书面凭证;银行授权的出口商在符合信用证所规定的条件下,以该行或其指定的银行为付款人,开具不得超过规定金额的汇票,并按规定按期在指定地点收取货物。在整个业务过程中包括大量的物流、资金流、信息流相关纸质单据。
合合信息智能文档抽取能力包含但不限于以下单据信息抽取:国内/国际开立信用证、INVOICE、交易合同、PO单、进出口报关单、境内汇款申请书、提款通知书、贷款变更通知书、涉内外收入申报单、购汇申请书、信用证修改申请书、承兑通知书、海运提单、空运提单、Packing list、原产地证明、保单等。
合合信息提供“开箱即用”的方式处理国际结算业务单据抽取任务,具备处理能力强、高精度预测性能、强大的迁移学习能力等多重特点,仅需配置相关抽取字段,即可完成结构化抽取。
合合信息智能文档抽取能力可直接对接行内业务系统,在必要的节点,赋能业务审核界面,支持图文审核、规则审核与一致性审核,如信用证号是否唯一/是否在有效期内、信用证与境外汇款申请书的收款人与受益人名称是否一致等。业务人员通过可视化的审核页面进行快速复核、确认,以“人机交互”的方式提升审核效率。
银行询证函是注册会计师、投行IPO项目组(询证者)直接从银行获取书面答复作为审计证据的过程,具备“独立性”特点。通过采用纸质、电子或者其他介质等形式,根本目的是核对账目,所确定的内容更多集中在应收应付账款的真实性与准确性,用于发现财务舞弊。
会计师/IPO项目组发函给到商业银行,银行需要对函证中盖章规范性进行审核,并判定询证函格式是否符合银行规范;在回函之前,需要将回函件与用印件比对查看风险差异项。
银行接收到询证函后,需要采集函证内14大类票据信息,与行内业务系统中客户数据比对,确认是否存在偏差,回复会计师/IPO项目组。合合信息智能文档抽取产品,依托合合信息自研的垂直领域语义模型,实现开箱即用的“零样本”抽取,辅助业务人员智能化完成信息比对。
智能化抽取函证上的回函地址、联系人、联系电话等信息,对接快递系统下单寄送。
为实现不良资产档案业务快速智能化处理,合合信息搭建全流程AI模型,从文档拆分、预处理、档案分类、文档结构化识别、数据审核校对等综合服务完成数据采集和归档。
合合信息智能文档抽取产品支持对借款合同、担保合同等各类资产档案进行关键信息抽取,仅需直接配置抽取字段,即可完成结构化抽取
从不良资产档案中可智能抽取财产线索方向:房地产、对外股权投资、设备、交通工具、存货、到期债权、保险理赔款、知识产权等。
合合信息旗下启信慧眼“财产线索”功能,可帮助资管公司挖掘、监控债务人及担保人的潜在可执行资产,帮助资管公司掌握更多有价值资产流向线索。
合合信息智能文档抽取产品具备在多种复杂场景下实现高精度文档抽取的能力。这一AI赋能的解决方案特别适用于综合柜面业务系统,能够显著提升业务效率,减少运营风险。面对多种文档类型的复杂要素,合合信息的智能文档抽取能力都能轻松应对,在满足安全与合规要求的前提下,显著提高综合柜面业务的运行效率,降低运营风险。
以版式各不相同的三方存管协议为例,第三方存管协议主要用于个人开户业务、机构开户业务、合同企业开户业务、私募产品开户业务、单资金户和休眠户激活等业务,协议格式多样,抽取内容文字信息如投资者姓名、身份证件类型、证件号码等信息,还会涉及签署日期的手写字体识别,投资者签章、机构公章、经办签章、复核签章的公章识别。
基于合合OCR、NLP、IDP底层能力,针对版式相对固定的底稿类型、或复杂底稿中特征相对明显的字段,
可通过AI模型按照已定义的字段输出结构化后的数据结果。
• 基于受托管理底稿中,定期收集的募集资金使用相关文档,如:银行流水、转账凭证、发票等,自动抽取其中关键信息,完成募集资金使用交叉核验、生成资金流向链路图。
• 结合工商、舆情数据,对募集资金流向进行风险预警。
流程改造前:在传统的录单业务流程中,上港兴宝需要将最终客户提供的提货单扫描打印为纸质文件,分配给录单员,再由录单员在WMS系统中手动录入信息。由于采用“数字代码”的方式录入信息,需要录单员牢记常用字段对应的数字代码,新员工培训成本高,需要较长时间才可达到熟练录入程度。
流程改造后:系统可智能识别并抽取提货单中的关键字段信息及印章信息,自动录入WMS系统,录单员仅需进行复核确认,录入审核流程大幅度缩短,实现了智能化的单证信息采集、审核、确认与传输。经上港兴宝试运行效果验证,整体工作效率相较于流程改造前提升了80%。
数据集情况:
• 场景覆盖:47个场景,每周更新。
• 文档类型:包括各类非标卡证、票据、单证等短文本;也包括十余种长文本,如购销合同、抵质押合同、基金合同。
百度智能云交通出行OCR识别,综合应用百度大脑文字识别、人脸与人体识别、语音识别、车辆分析等多项AI技术,打造覆盖汽车售卖、车辆出行、后市场服务各环节的交通出行应用方案,提升企业营运效率,规范交通监管,便利个人出行。
百度大脑文字识别
人脸与人体识别
语音识别
车辆分析
图像识别(Image Recognition),基于深度学习技术,可准确识别图像中的视觉内容,提供多种物体、场景和概念标签,具备目标检测和属性识别等能力,帮助客户准确识别和理解图像内容
可识别多种物体、场景和概念标签,更准确进行图像识别、图像分析工作
提供定制化的场景识别服务,使图像识别结果更加准确
提供RESTful规范的API接口,以及服务SDK
帮助客户减少人力成本,节省业务支出