基于智能文档处理的招投标信息自动抓取和匹配RPA

来源: 云巴巴 2021-11-28 12:46:06

智能文档处理(Intelligent Document Processing,简称 IDP)是来也科技智能自动化平台的核心能力之一。IDP 基于光学字符识别(OCR)、计算机视觉(CV)、自然语言处理(NLP)、知识图谱(KG)等前沿技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化。本文介绍 IDP 的一个典型应用场景,即利用智能文档处理对大量的招投标文档进行自动抓取、分析和匹配。

背景

工程项目在招标时,通常会在各省市的公共资源交易中心网站上公开发布招标公告,公告内包含对项目信息的基本说明和对投标公司的要求等。有投标意向的公司需要专业的员工去筛选有价值招标公告去投标,但是全国每天有大量(数千篇)新发布的招标公告,公告内包含大量的领域专业信息形式多种多样(包含段落、列表和表格),因此对于筛选的员工来说压力巨大,需要大量的有经验的员工才能完成。

来也科技的智能文档处理产品基于自然语言处理(NLP)、光学字符识别(OCR)等技术,对海量的招标公告进行结构化处理,提炼出项目信息和投标要求,自动过滤与公司拥有的资质、历史业绩与公告要求不匹配的公告,大幅度减少了市场人员需要阅读的公告数量,减轻基层工作人员的负担。

解决方案

招投标公告通常由各招标单位自行发布在当地的公共资源交易中心、行业招投标等网站上,具有来源众多文档结构各异文档形式多样(Word/PDF/HTML/扫描图片等)的特点。如果仅仅通过解析 HTML 的 DOM 结构的方式进行文档的解析,信息提取的效果并不理想,针对不同网站或文档的适应性也很差。

为了尽可能让方案通用,来也科技通过 RPA 机器人将所有招标文档转换为 PDF 文档,然后利用 OCR 技术识别文档内容和结构信息,最后使用 NLP 技术对文档内容进行解析,形成 RPA+OCR+NLP 的智能文档处理解决方案。来也科技的招投标智能文档处理系统分为公告抓取、信息抽取、业务决策三个大的环节。

公告抓取

在招标公告抓取方面,我们搭建了面向重点信息来源(如中国政府采购网、公共资源交易网和各地区及行业核心招投标网站)的采集机器人,去实时采集建筑工程类招标公告、标书、中标公告 3 种文档,确保数据全量覆盖,随时掌握最新商机。使用来也科技的 RPA 工具搭建的采集机器人,具有低代码、易维护的优点,并且通过来也科技的人机协同中心,可做到人工抽检、流程快速干预,解决了以往数据抓取必须由专业人员维护的难点

信息抽取

抓取到的公告经过 OCR 得到文档包含的内容和结构信息后,就可以开始进行信息抽取了。招标公告一般包含多种结构(段落、列表、表格等),每个省市的格式也各有差异,内容由自然语言描述构成,再加上需要抽取的字段多达近 20 个,因此信息抽取的挑战十分巨大。因此需要大量的标注数据来训练深度学习模型。

为了应对上述难点,我们采用了深度学习+领域专家经验组合的抽取方案。深度学习模型方面我们基于大量招标公告数据训练了 BERT 模型,加上专家经验进行一定的后处理,成功让信息抽取的 F1 指标*达到 0.88。

*F1 指标:准确率及召回率的综合评价指标,越趋近于 1 则表明算法或模型越佳

为了降低标注的难度,我们还配套开发了一个数据标注平台,支持框选、划词等多种标注方式,可以为 NER、分类、文档序列化、实体关系抽取等多种 NLP 任务提供数据标注。

业务决策

当完成信息抽取后,为了达到商机筛选的目的,还需要进行业务分类、归属地识别、资质匹配等业务逻辑处理。

以资质匹配为例,这个过程包括招标公告资质表达式生成、目标公司资质库结构化、表达式求解三个过程。

招标公告资质表达式生成  

建筑工程招标公告中“申请人资格要求”部分包含投标单位必须具备的资格条件,其中最重要的就是对企业资质的要求。首先,我们将识别到的资质要求,比如“建筑装饰装修工程设计与施工二级及以上”,用占位符(Token)替换(如下图中的A、B、C);然后,对文本做依存句法分析,识别句子中不同占位符之间、占位符与逻辑关系关键词(与、或等)之间的依存关系;最后将依存句法树通过规则转化成逻辑表达式。如下图示意。

示例:本专业承包工程资格预审要求申请人具备 建筑装饰装修工程设计与施工二级及以上与建筑机电安装工程专业承包三级[新]及以上,或建筑装修装饰工程专业承包二级[新]及以上与建筑机电安装工程专业承包三级[新]及以上 资质,近 3 年已完工的单项合同额 600 万元(含)以上或建筑面积 4000 平方米(含)以上的房屋建筑工程。

目标公司资质库结构化     

通常一个资质要求由“行业资质”、“专业资质”、“等级要求”三部分构成,尽管不同的招标人在撰写标书时这三个部分会有不同的描述方式,但三部分的顺序一定是固定不变的,否则将是完全不同的资质。

如:“建筑装饰装修工程设计与施工二级”和“建筑装修装饰工程设计与施工二级”就是同一个资质

目标公司资质库结构化的目的是,将目标公司所有的资质拆分成上述三部分,方便每个部分可以去和目标资质做模糊判别

表达式求解    

有了目标公司的结构化资质库和建立好的资质要求逻辑表达式,就可以最终输出目标公司是否满足招标资质。

资质匹配示例

表达式求解示例

 

人机协作优化模型

以上内容就是来也科技的招投标信息自动抓取匹配部分的系统设计,然而在实际中,我们都知道机器无法做到百分百的准确(新的格式、领域词汇、表达方式等),因此我们还准备了人机协作模块

在 RPA 的处理流程中,当完成信息抽取和业务推理后,会根据模型输出的置信度辅以业务经验(如不可能没有招标金额),将低置信度或违背业务经验的数据发送给人工进行校正,同时人工也可以对每天处理的数据进行抽检,当人工发现错误后可以直接在标注平台上进行纠正。纠正后的数据积累到一定程度后会启动模型的增量训练,改善模型的效果,做到数据的闭环。

通过实验验证,通过在 900 篇错误数据上进行迭代训练,模型的 F1 指标能迅速提升 0.12,效果十分可观。

在上述的实验中,我们发现通过少量的错误数据进行模型迭代(900 篇对比 1w 篇)可以有效的提升模型的效果,因此我们尝试将基础模型的训练数据降到原来的 1/4 重新训练模型,再利用 900 篇错误数据对模型进行迭代,我们发现同样能很好的改善模型的效果(仅比原方案降低 F1 指标降低 0.003)。

通过人机协作模块的实验,我们得出了通过少量数据启动训练后再在错误样本上进行迭代训练,既能快速提升模型的效果,也能极大的降低初始的标注成本

效果评估

针对招标公告的抽取效果评估整体的 F1 指标在 0.88,重要字段的 F1 指标均超过 0.85。以下是部分字段的效果:

为了验证数据闭环的效果,我们选取了一些处理有错误的数据,在原来的基础上进行增量训练后,信息抽取模型部分的 F1 指标从 0.665 提升到了 0.786。在讲基础模型的训练数据随机削减到原来的 25% 后,在错误数据上进行迭代,F1 指标仍然能够达到 0.783。

在上述案例客户的应用过程中,日均处理约 3000 篇招投标文件,涉及 34 个省级行政区、357 个市,软件机器人可帮助目标公司提前筛选掉约 40% 的不符合要求的招标文件,极大的节省了筛选的人力成本。

本文介绍了智能文档处理在招投标领域的应用。通过使用来也的 RPA 和 NLP 技术对招投标文件的自动抓取、信息抽取、业务辅助判断,能够做到实时发现商机及辅助决策,提升商机的转化率,降低人力筛选招投标的成本,增强企业的竞争力。该解决方案同样也适用于其他需要对大量文档分析和决策的场景,可广泛应用于各类企业文档的处理上。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

智能自动化技术齐上阵,数字化供应链未来可期

智能自动化技术齐上阵,数字化供应链未来可期

很多人都在谈论物联网(IoT)、人工智能(AI)和机器人流程自动化(RPA)如何彻底改变供应链。 这三项技术是如何工作的?它们各自在供应链和物流方面都解决了哪些问题?它们解决不了什么?为什么数字化供应链的未来不是这三种技术中的单独某一项,

2020-03-27 17:09:43

RPA机器人帮助企业保持数字化敏捷性

RPA机器人帮助企业保持数字化敏捷性

RPA的适时出现,为企业在业务敏捷性建设上提供了全新思路,对于人力难题,素有“虚拟劳动力”“数字员工”之称的RPA,能够有效释放企业人力,消除企业以往那些需要耗费大量人力和时间的重复性、基于规则的基本工作。

2020-03-19 16:06:41

艺赛旗RPA机器人数字化赋能疫情防控

艺赛旗RPA机器人数字化赋能疫情防控

艺赛旗RPA可以有效解决此类大批量上传数据及表格的需求。

2022-04-15 09:13:40

RPA与AI技术的结合会给我们生活带来哪些改变

RPA与AI技术的结合会给我们生活带来哪些改变

随着人工成本的越来越高,很多企业选择在一些流水线岗位上采用机器人代替人工的方式进行工作。RPA,机器人流程自动化这一名词开始被越来越多人所熟知。RPA的不断发展让我们的生活更加便利,同时也会减少企业的人工成本,并且大幅度的提升工作效率。

2022-11-23 16:31:28

RPA机器人流程自动化在IT服务领域的具体应用

RPA机器人流程自动化在IT服务领域的具体应用

随着各种的新兴IT技术兴起,许多企业迎来了一波又一波的运营改革,ERP和共享服务是产生于上个世纪90年代的,很大程度的提高了企业的运营效率,2000年的连劳动力外包业务的大力发展,进一步的降低了企业的运营成本。

2020-03-18 17:43:59

RPA机器人时代,能否创造新的工作体系

RPA机器人时代,能否创造新的工作体系

机器人是否会代替人类的工作——RPA,“从工业车间的物理机器人——机器人手臂到办公软件机器人”一直是一个有争议和引人注目的话题,引起了人们对失业的关注。根据McKinsey2017年的调查数据,现在被证实的技术可以使45%的人力工作自动化,

2020-03-18 17:33:21

严选云产品

Udesk智能AI交互语音机器人 Udesk经过2年潜心研发,智能AI语音机器人系统震撼上市!通过精准语音平台,群呼潜在客户群体,并模拟销售专家沟通进行信息筛选的人工智能语音机器人
金智维制造企业数字化转型解决方案 金智维制造企业数字化转型解决方案数字员工是以应用系统客户端软件自动操作技术(Robotic Process Automation:RPA)及人工智能(AI)为基础的业务流程自动化封装技术,通过模拟并增强人与计算机的交互过程、执行基于一定规则的可重复性任务、协同异构业务系统间的数据交互等方式,最终达到降本增效、降低业务操作风险的目的。
畅云管家CMSP云服务管理平台 畅云管家CMSP云服务管理平台,Web服务器;批量计算,分布式分析,高性能科学和工程类应用和平台;广告,游戏。高性能数据库;高性能网站前端机;数据处理任务;企业后台应用;高性能计算、科学计算。深度学习;视频处理;图形可视化;科学计算。
扶摇职上交互式游戏人才测训平台 扶摇职上交互式游戏人才测训平台是国内首款将游戏化元素融入科学标准化的心理行为实验的交互性测验,帮助企业全面评估人员的能力和个性特质,有效鉴别高潜人才。
泛微京桥通SRM采购管理系统 泛微京桥通SRM采购管理系统,通过数字身份 ,所有与供应商的交流、磋商、档案信息真实有效,防篡改,采购合同分析,各类合同执行情况的汇总展现。支持在线投标报价,允许供应商多轮报价,结合模板套用、OCR识别、敏感词识别等技术使得采购合同起草更加便捷、高效。
用于ConnectWise的Veeam备份和复制插件 使用Veeam Endpoint Backup for Labtech跨多个端点管理远程备份,或使用Veeam插件从Labtech内部监视备份活动。

甄选10000+数字化产品 为您免费使用

申请试用