智能文档处理和对话式AI赋能药企医学文献检索

来源: 云巴巴 2021-12-13 14:59:00

导语    

智能文档检索(Intelligent Document Search)是来也科技智能自动化平台的产品应用解决方案之一。智能文档检索基于来也科技对话式AI平台(Conversational AI)智能文档处理平台(Intelligent Document Processing)等核心产品,对领域内的专业文档首先进行识别、分类、抽取、校验,再通过检索问句的意图识别关键信息抽取,帮助企业实现专业领域内文档的精确搜索,提升专业人员的工作效率。

本文结合文档智能检索的一个经典应用场景,即利用结合语义分析和智能文档处理的能力提升传统搜索引擎在医药专业领域的效果。对智能文档检索解决方案及更多应用场景感兴趣的读者,可点击文章开头的话题#智能文档处理#

背/景

在医药代表的日常销售工作中,不仅仅需要向客户等提供产品注册证等资质文件,也需要根据具体需求为对方提供更多专业性文献,而这一工作则需要药企专门的【医学信息部】来进行配合文献检索。【医学信息部】需要应对内部及外部、线上及线下共十余种渠道来源的药品咨询及大量文献获取请求,这些文献不仅数量巨大、渠道众多,还往往分布在内外部不同文献数据库之中。针对每条医药代表及医生的需求,医学信息部的工作人员平均需要 1~3 天的时间来进行检索处理,造成巨大人力消耗的同时,对于工作人员的专业判断水平、不同数据库熟悉度也有较高的要求。

图片

为了药企的合规性要求,更及时的服务于内外部,进一步推进药企数智化转型,来也科技利用对话式 AI 和智能文档处理产品,推出了医学文献智能检索机器人,降低药企医学信息检索相关的重复性、耗时的信息检索时长,提升信息检索效率和内外部服务满意度。

解/决/方/案

医学文献智能检索机器人

来也科技智能文档检索(Intelligent Document Search)整体解决方案的设计思路是通过知识图谱(Knowledge Graph)增强检索结果的相关性和准确性;通过来也科技智能文档处理(Intelligent Document Processing)能力自动构建文档知识结构;通过来也科技对话式AI平台(Conversational AI Platform)能力理解用户检索语句,精确理解用户意图及自然语言的检索条件;通过多渠道用户接入,满足不同类型客户的交互方式,既可以通过检索页面(Search Portal)获得检索结果,又可以通过对话机器人(Chatbot)的交互方式获得检索结果。

数据获取  

建立智能文档检索系统前,首先需要接入已有的数据源,包括结构化和非结构化数据,并且能够自动获取文档内容的更新。结构化数据包括三元组、csv、Excel、关系型数据库如SQL Server、MySQL、Oracle等;非结构化数据包括文本、文稿、图片等不同格式的文件,支持对不同文件格式的解析,包括利用OCR对图片类文件的解析。另外支持通过RPA(机器人流程自动化)对本地文件、网络文件目录、FTP目录、NFS目录等类型进行遍历、采集和更新。支持多源异构体数据的资源整合,快速构建图谱检索服务

图片

知识抽取  

文档中关于医学的信息通常以非结构化的方式包含在文本或表格中,适合以知识图谱这种结构化的方式进行知识表示,从而得到更加精确的搜索结果。知识抽取也就是知识构建的过程。知识抽取过程一般要经历三个阶段

图片

本体建模  

如果要将知识图谱用于精确的检索,我们需要通过领域的业务特点构建知识图谱的本体(Ontology),本体(Ontology)是用来表征相同类型文档知识结构的,本体建模也就是定义专业领域图谱的概念、属性、关系等内容的设计。预先将文档结构化成为能够向用户展示搜索结果的完整知识结构。举个例子:一篇文章中关于某产品的文本描述,需要首先进行本体建模,也就得到了我们需要抽取的知识结构的目标。

图片

智能文档处理  

当我们定义好本体(Ontology),也就是我们希望得到的知识结构后,我们就可以使用智能文档处理( IDP) 技术从文档中抽取出关键信息来构建知识图谱。来也科技智能文档处理提供了多种自然语言处理技术来辅助知识抽取,如医学领域的:

新词发现:无监督的领域内专业词汇挖掘,用于行业词库同义词表的建立

图片

实体关系抽取:由机器挖掘、业务专家审核进行三元组的建立

图片

文本分类:通过文章中的文本描述内容,为文档进行自动分类

多任务文档抽取:通过对文档内容结构进行标注,结合多维特征,实现智能抽取模型的训练

图片

人工标注 

同时,利用人机结合(Human in the Loop),由专业的业务人员、药师等不断进行自动标注外的人工标注和审核,进一步扩大知识检索的范围

最终形成适用于当前业务领域的百万量级三元组、高度准确及不断学习的行业图谱。

知识图谱

知识图谱由三元组构成,三元组的内容既可以是(实体1,关系,实体2)这种形式,代表两个实体之间的关系,也可以是(实体、属性,属性值)这种形式,代表某个实体的某个属性,通过管理三元组来维护领域内的知识结构。知识图谱构建完成以后,不断有新的文档新的知识补充进来,所以知识融合和冲突消解的过程会在使用的过程中不断进行。

图片

语义理解

为什么要结合语义理解的能力来进行文档检索?当药企职员想要一篇文献时,往往无法准确说出文献名称,而是通过记忆中对某篇文章的特性片段的结合,通过自然语言的描述进行文献的查找。如:

用户输入:找一篇上个月发表的李红写的有关儿童肺炎用药的文章

在这个问题中,我们基于对话式AI中强大的语义理解能力,在此处语义理解主要包含两个部分:意图识别与条件提取。

意图识别,就是对用户的核心意图进行识别和判断,得到用户意图是“帮忙找一篇文献的原文”。

条件提取,就是在意图确定后,根据提取到的条件信息进行数据的查询,这个例子当中找文献的条件包括

图片

检索服务

当我们通过语义理解提取了用户意图和条件要素后,就可以进行结构化条件的检索和召回。这里用户的意图我们可以分为几种类型,分别是全文检索、问答检索、条件检索和推理检索,每种类型的意图可以对应不同的检索方式。

图片

检索召回后,可以根据检索的结果进行答案融合和重新排序。除了默认按照相关性算法匹配的结果排序外,排序策略支持根据业务属性的自定义,如通过标签匹配个数排序,通过不同标签的权重排序,通过时间的排序等,并且可以通过不同用户的用户画像,进行个性化的检索结果回复

效/果/评/估

本方案帮助客户搭建了数十万级三元组的医学图谱,在万级文档检索的响应时间为百毫秒级,四种分类下的意图覆盖70%以上的检索语句语义识别准确率85%以上

通过构建文献知识图谱,支持前台业务人员通过“一句话”完成文献检索,检索结果包含文字及动态图形,医药代表、药师等业务用户,可以根据需求直接在图形上进行扩展检索,平均获取文献的时间从前文所提的几天缩短至 10 秒左右,不仅让医药代表及医生的需求得到了更快的满足,也极大程度的提高了各数据库系统的利用率,目前本方案已经赋能客户多条不同的业务线。

在当今数字化转型大趋势下,相比外部业务转型,企业内部自身办公方式的数字化也尤为重要,而其中信息搜索将花去我们近三成的工作时间,这有可能会成为限制企业快速发展的最大的拦路虎之一打造一款优秀的企业级智能文档搜索引擎,成为每个企业掌门人都需要仔细思考的问题。令其成为企业知识共享中心,帮助企业每一名员工提高生产力,经过持续的优化升级,它一定会成为一名屹立在企业知识中心的巨人,让每一名员工在它的肩膀上都能望向更远更璀璨的远方!

随着人工智能产品的普及,越来越多的企业在其内部员工赋能等场景中应用全自动或半自动的智能解决方案来实现降本增效,尤其是面对疫情期间的人力资源紧张,智能化转型已经成为政企的一条必然道路。来也科技也将持续进行产品、服务及解决方案打磨,在业务前端,通过对话式 AI 与终端用户交互,理解并收集信息在后端,通过机器人流程自动化(RPA)和智能文档处理(IDP)自动化处理结构化和非结构化信息并执行任务,形成贯穿整条业务线的“端到端智能自动化解决方案”

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

艺赛旗入选字母点评《2022中国RPA采购指南》核心供应商

艺赛旗入选字母点评《2022中国RPA采购指南》核心供应商

随着越来越多的企业意识到RPA的价值,并将RPA作为企业战略的一部分,企业用户对RPA的需求仍将保持快速增长。

2022-04-28 14:42:07

智能自动化技术齐上阵,数字化供应链未来可期

智能自动化技术齐上阵,数字化供应链未来可期

很多人都在谈论物联网(IoT)、人工智能(AI)和机器人流程自动化(RPA)如何彻底改变供应链。 这三项技术是如何工作的?它们各自在供应链和物流方面都解决了哪些问题?它们解决不了什么?为什么数字化供应链的未来不是这三种技术中的单独某一项,

2020-03-27 17:09:43

疫情之下,机器人流程自动化(RPA)的助力(一)

疫情之下,机器人流程自动化(RPA)的助力(一)

萨福克县是美国疫情最严重的地区之一:纽约萨福克县是一个利用自动化应对疫情的实例。 在技术服务提供商SVAM的帮助下,于2020年3月部署了UiPathRPA平台。 萨福克郡专员斯科特Mastellon IT部门表示,该系统包括许可多达三个机器人可用,全县

2022-11-22 15:28:39

RPA的业务价值之提升业务部门与科技部门的协作水平

RPA的业务价值之提升业务部门与科技部门的协作水平

关于中国传统文化企业的业务管理部门和科技部门的协作学习方式,一般是业务相关部门提出信息进行系统的建设发展需求,科技部门作为控制系统的承建方,负责系统的采购、建设、上线、运维等工作。 双方在合作过程中的主要矛盾出现在两个地方,一个是需求阶段,一个是维护阶段

2022-11-22 15:35:37

RPA引领公用事业领域自动化

RPA引领公用事业领域自动化

如今RPA(机器人流程自动化)发展迅速,据侧,RPA技术在未来还会持续增长57%,特别是公用事业领域的RPA将呈现爆炸式增长。

2020-03-18 18:16:49

人力资源数字化嘉年华来袭!RPA如何助力HR数字化转型

人力资源数字化嘉年华来袭!RPA如何助力HR数字化转型

8月5日至6日,智享会将带来首届云上人力资源数字化嘉年华,携手人力资源数字化领域的合作伙伴,帮您实现人力资源数字化转型,艺赛旗受邀参加,将为我们带来线上分享——“流程自动化工具RPA如何助力HR数字化转型”。

2022-11-21 16:01:21

严选云产品

深绘数字化商品全生命周期治理平台PIM 深绘数字化商品全生命周期治理平台PIM基于低代码开发平台,快速搭建商品营销信息管理平台。拥有行业内领先的自研低代码配置平台,支持用户自定义商品主数据系统的界面字段和交互组件,同时支持可视化配置字段映射到第三方渠道字段可从产品上货信息,扩展到产品知识库,产品档案等应用场景,灵活方便。 每个商品类目,可以定义多种场景下的商品数据表单,并支持嵌入BPM流程审批和自定义检索条件。
火山引擎智能数据洞察DataWind 火山引擎智能数据洞察DataWind,以数据洞察为导向,从数据接入、数据整合、到查询、分析,最终以数据门户、大屏、管理驾驶舱的可视化形态呈现给业务用户,让数据发挥价值。
云架构网络核心交换机 根据云计算“强云端轻终端”的特点,锐捷网络创新性的提出“网络云模式”,将包含云数据中心和云园区网在内的业务管道云化,让网络资源池化、按需分配、灵活扩展。
唯一网络Wstack私有云平台 Wstack 致力于云计算技术的创新,专注于提供产品化私有云、无缝混合云。掌握云计算,产品完全自主研发,拥有自主知识产权,是国内最大的自主开源 IaaS 社区发起者。采用Java为设计语言、提供完善API,可支撑各种 PaaS、SaaS 等上层云业务。
香港宽频全球网络线路服务 香港宽频全球网络线路服务,海外MPLS VPN骨干节点覆盖,网络覆盖全球超过多个国家,逾100个服务据点(POPs)。全面覆盖国内超过60个城市,逾83个服务据点。
腾讯云工企微信解决方案 针对工业现场应用的需求,利用现代化的信息技术和创新的管理模式打造的一站式移动应用平台。

甄选10000+数字化产品 为您免费使用

申请试用