icon犀易工场icon
犀易工场贯通语料预处理、语料标注、模型管理、模型训练、模型发布全流程,完成一体化、自动化的文本数据处理。通过语义理解和形式化分析等认知技术,辅以数据挖掘、机器学习等手段,帮助企业快速构建模型和部署系统应用,提高业务灵活性,加快企业的数字化转型,打造企业专属的AI生态链路。
服务客户:
icon犀易工场定位icon
icon金融业应用-数据资产利用痛点icon

金融行业信息化建设只关注信息系统对业务的支持和提高工作效率,缺乏数据标准规划和数据资源挖掘规划,数据资产管理未提上日程。数据扫描、分类、录入、编制目录、信息整理过程中需要大量人力投入,人工作业耗时费力、操作质量参差不齐,经常返工导致管理成本高昂。缺乏统一的行业数据标准,导致不同系统之间的功能对接不够、数据共享不畅,未形成较好的行业数据分析应用基础,数据资源开发利用缓慢。对于审计行业,由于被审计单位以及各相关部门使用的信息系统庞杂,缺乏统一的数据标准,注册会计师往往需要花费大量的时间和精力用于数据采集及数据清理,对数据分析以及其他信息化手段在审计业务中的应用带来了技术上的障碍。面对各行业信息化建设高速发展的现状,仅仅依靠简单抽样的审计手段已经无法满足当前提升审计质量的要求。通过对审计数据采集标准的搭建,可以为注册会计师采用更为有效的信息化数字化审计手段打下基础。

市场竞争
同行竞争严重,年均复合增长率已经呈现出下降的趋势,互联网金融公司带来强烈的影响和竞争。
人力成本
人口红利在逐渐消失,劳动力成本上升,新时代员工不愿意天天进行重复性工作。
监管趋严
金融行业领域监管越来越严格导致相关文档的的数量件越来越多。人工处理文本的能力,却无法得到相应的提升,容易导致工作上的疏忽,给工作带来潜在的风险。
技术进步
传统技术手段不够灵活,难以适业务变化,高度依赖第三方专家介入干预。基于最新人工智能等技术强化金融行业的数字化能力并要考量以前的非结构化数据资产能不能发挥应有的价值。
icon金融业应用-金融文档特征icon

金融行业文档种类极为丰富。比如营业执照、发票以及保单属于格式相对比较固定的表格形式的文档类型。银行流水,银行账单,还有其他文件的表格虽然也是表格的形式,但格式很不固定,其文字信息构成是密度很高的结构。股权质押公告,既有表格,又有段落的信息。债券募集书,本身是很长的很规范化的文档,这些都是在实际业务中需要去处理的文档类型。总体上看,金融行业文本结构实际上是五花八门,有表格,有正文,篇章结构等各个方面,各种情况对文档解析和结构化提取带来了很大的技术难度。

文档种类多
季报、年报、审计报告,企业信用报告,个人征信报告。税务类申报单,询证函,租赁合同,建筑合同,基金合同。招股书,债券募集书,派息公告,股权质押公告,重组公告。
格式种类多
各类非结构化文档,Word,Excel, PDF可编辑,PDF扫描件,图片,手机拍照,有表格线表格、无表格线表格,旋转、模糊。
精准度要求高
人工出错后会被警告甚至罚款,对于券商而言可能会影响客户公司的上市,审计报告需要合伙人签字,对准确度要求高导致人工审核工作量巨大。
icon金融业应用-文档解析icon
icon金融业应用-具体场景icon
文本抽取
识别精度高:OCR引擎支持扫描,手机拍照,模糊反光,倾斜等各种复杂场景,同时可以支持简体中文简体、中文繁体、英文等多语言场景。结构化提取:基于自研的NLP底层技术,输出的内容通过集成可以满足自动填单、存储、展示等业务场景,满足用户需求。自定义导出格式:可根据客户需求,自定义导出模板。通过简单的配置,可以将文本中需要的信息转换成结构化的字段输出,节省大量人工录入时间。
表格抽取
准确率高:依托优秀的表格识别技术,支持对不同样式表格解析,包括有表格线,无表格线,表文混合等各种场景,并准确识别单元格内的文字。结构化提取:通过自研的表格解析技术,针对金融领域各类表格进行结构化提取。对年报、申报单、对账单等各类表格抽取达到极高的准确率。自定义导出格式:同文本抽取,通过简单的配置,可以将表格中需要的信息转换成结构化的字段输出。
 
 
证件识别
精确提取:提取各类证件的所有字段信息提取,以及证件切边和头像切图,可自动裁边, 修正倾斜,去除多余复杂背景。功能模块:证件识别引擎拥有多个功能模块,可以支持证照正反双面识别,香港身份证,户口本等多种证件内容抽取。支持格式丰富:支持PDF扫描件,图片等多种格式文件。对于文本旋转,倾斜,手机拍照等复杂场景支持良好。
 
票据识别
智能分类:支持增值税发票、火车票、飞机行程单、出租车票、购车发票、定额发票等多种票据的智能分类和内容提取。场景应用广泛:通过人工智能技术对发票图片进行压缩、针对角度、模糊、光照等复杂场景识别算法优化,识别率高、信息提取高容错性。自定义导出格式:同文本和表格抽取,通过简单的配置,可以将表格中需要的信息转换成结构化的字段输出。
icon犀易工场三大功能构成icon
icon数据-AI标注平台icon
icon标注工具icon

命名实体标注工具:该标注工具中,用户可以标注某些带有特殊意义的实体词语,比如人名、地名、组织机构名、金额,产品等专有名词。

icon标注工具icon

实体-关系标注工具:该标注工具中,提前配置需要标注的多种实体标签,段落标签,标签间的关系,在使用时快速划选标注,拖拉建立标注关系等。可以按需灵活运用于实体标注,实体关系标注,段落标注等,是比较综合的文本标注工具。

icon标注工具icon

分类标注工具:该标注工具中,用户可以方便地针对段落或文章整体类别进行标注。比如下方针对划选的段落,可以标记某段为:合规管理反洗钱了解你的客户;标记另一段为:合规管理反洗钱风险评估等。

icon算法-AI核心引擎icon
icon算力-AI训练预测icon
icon数据预处理工具icon

在该标注工具可以将原始文档的结构进行一定的还原,针对可编辑PDF,主要按照行进行解析,最终输出的Text中可以将正常文本和表格结构进行统一,方便后续处理操作。

icon模型训练及预测icon

命名实体识别及预测:通过前期训练的引擎,输入预测的句子,输出对应的实体位置信息,比如Name,比如Money,为后续的内容提取做准备。

icon模型训练及预测icon

文本分类识别及预测:通过前期训练的引擎,输入预测的句子,输出对应的分类如0或1,或者其他枚举值。

icon模型训练及预测icon

文本相似度训练及预测:通过前期训练的引擎,输入预测的句子,输出对应组内句子的相似度比例。

icon支持历史遗留算法和自定义算法扩充集成icon

由于AI工厂的所有算法,引擎,模型都按照一定的层次结构进行封装调度,因此如果有客户历史遗留算法或第三方算法,可以按照AI工厂的集成标准做适量改造,即可挂载在平台上进行相关训练和预测。如下示例展示了封装教程目录及关键配置文件,高亮部分的结构和前台功能结构相匹配。

icon部署架构icon
icon服务方式icon
AI平台整体输出
服务说明:AI平台整体输出,在客户环境部署,由业务服务和技术专家协助客户快速应用和交付。服务价值:业务场景全面并可拓展,可根据需求定制化开发。
AI引擎输出
服务说明:针对客户业务场景需要,由客户在72个成熟引擎中进行选择性购买。服务价值:节省开发引擎成本。
AI具体解决方案输出
服务说明:针对特定业务场景,解决方案专家帮助客户开发专项解决方案,客户直接购买解决方案服务价值:针对特定业务痛点,可提供快速高效的解决方案。
AI能力服务输出
服务说明:为客户提供流程搭建、语料标注、模型训练、模型发布等AI技术能力服务。服务价值:节省人力成本。
icon犀易工厂赋能场景icon
icon犀语科技icon
 
上海犀语科技有限公司采用领先的自然语言处理(NLP)、知识图谱(KG)、大数据(BD)分析技术,为客户提供信息数据化、数据智能化、业务数智化的解决方案。解决方案覆盖从底层文本的数据清洗和数据结构化到算法模型的训练管理以及行业智能化应用的完整AI生态,同时结合行业客户的业务知识和专家经验,打造细分场景下的深度产品。团队成员由知名高等院校的科学家、科技服务公司的技术专家和金融行业的解决方案专家组成。犀语科技重点服务于泛金融领域内的银行、证券、保险、资管、监管机构、中介机构及财经媒体。
icon核心团队icon
创始人&CEO金鑫
复旦大学经济管理系硕士,美国沃顿商学院访问学者,中欧国际商学院EDP。花旗银行集团金融部主管、总裁助理、信贷审批委员会成员;荷兰皇家飞利浦亚太区以及全球资金总监、CFO;欧普照明执行董事、CFO;华院数据技术管理合伙人、CFO。CIMA/CGMA国际注册管理会计师协会资深会员,在金融投资,财务管理,跨国企业管理方面有丰富经验。
首席科学家 邱锡鹏
复旦大学计算机科学技术学院教授,博士生导师。中国中文信息学会青年工作委员会执委、计算语言学专委会委员、中国人工智能学会青年工作委员会常务委员、自然语言理解专委会委员。2015年入选首届中国科协青年人才托举工程,2017年ACL杰出论文奖,2018年钱伟长中文信息处理科学技术奖—汉王青年创新奖。
icon犀语荣誉icon
icon对我们的信赖icon
产品推荐 查看更多>>
    爱数先进制造业非结构化数据管理系统

    爱数先进制造业非结构化数据管理系统,打造智能制造+互联网的智能制造企业,实现产品个性化、设计协同化、供应敏捷化、制造柔性化、服务主动化、决策智能化。实现数据合理的分级分类管理,帮助企业实现数据资产化和数据知识化,有效提升跨组织跨部门的团队协作。

    实现数据共享

    加强业务协作

    促进业务创新

    提升建设效率

    袋鼠云数栈DTinsight 云原生—站式数据中台PaaS

    袋鼠云数栈DTinsight兼容市面主流大数据平台,或者基于数栈自有计算引擎,可以快速完成云原生—站式数据中台PaaS,大数据开发平台,政务大数据平台,新基建,数据治理,智慧校园从0到1的搭建。

    一站式产品体系

    全链路开发流程

    奇点云快消行业CDP客户数据平台

    奇点云快消行业CDP客户数据平台建数据整合、标签加工、洞察圈选与互动式营销为一体的消费者运营全流程,全域数据采集以及会员数据打通,进行算法模型应用,最终消费者营销自动化。

    全域数据采集

    统一会员数据中心

    人群洞察与圈选

    营销自动化