金融行业信息化建设只关注信息系统对业务的支持和提高工作效率,缺乏数据标准规划和数据资源挖掘规划,数据资产管理未提上日程。数据扫描、分类、录入、编制目录、信息整理过程中需要大量人力投入,人工作业耗时费力、操作质量参差不齐,经常返工导致管理成本高昂。缺乏统一的行业数据标准,导致不同系统之间的功能对接不够、数据共享不畅,未形成较好的行业数据分析应用基础,数据资源开发利用缓慢。对于审计行业,由于被审计单位以及各相关部门使用的信息系统庞杂,缺乏统一的数据标准,注册会计师往往需要花费大量的时间和精力用于数据采集及数据清理,对数据分析以及其他信息化手段在审计业务中的应用带来了技术上的障碍。面对各行业信息化建设高速发展的现状,仅仅依靠简单抽样的审计手段已经无法满足当前提升审计质量的要求。通过对审计数据采集标准的搭建,可以为注册会计师采用更为有效的信息化数字化审计手段打下基础。
金融行业文档种类极为丰富。比如营业执照、发票以及保单属于格式相对比较固定的表格形式的文档类型。银行流水,银行账单,还有其他文件的表格虽然也是表格的形式,但格式很不固定,其文字信息构成是密度很高的结构。股权质押公告,既有表格,又有段落的信息。债券募集书,本身是很长的很规范化的文档,这些都是在实际业务中需要去处理的文档类型。总体上看,金融行业文本结构实际上是五花八门,有表格,有正文,篇章结构等各个方面,各种情况对文档解析和结构化提取带来了很大的技术难度。
命名实体标注工具:该标注工具中,用户可以标注某些带有特殊意义的实体词语,比如人名、地名、组织机构名、金额,产品等专有名词。
实体-关系标注工具:该标注工具中,提前配置需要标注的多种实体标签,段落标签,标签间的关系,在使用时快速划选标注,拖拉建立标注关系等。可以按需灵活运用于实体标注,实体关系标注,段落标注等,是比较综合的文本标注工具。
分类标注工具:该标注工具中,用户可以方便地针对段落或文章整体类别进行标注。比如下方针对划选的段落,可以标记某段为:合规管理反洗钱了解你的客户;标记另一段为:合规管理反洗钱风险评估等。
在该标注工具可以将原始文档的结构进行一定的还原,针对可编辑PDF,主要按照行进行解析,最终输出的Text中可以将正常文本和表格结构进行统一,方便后续处理操作。
命名实体识别及预测:通过前期训练的引擎,输入预测的句子,输出对应的实体位置信息,比如Name,比如Money,为后续的内容提取做准备。
文本分类识别及预测:通过前期训练的引擎,输入预测的句子,输出对应的分类如0或1,或者其他枚举值。
文本相似度训练及预测:通过前期训练的引擎,输入预测的句子,输出对应组内句子的相似度比例。
由于AI工厂的所有算法,引擎,模型都按照一定的层次结构进行封装调度,因此如果有客户历史遗留算法或第三方算法,可以按照AI工厂的集成标准做适量改造,即可挂载在平台上进行相关训练和预测。如下示例展示了封装教程目录及关键配置文件,高亮部分的结构和前台功能结构相匹配。
爱数先进制造业非结构化数据管理系统,打造智能制造+互联网的智能制造企业,实现产品个性化、设计协同化、供应敏捷化、制造柔性化、服务主动化、决策智能化。实现数据合理的分级分类管理,帮助企业实现数据资产化和数据知识化,有效提升跨组织跨部门的团队协作。
实现数据共享
加强业务协作
促进业务创新
提升建设效率
袋鼠云数栈DTinsight兼容市面主流大数据平台,或者基于数栈自有计算引擎,可以快速完成云原生—站式数据中台PaaS,大数据开发平台,政务大数据平台,新基建,数据治理,智慧校园从0到1的搭建。
一站式产品体系
全链路开发流程
奇点云快消行业CDP客户数据平台建数据整合、标签加工、洞察圈选与互动式营销为一体的消费者运营全流程,全域数据采集以及会员数据打通,进行算法模型应用,最终消费者营销自动化。
全域数据采集
统一会员数据中心
人群洞察与圈选
营销自动化