在我们在学习工作和生活中,肯定多多少少遇到过这样的场景。在某本书或者某张报纸上看到一大段有用的文字,想要快速摘录出来。查找到的重要信息存储格式为图像或者文字不可复制的PDF,需要手动输入成文本格式。经常需要输入身份证号码或者银行卡号码之类的长串数字,需要仔细录入反复核对。有大批量的表格、单据、合同等纸质材料需要转化为电子文档保存。报销发票时候需要一张张录入票据手动计算金额......
光学字符识别,即Optical Character Recognition,简称 OCR,是专门解决文字识别问题的人工智能技术;采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,它让计算机像人一样看图识字,不管是扫面件、图片还是纸质文件都可以轻松搞定。
任何你能想到的形式都可以轻松识别,目前已支持242种类型的证件、表单、文件的识别和结构化抽取。
只需一份标注文件,标注完成后系统自动训练模型,简单快捷
基于已经标注类似模板,渊识OCR具有强大的自标注能力,在人工未标注之前完成机器标注,人工只需复核即可。
接入层:包括协议转换、参数输配和结果适配等。框架层:图像识别服务运行的系统框架,加载运行算法,提供稳定的识别服务,包括:Master:接收接入层的请求,进行请求拆分、请求调度、结果合并等。Worker:实际执行算法的进程载体,主要包含算法SO/模型的加载、更新,进行算法的执行。Zookeeper:存储worker心跳信息、算法映射关系、算法执行计划、算法静态/动态快照信息等。ConfigServer:监听worker心跳并实时更新动态动态路由表,触发master更新路由规则及连接池。算法层:算法人员提供各种算法模型及算法so。周边系统:评测系统:提供版本评测功能,存储系统:非敏感图片及badcase存储。监控告警:监控服务的运行状态,在异常时进行告警。日志系统:请求日志的存储,为问题的跟踪排查提供依据框架运行时。
OCR为AI添上一双“慧眼”,已经在各行各业中得到广泛的应用。
谋国内知名保险公司在使用达观渊识平台后,工作效率提升了60%~80%
跟进计算机视觉、图像处理、自然语言处理、深度学习、迁移学习、强化学习等领域最前沿的算法,并致力于将其工程化应用到OCR系统上。独有的计算机视觉和自然语言处理深度融合技术,独有的多算法融合技术。
采用视觉注意力模型技术对图像进行特征提取,然后进行序列特征提取,最后使用注意力模型作为解码器输出最终的文字序列
基于深度学习和全卷积网络的关键点定位技术,采用倾斜矫正算法、最大轮廓提取算法、表格线去干扰算法和文字框定位算法等多种技术手段相互融台,进一步提高文字识别的精度。
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
将图片上的文字内容,智能识别成为可编辑的文本
OCR 支持身份证、名片等卡证类和票据类的印刷体识别
支持运单等手写体识别,支持提供定制化服务
适应任意版式,提高数据可用性
MDR(Mobile Direct Recognition)即移动直接识别。是充分利用了ZEBRA 移动数据终端系列产品内置的2D扫描引擎或者CMOS摄像引擎以及高速 CPU的运算能力而开发的OCR(Optical Character Recognition)软件解决方案。
支持广泛的识别对象
支持多种集成方式
语音播报功能
配置信息自动同步