几种典型光学字符识别（OCR）技术的网络结构（一）-云巴巴

立即咨询

立即试用

商务合作

首页

数字化社区

人工智能

几种典型光学字符识别（OCR）技术的网络结构（一）

2022-11-21

提到验证码大家都不陌生吧，而数字验证码相较于光学字符识别（OCR）技术并不难，只是 0-9 十个数字，加上轻微的旋转扭曲缩放即可。如果有粘连需要被分割的字符，它可以用来计算Viterbi算法的最大联合概率。

但是汉字跟验证码进行不同，汉字很复杂，并且企业数量存在很多。常用汉字就 3000 多，再加上通过旋转扭曲缩放，样本公司数量也是非常具有恐怖。怎样把一大坨汉字作为样本塞进应用包里面是一个煞费苦心的事情。现在就介绍几种典型光学字符识别（OCR）技术的网络结构。

通常的做法是使用CRNN模型。以CNN特征可以作为一个输入，双向LSTM进行数据序列分析处理技术使得文字识别的效率大幅提升，首先通过OCR技术的分类方法得到特征映射，也提升了模型的泛化能力。然后通过结果的CTC平移得到输出结果。

CRNN OCR的网络结构

另一种方法是以CNN特征可以作为一个输入，引入关注的机制。通过注意力进行模型对RNN的状态和上一状态的注意力权重分析计算发展出新一状态的注意力权重。特征和权重输入RNN，结果的CNN后由编码和解码获得。

端到端的OCR

与检测识别的多级OCR不同，将文本检测和识别统一到同一个工作流中，深度学习使端到端的OCR成为可能。一种目前已相对称FOTS（快速的面向text识别）关注端到端的框架。FOTS的检测工作任务和识别主要任务信息共享卷积特征图。其中，检测一方面卷积，另一方面它引入RoIRotate，一种操作者的用于提取指向文本区域。得到一个文本候选区域特征后，将其作为输入到RNN编码器和CTC解码器中进行风险识别。同时，OCR端到端网络培训是可能的，因为所有的运营商都是可微的。由于简化的工作流程中，网络可以在低运营成本进行验证，以实现实时的速度。

总结

尽管基于深度合作学习的光学字符识别（OCR）技术主要表现相较于传统教学方法可以更为出色，但是通过深度学习科学技术发展仍需要在光学字符识别（OCR）技术研究领域方面进行特化，而其中的关键正式传统光学字符识别（OCR）技术管理方法的精髓。

因此，我们仍然需要从传统方法的经验中学习，所以学习和深度的组合还提高OCR的性能。另一方面，作为一个深度合作的推动力，因此可以收集广泛而优质的数据分析也是我国现阶段光学字符识别（OCR）技术产品性能的重要举措之一，数据起到了发展至关重要的作用。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

热门数字化产品

查看详情

酷学院企业培训SaaS平台酷学院多个基于AI技术的培训工具，有效降低培训运营传播，显著提升学习效果。基于对14大热点行业标杆企业的大数据分析，深入研究和实验，建立77个重点岗位职能的测评标准。依托AI技术，精准提取视频、音频、语音等课件中的知识点，转换成碎片化的知识内容，并对各个内容设置相应标签，形成系统化的知识图谱。

查看详情

博致云生产制造小工单系统博致云小工单SaaS应用聚焦生产工单执行全流程，涵盖工单、报工、绩效看板等管理功能，实现手机端便捷报工、实时监控生产、精准核算绩效，生产进度一目了然，快速实现车间数字化。帮助企业落地精益管理，减少浪费，提升生产效率，降低制造成本，助力数字化转型。

查看详情

腾讯乐享企业培训管理系统腾讯乐享连接知识、沉淀经验，整合学习地图、课堂、考试、直播、文档、社群、问卷、员工关怀、项目管理、讲师管理等多应用于一体，帮助团队建立学习型组织、降低沟通成本，提升员工自发性和组织内协同性，助力企业数字化管理升级。

查看详情

有成CRM有成CRM是一款SaaS模式的客户关系管理软件，以客户管理为核心，包含客户管理、销售全流程管理，合同订单、项目管理、工单管理、呼叫中心、移动审批、数据分析八大模块。旨在助力企业销售全流程精细化、数字化管理，全面解决了企业销售团队的全流程客户服务难题，帮助企业有效盘活客户资源、量化销售行为，合理配置资源、建立科学销售体系，提升销售业绩。