提到验证码大家都不陌生吧,而数字验证码相较于光学字符识别(OCR)技术并不难,只是 0-9 十个数字,加上轻微的旋转扭曲缩放即可。如果有粘连需要被分割的字符,它可以用来计算Viterbi算法的最大联合概率。
但是汉字跟验证码进行不同,汉字很复杂,并且企业数量存在很多。常用汉字就 3000 多,再加上通过旋转扭曲缩放,样本公司数量也是非常具有恐怖。怎样把一大坨汉字作为样本塞进应用包里面是一个煞费苦心的事情。现在就介绍几种典型光学字符识别(OCR)技术的网络结构。
通常的做法是使用CRNN模型。以CNN特征可以作为一个输入,双向LSTM进行数据序列分析处理技术使得文字识别的效率大幅提升, 首先通过OCR技术的分类方法得到特征映射,也提升了模型的泛化能力。然后通过结果的CTC平移得到输出结果。
CRNN OCR的网络结构
另一种方法是以CNN特征可以作为一个输入,引入关注的机制。通过注意力进行模型对RNN的状态和上一状态的注意力权重分析计算发展出新一状态的注意力权重。特征和权重输入RNN,结果的CNN后由编码和解码获得。
端到端的OCR
与检测识别的多级OCR不同,将文本检测和识别统一到同一个工作流中,深度学习使端到端的OCR成为可能。一种目前已相对称FOTS(快速的面向text识别)关注端到端的框架。FOTS的检测工作任务和识别主要任务信息共享卷积特征图。其中,检测一方面卷积,另一方面它引入RoIRotate,一种操作者的用于提取指向文本区域。得到一个文本候选区域特征后,将其作为输入到RNN编码器和CTC解码器中进行风险识别。 同时,OCR端到端网络培训是可能的,因为所有的运营商都是可微的。由于简化的工作流程中,网络可以在低运营成本进行验证,以实现实时的速度。
总结
尽管基于深度合作学习的光学字符识别(OCR)技术主要表现相较于传统教学方法可以更为出色,但是通过深度学习科学技术发展仍需要在光学字符识别(OCR)技术研究领域方面进行特化,而其中的关键正式传统光学字符识别(OCR)技术管理方法的精髓。
因此,我们仍然需要从传统方法的经验中学习,所以学习和深度的组合还提高OCR的性能。另一方面,作为一个深度合作的推动力,因此可以收集广泛而优质的数据分析也是我国现阶段光学字符识别(OCR)技术产品性能的重要举措之一,数据起到了发展至关重要的作用。
版权声明:本文为Yun88网的原创文章,转载请附上原文出处链接及本声明。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-23 16:38:19
2022-11-21 11:38:02
2022-11-23 17:15:19
2022-11-24 10:44:55
2022-11-22 15:35:06
甄选10000+数字化产品 为您免费使用
申请试用
评论列表