随着互联网的成长,各种软件涌入了我们的视线,怎么打光学字符识别(OCR)技术是如何实现图片转文本呢?主要是基于以下几种网络结构。
一种常见的做法是调整候选锚定框,例如光学字符识别(OCR)技术在faster R-CNN的基础上,将垂直的候选锚定框进行旋转满足非垂直文本的检测,这样一来就可以满足非垂直文字的检测需求。
光学字符识别(OCR)技术RRPN 的网络结构
SSD是一个文本框改进算法。调整了发展锚定框的长宽比,以适应中国文字的高长宽比。使用输出层还使用非标准的卷积核,更适应中国文字细长的宽高比这一发展特点。
光学字符识别(OCR)技术TextBoxes 的网络结构
DMPNet使用四边形检测到非矩形块候选锚(深度匹配现有网络)。通过OCR Monte-Carlo方法进行计算数据标注不同区域。矩形候选框和旋转产生候选框的重合度后重新设计计算一个顶点位置坐标,得到非矩形四边形的顶点坐标。
光学字符识别(OCR)技术DMPNet生成候选锚定框的示意图
另一种方法是通过向顶底的方法,检测所述细粒度连接文本成文本更粗粒度的改进后CTPN是目前我国应用范围最广的文本进行检测系统模型方法之一。一个基本假设是,单个字符比更异构的文本行更容易检测,因此OCR作为首先为单个字符检测类似的R-CNN。LSTM后来添加在双向网络检测时,形成的检测结果序列提供文本的上下文特征,它们可以被组合以得到多个文本字符线。
光学字符识别(OCR)技术CTPN的网络结构
Seglink的设计灵感来自SSD。方法连接相邻的连接上下文。并且可以通过将连接参数的学习资源整合进了神经系统网络的学习活动过程,使得模型更容易训练。
光学字符识别(OCR)技术SegLink的网络结构
一些研究推出注意机制,使用以下评价权重的密集关注模型图像模型。对于文本教学内容较之背景图像有着更高的注意力,OCR这样一个有利于将前景进行图像和背景图像分离,使检测研究结果更准确。
如今,光学字符识别(OCR)技术还处于初期阶段,设备风险控制任重道远,腾讯光学字符识别(OCR)技术将不断挖掘其丰富其功能,不断打磨自身技术,帮助和辅助人们更好的工作,学习和生活。
版权声明:本文为Yun88网的原创文章,转载请附上原文出处链接及本声明。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-24 13:57:53
2022-11-22 15:27:58
2022-11-23 17:13:50
2020-05-06 16:52:53
2022-11-22 10:14:57
2020-03-05 16:47:59
甄选10000+数字化产品 为您免费使用
申请试用
评论列表