数字化社区

几种典型光学字符识别（OCR）技术的网络结构（二）

几种典型光学字符识别（OCR）技术的网络结构（二）

2022-11-21

随着互联网的成长，各种软件涌入了我们的视线，怎么打光学字符识别（OCR）技术是如何实现图片转文本呢？主要是基于以下几种网络结构。

一种常见的做法是调整候选锚定框，例如光学字符识别（OCR）技术在faster R-CNN的基础上，将垂直的候选锚定框进行旋转满足非垂直文本的检测，这样一来就可以满足非垂直文字的检测需求。

光学字符识别（OCR）技术RRPN 的网络结构

SSD是一个文本框改进算法。调整了发展锚定框的长宽比，以适应中国文字的高长宽比。使用输出层还使用非标准的卷积核，更适应中国文字细长的宽高比这一发展特点。

光学字符识别（OCR）技术TextBoxes 的网络结构

DMPNet使用四边形检测到非矩形块候选锚（深度匹配现有网络）。通过OCR Monte-Carlo方法进行计算数据标注不同区域。矩形候选框和旋转产生候选框的重合度后重新设计计算一个顶点位置坐标，得到非矩形四边形的顶点坐标。

光学字符识别（OCR）技术DMPNet生成候选锚定框的示意图

另一种方法是通过向顶底的方法，检测所述细粒度连接文本成文本更粗粒度的改进后CTPN是目前我国应用范围最广的文本进行检测系统模型方法之一。一个基本假设是，单个字符比更异构的文本行更容易检测，因此OCR作为首先为单个字符检测类似的R-CNN。LSTM后来添加在双向网络检测时，形成的检测结果序列提供文本的上下文特征，它们可以被组合以得到多个文本字符线。

光学字符识别（OCR）技术CTPN的网络结构

Seglink的设计灵感来自SSD。方法连接相邻的连接上下文。并且可以通过将连接参数的学习资源整合进了神经系统网络的学习活动过程，使得模型更容易训练。

光学字符识别（OCR）技术SegLink的网络结构

一些研究推出注意机制，使用以下评价权重的密集关注模型图像模型。对于文本教学内容较之背景图像有着更高的注意力，OCR这样一个有利于将前景进行图像和背景图像分离，使检测研究结果更准确。

如今，光学字符识别（OCR）技术还处于初期阶段，设备风险控制任重道远，腾讯光学字符识别（OCR）技术将不断挖掘其丰富其功能，不断打磨自身技术，帮助和辅助人们更好的工作，学习和生活。

版权声明：本文为Yun88网的原创文章，转载请附上原文出处链接及本声明。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里！

热门数字化产品

item.productInfo.name

Zoho Projects项目管理软件Zoho Projects项目管理软件，帮助您轻松地进行项目规划、进度跟踪、内外协作。它利用工时统计、Bug管理、项目知识库管理等功能，帮助您实现业务目标。为您的项目管理工作提供全面综合的解决方案，从而帮助您和您的企业大幅创造价值。

item.productInfo.name

e签宝e签宝从身份认证数据源、证书核验、可信时间戳、私钥保存位置等多个关键点入手提供技术保障，同时从实名认证、意愿认证、签名、存证等环节提供可靠签署流程，证据实时上链，免除平台客户自证清白的成本，也为用户提供放心的签署服务。

item.productInfo.name

吉客云吉链分销平台吉客云吉链分销平台为吉客云的业务链接子系统，连接吉客云企业与企业之间的业务关系。多种关系（货主委外发货、生产委外加工、代理销售、物流代发）的业务往来和协同，以及业务伙伴的发现。

item.productInfo.name

腾讯云实时音视频TRTCTRTC 源自 QQ 音视频团队，是基于 QQ 20多年来的音视频技术积累，在腾讯云上部署售卖的 RTC 云服务。TRTC 支撑了腾讯会议、微信群直播、微信视频号直播、企业微信直播、腾讯课堂、全民K歌等业务是腾讯集团丰富的音视频场景的最佳实践输出。

item.productInfo.name

网易数帆有数BI有数BI是由网易数帆推出的一款企业级智能大数据敏捷分析平台。无需代码、PPT式简单拖拽即可轻松完成报告与大屏的制作。丰富的在线图表组件、可视化ETL操作、多终端智能预警等能力真正降低了用户的使用门槛，提高了数据使用效率，助力企业实现数据驱动决策。

为你推荐

2025腾讯产业合作伙伴大会|云巴巴荣获双项大奖，载誉而归

1月16日，2025腾讯产业合作伙伴大会在三亚召开。云巴巴，荣膺“2024腾讯云卓越合作伙伴奖—星云奖”和“2024腾讯云AI产品突出贡献奖”双项大奖

2025-01-17

传统AI代码工具效率低下？TAPD MCP Server让开发效率与质量双倍飙升

腾讯TAPD作为国内领先的敏捷研发管理平台，可以说是最早拥抱MCP的研发管理工具之一，凭借其全生命周期的研发管理能力，成为AI代码助手的“最强外挂”，其创新功能直击开发痛点。

2025-04-25

如何提升政企客户服务效率？协同管理+规模触达成政企服务质量选型新标准

基于预设规则和对象特征，让消息推送更智能更精准，帮助企业打通内外部系统的数据系统，实现更多灵活、更个性化的营销和服务能力开发。

2025-04-25

如何利用数据分析做好活动营销？海纳嗨数让活动策划执行更加高效便捷

海纳嗨数凭借其专业的数据分析能力，为企业提供从数据采集到深度洞察的一站式解决方案，助力活动策划与执行实现质的飞跃。

2025-04-25

复杂网络环境下，如何通过弱网加速与源站高可用技术架构保障业务零中断？

网宿科技全站加速产品以弱网优化与源站灾备技术矩阵，构建全链路加速体系，通过核心技术为多场景提供端到端保障，实现弱网效率跃升、源站切换无感，助企业突破网络桎梏。

2025-04-24

查看更多