当你在面对大量的PDF文档时,想要把他们转成文字,又不甘屈服于转文本所需的费用,而且,如果你的打字速度还很慢的话,就快来了解一下什么是OCR吧。
OCR的全称是光学字符识别,一般是指光学字符识别。是指电子设备,例如扫描仪或数码相机,检查纸上打印的字符。OCR通过进行检测暗、亮的模式可以确定其形状,然后用字符识别研究方法将形状翻译成计算机语言文字的过程;即,针对印刷体字符,OCR采用传统光学的方式将纸质文档中的文字转换发展成为中国黑白点阵的图像相关文件,并通过分析识别系统软件将图像中的文字转换成文本格式,供文字处理这些软件企业进一步提高编辑加工的技术。
OCR最重要的课题,是如何进行除错或利用计算机辅助信息技术提高企业识别方法正确率。ICR,即Intelligent Character Recognition,这个名词也因此而发展产生。一个好或坏的表现OCR系统的主要指标有:废品率,友好的错误率,识别速度快,用户界面,产品的稳定性,易用性和可行性。
OCR的发展简史
或许OCR这个词对于你来说,是一个新兴词汇。但其实,OCR的概念是在1929年由德国社会科学家Tausheck最先发展提出来的,后来由于美国通过科学家Handel也提出了可以利用信息技术对文字内容进行分析识别的想法。1966年就有公司发表了第一篇关于汉字识别的文章,采用了OCR的模板匹配法识别了1000个印刷体汉字。
早在20世纪60年代和70年代,世界上就开始有OCR研究,在研究的早期,大多数文本识别方法,识别的字数只有0到9。日本也有,例如文本框,1960年左右开始研究的基本理论OCR识别,最初的数字对象,我们开始有一些简单的产品,如印刷文字的邮政编码识别系统,直到1965年和1970年之间,拉链在邮件代码标识,信分,帮助邮局运营的区域;邮政编码迄今已被世界各国的地址写法主张。日本的学者开始研究汉字识别在20世纪70年代初,并做了大量的工作。
在70年代中国在OCR技术方面的研究工作才开始。对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到1986年,我国的汉字识别的研究进入一个实质性的阶段,相继推出了中文OCR产品,现为中国最领先汉字OCR技术。
下篇文章,小编会介绍一下关于OCR的软件结构。
版权声明:本文为Yun88网的原创文章,转载请附上原文出处链接及本声明。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-21 15:58:50
2022-11-24 10:05:38
2022-11-23 15:55:53
2022-11-24 10:27:01
2024-03-27 09:50:18
甄选10000+数字化产品 为您免费使用
申请试用
评论列表