光学字符识别(OCR)是指创建计算机可以读取的打印,键入或手写文档的数字版本的软件,而无需手动地键入或输入文本。OCR通常用于扫描文档PDF格式,但也可以在图像文件中创建计算机可读版本的文本。
ocr是什么
OCR,也称为文本识别,是软件技术,它将字符转换为从打印或书面文档中的数字,字母和标点符号(也称为字形)进入电子形式,更容易被计算机和其他软件程序识别和读取。一些OCR程序将其作为文档进行扫描或用数码相机拍摄,其他OCR程序可以将此过程应用于先前已扫描或拍摄的文档,而无需OCR。OCR允许用户在PDF文档中搜索,编辑文本和重新格式化文档。
OCR的用途是什么?
对于快速、日常的扫描需求,OCR可能不是什么大问题。如果你做了大量的扫描,能够在pdf中搜索找到你需要的确切的文件可以节省很多时间,并且使你的扫描程序中的OCR功能更加重要。以下是OCR的其他帮助:
- 自动数据处理和数据输入(例子:求职者跟踪恢复系统)。
- 使扫描书籍可搜索。
- 将手写扫描转换为计算机可读文本。
- 通过助攻视觉障碍用户的读者程序制作文件更具可用的文件。
- 保存历史文件和报纸,同时也使它们便于搜索。
- 数据提取和转移到会计计划(例如:收据和发票)。
- 为使用的文档建立索引搜索引擎。
- 通过速度相机和红灯摄像机软件识别驾驶执照板。
- 为不能说话的人提供语音合成器——理论物理学家斯蒂芬·霍金可能是语音合成器程序最知名的用户。
为什么要使用OCR?
为什么不只是拍照,对吧?因为您无法编辑任何内容或搜索文本,因为它只是图像。扫描文档并运行OCR软件可以把那个文件变成你可以编辑和搜索的东西。
OCR的历史
虽然最早使用文本识别日期为1914年,但在20世纪50年代,致命的开发和使用OCR相关技术始于Regorest,特别是创建了非常简化的字体,更容易转换为数字可读文本。这些简化字体中的第一个由David Shepard创建,通常称为OCR-7B。OCR-7B今天仍在使用信用卡和借记卡上使用的标准字体。在20世纪60年代,若干国家的邮政服务开始使用OCR技术来迅速加快邮件分拣,包括美国,英国,加拿大和德国。OCR仍然是用于对全球邮政服务进行分类的核心技术。2000年,使用OCR技术的限制和能力的关键知识来发展验证码程序用来阻止机器人和垃圾邮件发送者。
在几十年来,由于相关技术领域的进步,OCR已经增长更加准确,更复杂人工智能那机器学习,以及计算机视觉。今天,OCR软件使用模式识别、特征检测和文本挖掘来更快更准确地转换文档。