所有刊物

选择PDF工具——第1部分:应该关注OCR功能吗?

是的,您应该关注这个功能!

您也许会问:“什么是OCR?,我不需要OCR,我只想打开我的PDF文件。”

据统计,有四分之一的PDF文档是“纯图像”(不可搜索)的文档。纯图像的PDF只是文档的照片,不包含任何机器可读的文字,而这些可读文字允许多种操作,是使用数字文档或维护无纸化办工的关键。

OCR(或光学字符识别)技术至关重要的一点在于:此技术真正实现了文档的数字化,其中的文本可用于多种操作。OCR技术最终成为员工在使用纸张和数字文档两种方式之间不同的生产力和工作效率的关键因素。

所有的PDF都一样!……还是?

虽然乍看之下所有PDF都一样,但事实并非如此。根据它们不同的来源,它们可能允许或不允许访问文档中的文本。当您处理扫描的PDF文档时,无法选择要添加标记和注释的文本、将文字复制并粘贴到另一个文档中、对文字进行编辑或在其中搜索关键字。您所能做的只是在屏幕上阅读文字,这样就和使用纸质文档没有区别。虽然这样的文档也属于数字格式,但数字文档所具有的优势并没有被充分利用。

 

  数字化PDF 纯图像PDF 可搜索的PDF
描述 可能有多层内容:包括文字、插图和其他对象。没有纸质版 只有文档的图像层 (冒充PDF的图像) 有文档图像和文字层(文本层通常在图像层之下)
来源 通过代码或使用打印机驱动程序从其他应用程序创建 扫描仪、图像转换为PDF,或“数字化”PDF另存为纯图像的PDF 应用OCR技术,将文本层添加到纯图像的PDF上
可搜索 允许(大多数情况) 不允许 允许
案例

OCR与这一切有什么关系?

光学字符识别将“读取”并识别文档,并将其转换为机器可读的文本,这样您就可以与任何其他PDF文档相同的方式处理此文档。

到现在为止情况一直不错。但如果PDF工具中集成的OCR的质量和准确度不足时,当您复制粘贴文本到另一个文档或者将文档转换为Microsoft Office格式做进一步编辑时,您可能会对识别结果感到非常沮丧。

高精准度的OCR技术(如:作为ABBYY FineReader PDF核心的OCR技术)保留了文档的原始布局和格式,并在同一个文档中支持多种语言,这是保持文档高生产率的同时又不会对辨识结果感到沮丧的关键。

实际上,如果您将ABBYY FineReader PDF 作为默认的PDF查看和编辑工具,您甚至都无需费心去了解OCR究竟是什么或做什么,您只需要做你的工作即可。

ABBYY FineReader PDF 自动检测纯图像的PDF文件,并在打开这些文件时同时执行OCR。对您来说,这意味着您可以立即获取文件的内容:标记和添加注释、搜索、提取数据以供日后重复使用、屏蔽文字、甚至编辑文字。

如果您需要对文档进行更加正规的编辑,ABBYY FineReader PDF 在其OCR编辑器中为您提供了一组高级文档转换设置,在这里您可以尽可能地调整转换设置以适合您的项目需要,而无需重新输入文字、更正或重建文档。

5个日常实例,当好的OCR拯救了PDF

以下是一些日常生活中的场景,在这些场景中,您将庆幸拥有高质量OCR的PDF工具:

搜索和信息检索

在海量信息中快速找到相关信息是提升效率的关键。据IDC的数据显示,知识工作者平均每周花费136分钟搜索文档。OCR有助于查找文档本身并在该文档中搜索信息,尤其是对扫描的文档更加有效。应用OCR的质量、它支持的语言及其智能性决定了搜索结果的质量。如果您正在处理多页文档,您将会很高兴地用一些AI帮助。

ABBYY FineReader PDF 支持192种语言,识别准确度高达99.8%。它不仅可以自动检测正在处理的文档语言,还可以处理多语言文档。

更新和重新发布

多年以来,PDF是文档不需要更改时的首选格式。既然PDF是数字文档业界标准,并且它被用作纸张文件的数字化代表,编辑PDF文档的需求似乎是相当合理的。为什么不更正错字,更新数字或单词或直接在PDF文档中更改名称?

  • 首先,您需要一个能够编辑PDF文档的工具。免费的PDF阅读器通常不提供此功能。高级PDF工具(如ABBYY FineReader PDF)可让您轻松编辑数字PDF内容。但PDF文件仍然是不可编辑的。因此,如果要做很多重要的变更而不是仅仅修改一些拼写错误或数字,则可以将当前文档转换为Microsoft Word后再进行编辑,FineReader PDF 在转换时将保留原始布局和格式,为您节省了数小时因重新输入或重建现有文件而花费的时间。
  • PDF编辑时遇到的另一个挑战是扫描和纯图像的PDF文档。OCR对于访问文档图像中“锁定“的文本并对其进行编辑是至关重要的。在视觉上,您可能无法识别您正在使用基于图像的PDF,这是FineReader PDF 起关键作用的地方-它会智能地检测文档类型,并在后台应用OCR。给您带来的好处是:您只需编辑文档-无须在意文档的类型。
  • 通过光学字符识别(OCR),您不仅可以复制和粘贴文本,还可以将您正在查看的PDF文档中的表格数据复制和粘贴到另一个文档中(该文档可以是Microsoft Word或Excel)。在ABBYY FineReader PDF 中,您可以只选择需要的片段文字并继续阅读。

协作和交换反馈

大家都知道在PDF文档中添加注解和注释是多么实用和快速。此外,如果与过去相比,那时我们在纸上交流和反馈意见,现在的做法带来的好处是,我们不必再辨认同事的笔迹。即使您得到一张纸来提供反馈,您仍然可以坚持数字化。只需要用手机拍摄照片或扫描文档,然后用ABBYY FineReader PDF 打开它。图像会自动转换为PDF格式,且支持OCR功能的FineReader PDF 将在后台自动添加一个文本层,这不仅可以添加通常的“便签型”注释,还可以选择文本,突出显示、删除、加下划线,再添加注释,这样就会让大家更加清晰地理解内容。

保护和编辑

您是否尝试过编辑多页PDF文档?您可能花费数小时甚至数天的时间逐页逐行地查找姓名、社会保险号、短语等。此外,如果您处理的是“扁平化”文档或文档扫描,您没有任何其他选择,因为您甚至无法在其中搜索特定信息。

有了ABBYY FineReader PDF,您可以免去所有的痛苦。打开文档图像后,程序会自动为您添加计算机可以识别为文本的文本层,从而可以搜索、查看所有出现的短语列表、选择必须删除的短语(或全选),只需单击一下即可应用编辑-非常简单!

识别差异和变更

我们大多数人都有打印两份文档并逐行比较其内容的经验,以确保没有不希望的或欺诈性的更改进入最终版本,并再次检查所要求的编辑是否已进入最终版本或检测重复内容。此过程的问题在于,它浪费了宝贵的资源–您的时间和纸张,容易出错,并且使您的眼睛和大脑疲惫不堪。但是,有了FineReader PDF,您可以立即解决所有这些问题!它可以帮助您在几秒钟内比较任何文件格式的两个文档- 瞧 -您会看到所有突出显示的差异以供审核。假设对方给你发来了一份合同,对方打印了该合同,手动签名,然后扫描回去以PDF格式发送给您,或用信封邮寄给您。现在,您想确保条件保持不变–由于有了OCR,您只需用FineReader PDF打开合同的PDF扫描版本,并将其与Word中的最终版本进行比较,其余的将自动完成。


自己看看:在你的日常工作中试用ABBYY FineReader PDF 15,体验一下AI驱动的OCR技术使PDF工具有什么不同之处。

产品技巧
电子邮件订阅

您的订阅成功!

联系我们
ABBYY免费在线识别服务

试试OCR工具