免费截图识别

FineReader Engine 12 新版本中最需要的特性之一 是“比较文档”功能

在处理纸质文档时,您需要找到并纠正错误或特意进行的更改。FineReader Engine 12 新版本中最需要的特性之一 是“比较文档”,功能可集成到企业软件中,用户可使用该功能自动检测两个文档版本之间的内容差异,从而快速跟踪变更、验证文档完整性或预防欺诈。请阅读这篇文章,探讨它为什么很棘手,它是如何工作的,以及您如何能使用它。  

一般来说比较任何格式的两个文档时,都要尽量减少错误差异。另外,就是不能漏掉两个文档之间的任何实际差异。 

造成错误差异主要有三个原因:

造成两个文档比较时产生错误差异的第一个原因是,同一文本的格式不同,或在页面中的位置不同,但文本在文件中出现的总体顺序没有改变。第二个原因是页眉/页脚或插入的文字在不同位置打断正文。这两种情况都可能是由于其中一个文档被编辑,或者修改了版面布局,比如设置了不同的页边距。对于这两种情况,您可能已经猜到了解决方案,那就是获取并使用文档结构信息,即通过 OCR 重建结构。然而,还有另外一个原因也会造成错误差异,那就是 OCR 精度。一般来说,OCR 并非 100% 准确。关于这个问题,我们稍后再作讨论。

考虑与不考虑文档结构有何区别?

上面截图的两个文档中只存在一处真正的差异。左边的文档中有一条脚注,而右边的文档没有。其余的文本都是一样的,但在各页之间的分布有所不同(请看两个文档中第 4 节的开头)。 


下面的截图中同样是这两个文档,是在不考虑文档结构的情况下进行对比:

可以看到,只存在一处真正的差异,然而错误差异却多达四处。错误差异会浪费我们的时间和精力,导致专注度和工作效率下降。所以,我们要尽量减少错误差异。

总而言之,如果我们简单地从数字 PDF 文档或扫描件中提取文本进行比较,有可能产生许多错误差异,因为没有而且不能考虑文档结构。这包括文本在页与页之间的衔接方式可能不同,可能被不属于正文的页眉和页脚打断等等。 

只是简单地从 PDF 文档中提取文本的另一个问题是,PDF 文档的文本层并不一定准确或可用。

有真正有效的解决方案吗?

我们在上面讲到了通过 OCR 了解文档结构对于准确比较数字文档的益处,以及 OCR 错误识别差异带来的挑战,然而要解决文本层质量的问题,最好还是使用 OCR……那么,有没有什么真正有效的解决方案可以解决所有这些难题呢?

当然有,那就是巧妙利用 OCR。尽可能多地从 PDF 文档中提取数字文本,最大程度减少字符识别的使用,同时使用足够的文档结构信息正确识别要比较的内容和确定比较的顺序。

下面是比较数字 PDF 文档的流程:

1 扫描文件或图像的预处理 

如果文件及其副本包含一些缺陷或特意做的标记,如签名或盖章,则需要在识别之前进行一些预处理。适用于多种文档格式,例如 Word、Excel、PowerPoint、PDF 和 JPEG、TIFF、PNG 以及其他图像格式,能够比较数字文件与打印版本。

2 完全恢复文档结构和格式的识别  

当识别文档时,文件的各种布局元素(文本、表格、图像、分隔符等)被识别。识别文档的各种布局元素(文本、表格、图像、分隔符等)。在文档合成的过程中,文档的逻辑结构被恢复,而页面合成可以完全恢复文档的格式(字体、样式等)

3 文件或页面比较

要将文档或页面与其副本进行比较时,使用通过ABBYY FineReader Engine 识别的文档。您可以使用跨不同格式的文件的两个版本。比较之后,您会得到带有变化列表的结果,用它来检索有关变化的位置的信息。仅报告“真实”内容变更(变更、删除或添加文本),忽略文档格式变化,避免用户的注意力偏离“真正的”内容变化。如果您使用手动验证,使用这些信息来强调文本的变化,从而使操作员的工作更容易。

4 导出到外部格式

您也可以把比较结果保存为XML和在 "跟踪变更" 模式中作为Word文档。比较结果包含有关内容类型(仅文本)、修改类型(删除、插入或修改)及其在原件和副本中的位置差异的信息。您也可以得到检测到的差异列表或任何变化的区域,并将比较结果保存到一个外部文件,以便进一步处理或长期保存。

文档比较演示工具也说明了下面描述的过程。您可以通过提交这里的免费试用表单来访问它。 

https://www.abbyy.cn/ocr-sdk/#request-demo 

销售专员将会及时与您取得联系并提供试用版的下载链接。如果您没有收到回复,您也可以通过微信和我们联系。

这项技术可以集成到用于联系人管理、客户关系管理、内容管理的软件解决方案或归档系统中,也可以集成到法律部门的各种解决方案中,以增强功能并为用户提供附加价值。最后,查看一下使用场景。

业务谈判:向各种业务合作伙伴发送商业提案后,可以快速将新提案与原始提案进行比较。即便并未明确标注,也能轻松跟踪版本之间的差异。

文档管理与归档:可以比较同一个文档的两个版本,快速发现差异和跟踪变更,或确定最新文档版本 – 即便在文档的编辑和修正流程期间并未记录修订内容,也不妨碍其发挥作用。

确保文档完整性:如果文档的完整性至关重要(例如与另一方签订合同),可以利用该功能轻松比较收到的文档与原件,并立即发现可能存在的不一致之处。

以上对ABBYY FineReader Engine 的这一强大专业的文件比较功能做了简单的介绍,此时相信大家都对这款软件有了比较初步的认识。现在 ABBYY 正在进行12.12优惠活动:FineReader Engine 12 工具包企业套餐, 包括:1个开发许可证(Developer license) 和 1个运行 (Runtime) 许可证 (3 年内 20万页数)。总价:3 900 美金。本活动12月31日结束。

ABBYY 技术 开发经验

电子邮件订阅

您的订阅成功!

我知道可以随时通过单击从ABBYY或通过ABBYY数据主体访问权限表收到的任何电子邮件中的取消订阅链接来撤销我的同意。

您已成功訂閱!

請檢查信箱並確認您的訂閱。若您在幾分鐘內都未看見電子郵件,請檢查垃圾郵件資料夾。

联系我们