免费截图识别

如何测试OCR SDK —— 第一部分

亲爱的读者,
我们准备了一系列有关如何测试OCR SDK的文章。 请欢迎第一部分:

介绍

选择软件开发工具包 (SDK) 是一项非常重要的任务,因为在选择阶段做出的任何决策都会对您的应用程序和业务产生长期影响,并且在后期更换技术时可能会伴随着诸多困难。因此,必然要进行详尽而周密的测试和评估过程。但是,由于以下原因,可能对 OCR SDK 产品的评估赋予了挑战:

  1. 为了测试 OCR 引擎,您需要一个测试工具和一个大型样本图像数据库。
  2. 目前有很多 OCR 供应商提供多种 SDK 解决方案,虽然已经有一些来自可靠来源的公开测试,但是这些大多是在一些普遍情况下进行的测试,学术性比实际性要更高。实际具有适用性的测试结果应该是在现实条件下由计划用例来确定的。我们将在下面详细讨论这个问题。
  3. 必须要用多种语言测试多个参数:词汇水平、符号准确度、Office 文件格式的保留、创建PDF 文件的大小等等。有些参数可以自动化测试,而剩下的参数只能用眼睛检查。对于不同的任务或者场景,您可能需要测试不同的参数。
  4. 为了针对特定任务调整OCR 引擎,在大多数情况下,开发人员应该至少具有OCR技术的基本知识。

开始之前

由于无法凭空测算 OCR SDK 的关键特性,所以并没有一个明确的答案来衡量特定 OCR SDK 的准确性。正如汽车的速度和效率有时取决于道路条件或燃料质量一样,OCR SDK的准确性和速度完全取决于任务和技术条件,例如服务器参数、操作系统、场景、文档类型,文档质量等等。

图像库

首先,您需要准备一个图像库进行测试。以下是需要记住的关键事项:

  1. 庞大的图像库。您需要有足够大的图像库,为了获得高度可靠的结果,我们建议您收集几千张图像。 如果这太复杂的话,至少也要收集几百张图像,因为图像的数量会影响测试结果的可靠性。如果您的测试文件只包含 100 页文档,则单个文档页面已占1% 的准确度,这样会对整体精度测试结果有很大影响 (如果您在文档中进行测试,请参阅“如何计算精度”) 。
  2. 文件类型。 收集与您将在识别中处理的文档类型相对应的图像。 例如,如果您要处理发票,收集发票文档样本,如果您计划处理协议,则收集协议文档样本等。这一点很重要,因为不同的OCR引擎可以更好的处理不同类型的文档 (因为最初在不同的工作场景下创建了不同的 OCR 引擎) 。 我们建议在测试中使用与识别转换中相同比例的文档类型。 这将更加贴近您在后续识别任务中可以预测的准确率。
  3. 图像源 (包括:扫描文档、手机照片、不同类型的PDF) 。 仅对捕获的图像进行测试,方法与在识别过程中捕获的图像相同。 举例来说,如果您使用扫描文档来测试 OCR SDK ,而您在工作中处理的是智能手机拍摄的照片,这样是不起作用的。 原因是相同的:不同的OCR引擎可以更好地处理来自不同来源的文档。
  4. 真实的文档。 测试OCR引擎的最佳方法是对要在工作中处理的文档的实际样本进行测试。使用专为测试而人工创建的假文档来测试OCR引擎并不会产生实际结果。 另外,请避免使用作为一个OCR SDK的测试基础的图像库来测试另一个OCR SDK。 每个供应商都会为您提供他们产品相关的 OCR 图片,甚至为您提供他们调整 SDK的文档。采用同一组测试文件的其他供应商的产品测试结果可能会很糟糕。

如有任何疑问,请填写 我们的网站 上的表格或联系您的销售经理。

ABBYY 技术

电子邮件订阅

您的订阅成功!

我知道可以随时通过单击从ABBYY Solutions Ltd.或通过ABBYY数据主体访问权限表收到的任何电子邮件中的取消订阅链接来撤销我的同意。

您已成功訂閱!

請檢查信箱並確認您的訂閱。若您在幾分鐘內都未看見電子郵件,請檢查垃圾郵件資料夾。

联系我们