所有刊物

如何测试OCR SDK —— 第三部分

亲爱的读者,

希望您身体健康
请欢迎“如何测试OCR SDK”的第三部分:

如何计算精度

有几种方法可以计算一组文档的平均准确度:

  1. 确定被正确识别的符号/单词在整个测试文档中占的百分比。
  2. 首先计算在每个文档中找到多少个正确的符号/单词,然后计算一组中全部文档的平均百分比。
  3. 对于多页文档:首先分别测量每页的准确度,然后计算文档中所有页面的平均准确度,最后是计算测试集中所有文档的平均准确度。

还有一个值得一提的方面 —— 错误处理逻辑。 通常,每个未正确识别的符号/单词将意味着被减1分。 然而,某些类型的错误不那么重要甚至可以忽略,而其他类型的错误可能在计划的处理场景中会产生严重后果,并且应该减超过 1 分来处理。

选择合适的方法:计算方法和错误处理逻辑的选择取决于预期方案。

可搜索的PDF。 如果将您的方案转换为可搜索的PDF,最好首先计算每个文档中找到的正确识别的符号/单词的百分比,然后计算一组中所有文档的平均百分比。 重要的是要了解用户能够找到多少包含特定关键字的文档。 错误处理:错误处理逻辑中应忽略标点符号,因为它不用于搜索。

数据捕获。 对于此方案,最好计算正确识别的关键字的百分比和在每个文档中找到的正确提取的字段值,然后计算集合中所有文档的平均百分比。 通过这些数字,您可以了解以100% 精确自动捕获的文档的数量以及需要审核的字段数量。

对于文档内关键字段值中发现的错误,结果应该更严格地处理。 另一方面,如果可以正确地找到这些关键词并且这些错误在一个文档到另一个文档中或多或少地存在重复错误,则用于定位字段的关键字中的错误就不那么关键了。 这些关键词后来可以使用 Two-Pass OCR方法重新OCR 扫描。

可编辑的格式。 对于这种情况,建议计算多少单词、表格、页脚等等,对于集合中所有被正确识别的文档,在计算每个文档的这些度量标准时是没有用的,因为在这种情况下唯一重要的事情是估计使用应用程序的用户总共需要做多少次更正。

衡量速度

记住 OCR 过程需要以下步骤很重要:

  1. 初始化引擎
  2. 图像处理 (包括预处理,分析,识别和合成)
  3. 取消初始化引擎

这些步骤中的每一个都可能显著影响最终速度标准。 但是,并非所有这些步骤都适用于所有方案。

例如,当一次处理大量文档 (批处理) 时,不需要为每个文档初始化引擎,因此不需要测量每个文档处理的初始化时间。如果在处理中图像将通过RAM传输进行处理 (以确保高速),那么应在测试算法中实现相同的逻辑。在这种情况下从磁盘打开图像时,就不适用于测试的条件,因为最终速度标准会有很大差异。

这就是为什么只测量您在处理中预期的那些步骤的速度很重要。 小提示:

  1. 为了获得更可靠的结果,建议多次运行速度测试并计算平均时间,因为根据与操作系统的交互,结果可能会有多个百分点变化。
  2. 始终使用您要在工作中处理文档的真实样本,在现实生活中进行测试。 例如,如果您计划处理BMP文件,请不要在测试集中使用JPG文件,因为速度可能会有很大差异。
  3. 确保您正在学习在测试的OCR SDK的API、代码示例和教程 (如果有)、以了解它为速度优化提供的工具 (例如,对象重用)。 如果速度对您至关重要,需要根据您的需要进行优化,切勿使用引擎的默认设置。
  4. 尝试各种设置以查看可以关闭的选项以提高运行速度。

仅剩一部分。 敬请关注!
如有任何疑问,请填写 我们的网站 上的表格或联系您的销售经理。

ABBYY 技术 产品新版本
电子邮件订阅

您的订阅成功!

联系我们
ABBYY免费在线识别服务

试试OCR工具