How to test ocr sdk part 3

文档人工智能

智能文档处理

Vantage

面向数字劳动力的智能文档处理平台

FlexiCapture

撷取任何文档中的数据，包括但不限于结构化表格、调查、非结构化文本密集型论文

市场

预训练人工智能提取模型、连接器等

光学字符识别

FineReader AI

将人工智能驱动的光学字符识别功能集成到您的应用程序中。

所有产品

流程人工智能

流程理解

时间表流程探索

根据实际业务数据了解流程的实际工作方式。

时间表流程分析

预先构建分析工具，以实现对流程的详细理解。

流程优化

时间表流程监控

监控每个流程，以发现问题并采取行动。

时间表流程预测

高级人工智能可预测潜在的不良后果。

时间表流程模拟

使用流程历史来构建数字孪生

库

探索

资源中心

白皮书、分析师报告、信息图表等。

客户故事

了解我们的客户如何使用ABBYY来改进业务，实现业务的现代化。

见解

智能企业

商业和技术领导者的见解与观点。

ABBYY博客

关于智能自动化、数字化转型和未来工作的最新故事。

视频教程

加入我们，了解更多关于ABBYY智能自动化解决方案的信息。

对于开发人员

社群

向专家了解智能自动化的最新趋势。

文档

成功部署并使用ABBYY产品所需的一切事物。

最有价值专业人士（MVP）

这是一个授予在ABBYY人工智能领域展现出卓越专长的开发人员的杰出称号。

实施

专业服务

为您的智能自动化之旅提供专家支持。

培训和认证

投资ABBYY智能自动化解决方案，获取丰厚回报。

返回 ABBYY 博客

如何测试OCR SDK —— 第三部分

March 03, 2020

亲爱的读者，

希望您身体健康

请欢迎“如何测试OCR SDK”的第三部分：

如何计算精度

有几种方法可以计算一组文档的平均准确度：

1. 确定被正确识别的符号/单词在整个测试文档中占的百分比。

2. 首先计算在每个文档中找到多少个正确的符号/单词，然后计算一组中全部文档的平均百分比。

3. 对于多页文档：首先分别测量每页的准确度，然后计算文档中所有页面的平均准确度，最后是计算测试集中所有文档的平均准确度。

还有一个值得一提的方面 —— 错误处理逻辑。通常，每个未正确识别的符号/单词将意味着被减1分。然而，某些类型的错误不那么重要甚至可以忽略，而其他类型的错误可能在计划的处理场景中会产生严重后果，并且应该减超过 1 分来处理。

选择合适的方法：计算方法和错误处理逻辑的选择取决于预期方案。

可搜索的PDF。如果将您的方案转换为可搜索的PDF，最好首先计算每个文档中找到的正确识别的符号/单词的百分比，然后计算一组中所有文档的平均百分比。重要的是要了解用户能够找到多少包含特定关键字的文档。错误处理：错误处理逻辑中应忽略标点符号，因为它不用于搜索。

数据捕获。对于此方案，最好计算正确识别的关键字的百分比和在每个文档中找到的正确提取的字段值，然后计算集合中所有文档的平均百分比。通过这些数字，您可以了解以100％精确自动捕获的文档的数量以及需要审核的字段数量。

对于文档内关键字段值中发现的错误，结果应该更严格地处理。另一方面，如果可以正确地找到这些关键词并且这些错误在一个文档到另一个文档中或多或少地存在重复错误，则用于定位字段的关键字中的错误就不那么关键了。这些关键词后来可以使用 Two-Pass OCR方法重新OCR 扫描

可编辑的格式。对于这种情况，建议计算多少单词、表格、页脚等等，对于集合中所有被正确识别的文档，在计算每个文档的这些度量标准时是没有用的，因为在这种情况下唯一重要的事情是估计使用应用程序的用户总共需要做多少次更正。

衡量速度

记住 OCR 过程需要以下步骤很重要：

1. 初始化引擎

2. 图像处理 (包括预处理，分析，识别和合成)

3. 取消初始化引擎

这些步骤中的每一个都可能显著影响最终速度标准。但是，并非所有这些步骤都适用于所有方案。

例如，当一次处理大量文档 (批处理) 时，不需要为每个文档初始化引擎，因此不需要测量每个文档处理的初始化时间。如果在处理中图像将通过RAM传输进行处理 (以确保高速)，那么应在测试算法中实现相同的逻辑。在这种情况下从磁盘打开图像时，就不适用于测试的条件，因为最终速度标准会有很大差异。

这就是为什么只测量您在处理中预期的那些步骤的速度很重要。小提示：

1. 为了获得更可靠的结果，建议多次运行速度测试并计算平均时间，因为根据与操作系统的交互，结果可能会有多个百分点变化。

2. 始终使用您要在工作中处理文档的真实样本，在现实生活中进行测试。例如，如果您计划处理BMP文件，请不要在测试集中使用JPG文件，因为速度可能会有很大差异。

3. 确保您正在学习在测试的OCR SDK的API、代码示例和教程 (如果有)、以了解它为速度优化提供的工具 (例如，对象重用)。如果速度对您至关重要，需要根据您的需要进行优化，切勿使用引擎的默认设置。

4. 尝试各种设置以查看可以关闭的选项以提高运行速度。

仅剩一部分。敬请关注！

如有任何疑问，请填写我们的网站上的表格或联系您的销售经理

Contact-us

如何测试OCR SDK —— 第三部分

如何计算精度

衡量速度

订阅博客更新

大型语言模型与小型语言模型之比较

文档分类：具体步骤及其为何重要

什么是业务流程分析：分步指南

与我们联系

学习有关该提供商的更多信息

学习有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

如何测试OCR SDK —— 第三部分

如何计算精度

衡量速度

订阅博客更新

大型语言模型与小型语言模型之比较

文档分类： 具体步骤及其为何重要

什么是业务流程分析： 分步指南

与我们联系

Youku.com 1 学习 有关该提供商的更多信息

abbyy.cn 3

hsforms.com app-sj20.marketo.com 3

www.recaptcha.net 5

Youku.com 3 学习 有关该提供商的更多信息

Alibaba.com 2 了解有关该提供商的更多信息

Google 4 了解有关该提供商的更多信息

Youku.com 3 了解有关该提供商的更多信息

mmstat.com youku.com2

www.abbyy.cn 1

Alibaba.com 3 了解有关该提供商的更多信息

Baidu 9 学习 有关该提供商的更多信息

Google 4 学习 有关该提供商的更多信息

Taobao.com 1 学习 有关该提供商的更多信息

Youtube 2 有关该提供商的更多信息

Youku.com 21 学习 有关该提供商的更多信息

www.recaptcha.net 1

AABBYY 1 学习 有关该提供商的更多信息

Baidu 1 学习 有关该提供商的更多信息

Youku.com 7 学习 有关该提供商的更多信息

www.abbyy.cn 10

文档分类：具体步骤及其为何重要

什么是业务流程分析：分步指南

学习有关该提供商的更多信息

学习有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息