How to test ocr sdk part 2

文档人工智能

智能文档处理

Vantage

面向数字劳动力的智能文档处理平台

FlexiCapture

撷取任何文档中的数据，包括但不限于结构化表格、调查、非结构化文本密集型论文

市场

预训练人工智能提取模型、连接器等

光学字符识别

FineReader AI

将人工智能驱动的光学字符识别功能集成到您的应用程序中。

所有产品

流程人工智能

流程理解

时间表流程探索

根据实际业务数据了解流程的实际工作方式。

时间表流程分析

预先构建分析工具，以实现对流程的详细理解。

流程优化

时间表流程监控

监控每个流程，以发现问题并采取行动。

时间表流程预测

高级人工智能可预测潜在的不良后果。

时间表流程模拟

使用流程历史来构建数字孪生

库

探索

资源中心

白皮书、分析师报告、信息图表等。

客户故事

了解我们的客户如何使用ABBYY来改进业务，实现业务的现代化。

见解

智能企业

商业和技术领导者的见解与观点。

ABBYY博客

关于智能自动化、数字化转型和未来工作的最新故事。

视频教程

加入我们，了解更多关于ABBYY智能自动化解决方案的信息。

对于开发人员

社群

向专家了解智能自动化的最新趋势。

文档

成功部署并使用ABBYY产品所需的一切事物。

最有价值专业人士（MVP）

这是一个授予在ABBYY人工智能领域展现出卓越专长的开发人员的杰出称号。

实施

专业服务

为您的智能自动化之旅提供专家支持。

培训和认证

投资ABBYY智能自动化解决方案，获取丰厚回报。

返回 ABBYY 博客

如何测试OCR SDK —— 第二部分

January 27, 2020

大家好！

假期过后很高兴认识您！春节快乐！

我们已经准备了文章”如何测试OCR SDK”的第二部分：精度测量

如何将OCR结果与原始文本进行比较

有几种方法可以将OCR结果与原始文本进行比较：

1. 肉眼估计。评审OCR测试结果并以某种方式对其进行评级。优点：此方法速度快，您可以从列表中取消选择最不合适的OCR引擎。局限性：因为这样操作太耗时间，无法在数百张图片上进行。因此，您无法统计得到可靠的测试结果

2. 跟踪Microsoft Word中的更改。优点：该方法适用于少量文档的测试。局限性：测试量低，结果不可靠。除源文档外，还需要具有DOCX文件格式的原始文档，以便将它们与OCR结果进行比较。

3.Peek-a-Boo。优点：此方法可以将文件转化为可编辑格式，并且适合测试OCR引擎提供的布局保留。局限性：仅适用于少量测试，并且测试结果不可靠。我们强烈建议您不要使用此方法进行数据捕获。

4. 已验证的源图像基础 + 已解析的结果转换为XML格式 (参考数据) 。优点：此方法将为您提供最具统计可靠性的结果。它独立于语言，适合大批量测试。局限性：此方法需要一些额外的时间来准备测试基础

在本文章中，我们采用第四种方法描述精度测量，因为它提供了最可靠和可重复的结果。

衡量什么

有几种方法可以衡量准确度：

1. 通过计算正确识别的符号 (字符) 的百分比。

2. 通过计算正确识别的单词的百分比。只有在单词中的所有字符都被正确识别时，才认为该单词被正确识别。注意：对于方法1和2，您将需要包含具有正确字符的参考数据作为测试基础。

3. 通过计算文档结构的正确检测率。注意：对于最后一种方法，在您的测试基础参考数据除了需要包含正确的字符以及它们的坐标信息外，还需要包含每个文档的结构信息。这些可以在 XML 中通过特殊实体指定的页眉、页脚、文本列、打印体、图像对象、背景等被定义。

字符错误率可以这样计算：

CER = (S+D+I)/N = (S+D+I)/(S+D+C)

变量说明：

S 是替换的数量，
D 是删除的数量，
I 是插入的数量，
C 是更正的数量，
N 是参考数据中的字符数量（N = S + D + C）。

单词错误率可以这样计算：

WER = (S+D+I)/N = (S+D+I)/(S+D+C)

变量说明：

S 是替换的数量，
D 是删除的数量，
I 是插入的数量，
C 是更正的数量，
N 是参考数据中的字符数量（N = S + D + C）

在此查看更多信息 (https://en.wikipedia.org/wiki/ Word_error_rate)。

要计算S，D，I和C，您需要计算LevenshteinDistance，比如借助以下算法：

// len_s and len_t are the number of characters in string s and t respectivelyint LevenshteinDistance (const char *s, int len_s, const char *t, int len_t)
{
int cost;
/* base case: empty strings */
if (len_s == 0) return len_t;
if (len_t == 0) return len_s;
/* test if last characters of the strings match */
if (s[len_s - 1] == t[len_t - 1])
cost = 0;
else
cost = 1;
/* return minimum of delete char from s, delete char from t, and delete char from both */
return minimum(LevenshteinDistance(s, len_s - 1, t, len_t ) + 1, /*insertions*/
LevenshteinDistance(s, len_s , t, len_t - 1) + 1, /*deletions*/
LevenshteinDistance(s, len_s - 1, t, len_t - 1) + cost); /*substitutions*/
}

在此处查看更多信息(https://en.wikipedia.org/wiki)。

建议仅在单词的顺序清晰时才应用此算法。例如，将其应用于在页面上检测到的文本块，但不应用于整个页面。

对方法的选择取决于您的项目或者测试场景，然后选取最优方法。

可搜索的PDF。

如果要将图像转换为可搜索的PDF，则应计算单词的正确识别百分比，因为最终用户将使用单词来检索整个 OCR 结果，而不是通过符号来检索。

可编辑的格式。如果要将图像转换为DOCX，XLSX等，则需要计算正确识别的符号的百分比并评估布局的保留水平。

数据捕获。如果要基于OCR结果实现自己的数据捕获，最好计算正确识别的单词的百分比。或者，分别计算正确识别的字段的百分比和有错误的字段中的平均错误数可能会更好。这将给出需要手动编辑的字段数量以及每个字段需要编辑的数量。

对于数据捕获，定义重要的文档是一个不错的办法。例如，不需要特别识别发票上的页脚，但找到“发票日期”和“总计”等字段至关重要。牢记这一点将使您能够确定哪个OCR引擎可以更好地满足您的特定任务。

数据捕获通常需要比其它方案有更高的准确性。在数据捕获方案中，参考数据应包括用于定位这些字段的字段和这些字段的关键字。

如有任何疑问，请填写我们的网站上的表格或联系您的销售经理。

Contact-us

如何测试OCR SDK —— 第二部分

如何将OCR结果与原始文本进行比较

衡量什么

可搜索的PDF。

订阅博客更新

大型语言模型与小型语言模型之比较

文档分类：具体步骤及其为何重要

什么是业务流程分析：分步指南

与我们联系

学习有关该提供商的更多信息

学习有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

如何测试OCR SDK —— 第二部分

如何将OCR结果与原始文本进行比较

衡量什么

可搜索的PDF。

订阅博客更新

大型语言模型与小型语言模型之比较

文档分类： 具体步骤及其为何重要

什么是业务流程分析： 分步指南

与我们联系

Youku.com 1 学习 有关该提供商的更多信息

abbyy.cn 3

hsforms.com app-sj20.marketo.com 3

www.recaptcha.net 5

Youku.com 3 学习 有关该提供商的更多信息

Alibaba.com 2 了解有关该提供商的更多信息

Google 4 了解有关该提供商的更多信息

Youku.com 3 了解有关该提供商的更多信息

mmstat.com youku.com2

www.abbyy.cn 1

Alibaba.com 3 了解有关该提供商的更多信息

Baidu 9 学习 有关该提供商的更多信息

Google 4 学习 有关该提供商的更多信息

Taobao.com 1 学习 有关该提供商的更多信息

Youtube 2 有关该提供商的更多信息

Youku.com 21 学习 有关该提供商的更多信息

www.recaptcha.net 1

AABBYY 1 学习 有关该提供商的更多信息

Baidu 1 学习 有关该提供商的更多信息

Youku.com 7 学习 有关该提供商的更多信息

www.abbyy.cn 10

文档分类：具体步骤及其为何重要

什么是业务流程分析：分步指南

学习有关该提供商的更多信息

学习有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

了解有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息

学习有关该提供商的更多信息