ABBYY FineReader Engine 11I提供文件自动分类API, 它可以将文档分类和排序到预先定义的文档类型。
分类的结果是:探测到的文件类型和文件所属的类别。分类的概率可以是为如何继续分类的文件处理提供方便,例如,是否要重新手动分类文件或者将文件发送到正确的部门。

分类是基于OCR识别,以及通过语言和统计技术基础来执行的,这保证了很高的准确性和普遍性。分类程序包括两个主要步骤:
-
创建一个分类数据库
收集一个文档类型的几个图像。每种类型的代表必须有类似的外观(类似的元素布局)。接着这些图像用于创建分类数据库。
-
分类文件
扫描或加载文件以后,它们是用以前确定的分类数据库来进行识别与分类的。每次您要添加新的或改变现有的文件类型,您可以更新分类数据库。开发人员可以整合这个功能到他们的应用程序,并提供一个自定义的图形用户界面 (GUI)。
常见的使用场景:
- 打包:分类文档为建立电子资料库。
- 工作数字邮件和流程自动化,对所有在公司收到的邮件进行分类。
- 批处理: 文档分割。
- BPO:为进一步处理进行文件预分类。
- 银行/保险:检查文件的完整程度,可以应用于贷款申请和保险的付款凭证。
- 原始设备制造商:智能MFP/扫描器界面,为每个文档类建议典型动作。
分类模式:
-
最快速度模式
这种模式基于图片类型(包括黑色像素定位模板),快速OCR文本分析。它比常规的全文OCR,速度快10倍*。
*根据ABBYY内部测试结果
-
最高精度模式
这种模式基于全文OCR。它分析文档整个结构,包括标题和关键字,用于训练时的探测。