由于病历卡在处理队列中,某患者的治疗被严重延误,情况十分危急。 因无人及时指出相关文件的错误,合规团队被处以罚款。 这些问题往往在业务流程刚开始时就已显现,当一份文档送达时,必须有人对文档内容及其分发路径做出判断。 所有基于文档的工作流程都以此(即文档分类)为起点,它决定着后续所有环节的走向。
分类听起来很简单,但文档往往以数十种格式和语言呈现,必须先根据内容和上下文对其进行查阅、解读和识别,才能将其分发到正确的位置。 要实现这一流程的自动化,需要专门为此任务设计的智能技术。
例如,ABBYY 的 Document AI 能够以一致且可解释的方式,对 200 多种语言的结构化与非结构化内容进行分类。 我们来看看什么是文档分类、文档分类的具体步骤,以及它为什么是智能文档处理流程中不可或缺的一步。
什么是文档分类?
文档分类指依据类型识别和整理文档,然后将每份文档送至正确工作流程的过程。 此为决策层,决定着基于文档的流程如何开始。 实现自动化后,分类技术会确定文档的类型,并将其分发至正确的数据提取模型以供进一步处理。
文档分类的方法
文件分类需要的不仅仅是一项通用的技术。 为了在处理企业收到的各类文档时保持灵活性和精准度,必须采用一个整合了多种方法的更专业的框架。 有三种核心方法,分别是:
- 基于规则的分类:
依靠预定义的规则或模板(例如标准化表单中的发票抬头)来识别文档类型。 当文档格式一致且可预测时,这种方法效果很好。 - 基于 AI 的分类:
利用专用 AI 模型根据上下文、内容和版式识别文档,即使是非标准或非结构化格式的文档也不例外。 例如,ABBYY Document AI 由 PHOENIX 提供技术支持,后者是一套专用 AI 模型组合,可同时分析文本和视觉元素,对文档的理解深度超过大型语言模型 (LLM)。 - 人工干预的验证:
当业务规则要求人工核验,或系统将某项结果标记为需要人工检查时,审核人员即会介入。 该反馈会被重新输入回系统,以便随着时间的推移提高结果的准确性。
ABBYY Document AI 将这三种方法整合到一个混合框架中。 当一致性至关重要时,规则就会派上用场;PHOENIX AI 模型能够处理复杂或经常更新的内容,而人类的专业知识则能不断提升系统的准确性。 企业无需在多种方法之间做选择,系统会自动将合适的方法应用于对应的文档。
文档分类对企业运营的好处
随着数字时代企业的信息量激增,信息的复杂度亦不断提升,推动分类流程自动化、提高文档处理的速度和准确性已然成为一项迫切的业务需求。 正是这一机制,使得数据能够毫无延迟地传输至需要的位置,并让时间敏感型信息得以更快地呈现。
智能文档分类可助力企业:
- 缩短周期时间,提高处理直通率:
文档自动进入正确的工作流程,无需人工干预即可更快地将信息传输到对应的环节。 - 降低每份文档的处理成本:
自动化可减少会推升处理成本的人工操作和人工决策时间。 - 提升整理和搜索能力:
自动识别每份文档并将其分发至正确的工作流程或系统,以便日后更轻松地查找和处理。 - 提高准确率:
一致且自动化的分类能够最大限度地减少人为错误或信息错置的可能性。 - 降低合规风险:
按照既定规则处理和存储文档,以便在审计时能够轻松追溯。 - 提高工作效率:
员工从重复性的分类工作中解放出来,从而专注于更有价值的工作。 - 持续学习:
通过人工干预的反馈机制,自动化分类系统能够持续学习,从而随着时间的推移提高自身的准确性。
文档分类的具体步骤
第 1 步: 制定分类策略。
确定进入您公司的文档类型。 对于采用标准化可预测格式的数据,适用于预定义模板和标准的基于规则的分类方法最为合适。 对于更复杂或内容经常更新的文档,请准备可用于训练 AI 模型的示例。
第 2 步: 训练模型。
ABBYY 的 PHOENIX 技术分析示例文档的文本及版式,识别出每个文档特有的关键特征。 后续需依据这些特征将文档准确分类。 您可以在高召回率与高精确率之间找到平衡点,并利用内置的数据验证工具来测试模型的质量,从而优化模型。
第 3 步: 分类、分发和优化。
每份新收到的文档都会获得一个概率或置信度评分,这个评分决定着该文档是自动转至下一步,还是被标记为需要人工审核。 随后,这些人工反馈会被重新输入回系统,以持续提高准确性。
文档分类用例
越快识别出文档是什么,就能越快采取行动。 文档分类因此成为许多企业工作流程的核心,无论其身处哪个行业。
医疗保健
单个患者的电子健康记录 (EHR) 可能长达数百页。 通过自动对包含 EHR 数据的文档进行分类,医疗机构不仅能更快地更新病历,还能减轻医护人员的行政工作负担。
我们以全球性的科技公司 3M 为例。该公司将 ABBYY Document AI 集成到其健康信息系统 (HIS) 中,以扩展 3M 360 Encompass 软件套件的功能。 该解决方案现已集成扫描文档的文本识别功能,因此系统可自动为诊断报告、手术记录、出院摘要及其他文档分配标准化代码,从而简化计费工作流程。
银行和金融服务
金融机构通常需要核查贷款和信贷申请的相关文件,尤其是为了确保合规。 自动文档分类技术可用于识别所提交的每份文档,以更低的出错率提取关键数据,对照预定义的标准进行验证,并快速将其分发至审批环节。
人力资源
文档分类可帮助人力资源团队自动整理和管理员工档案、应聘者简历、合同以及其他需要存入大型文档库的文档。 实现这个流程的自动化之后,可以更轻松地高效搜索和查找必要的信息,以进行人力规划和履行其他人力资源职能。
政府及公共部门
许多公共机构会收到大量信函,尤其是在高峰期。 文档分类有助于将所有这些信息分发至正确的工作流程。 在机构对记录或信息系统进行现代化改造时,还可使用该技术迁移数据和内容。
AI 如何让企业文档分类框架可扩展
在 AI 出现之前,文档分类完全基于规则,有明确的模板和标准。 文档的格式和版式必须保持一致,规则才有效。
但实际上,文档千差万别。 如果仅依赖基于规则的系统,则一旦版式或格式出现变动,或者出现任何法规或流程变更,导致文档需要修改,团队都必须重新配置分类规则。
随着数字时代到来,文档类型日益增多,包括扫描的 PDF 文件、电子表格、电子邮件、移动端上传资料等,种类之繁多已远远超出任何预定义规则所能独立处理的范围。
基于规则的分类方法仍然发挥着重要作用,对文档进行标准化时,其在准确性和一致性方面的表现尤为出色。 但如今,您可以训练 AI,让其将内容、上下文和版式结合起来解读,像人类一样理解文档。 通过第三层“人机干预的验证”,审核人员仅在需要人工确认或输入时介入,并将其专业意见反馈给系统,从而帮助系统持续自动改进。
采用这种混合方法之后,ABBYY 大幅提升了文档处理的准确度和相关性,同时实现企业级可解读性、透明度和一致性,这些都是通用大型语言模型无法比拟的。 基于规则的逻辑、专为特定目的而设计的 AI 以及持续的人工反馈相结合,形成一个可扩展的分类框架,即使文档和业务流程变得越来越复杂,该框架也能自如应对。
针对复杂企业工作流程的智能文档分类
文档变得越来越复杂多样。 合同和信函通过数十个数字渠道源源不断地涌入,而当初为管理这些文档而开发的基本工具已无法应对如此庞大的数据量。
ABBYY Document AI 能够对任何类型的文档进行分类,确保重要信息不会在海量数据中丢失。 不同于经过调整才用于处理文档的通用型 AI 系统,其技术一开始就是专为文档处理而开发,能够为每项任务匹配合适的模型。 我们的系统由专门构建的 AI 基础架构 PHOENIX 提供支持,能够以企业级规模读取和理解您的文档。 借助这项智能技术,您可以对所有文档自动执行端到端流程。
这意味着所获得的结果对于您的关键工作流程而言是准确、可解释且一致的。 由于这些功能构建在统一的技术层之上,随着平台的不断发展,流程改进将惠及 ABBYY Document AI 的整个产品组合: 随着平台的发展,Vantage、FlexiCapture 和 FineReader Engine 等工具也在不断演进。
请联系我们的专家,了解 ABBYY 可如何助您实现智能自动化。
常见问题
基于 AI 的分类技术如何优化文档分发?
基于 AI 的文档分类技术能够读取并理解内容及上下文。 这项智能技术能够更准确地对文档(包括 PDF 扫描件、电子邮件以及以非预期或非结构化格式传入的其他文件)进行分类和分发。
现代文档分类系统的关键特征有哪些?
当今最有效的分类系统专为文档而设计,采用混合方法,将基于规则的逻辑、机器学习、自然语言处理 (NLP)、多模态文档理解以及人工干预的验证相结合。 它们能够处理跨格式和语言的结构化及非结构化内容,并且随着人类反馈不断输入回系统,系统会持续改进,而无需重新编程或组织额外的人工训练。
在选择文档分类平台之前,我应该考虑哪些因素?
请选择专为文档处理而构建的平台,而不是改造用以执行该任务的通用型 AI 工具。 解决方案应该从一开始就准确无误,支持公司平时会用到的各种文档格式,并且随着时间的推移,效果会越来越好。 企业级可靠性也很重要: 您获得的结果必须具备一致性、可解释性和可靠性,才能为关键业务决策提供支持,并满足所处行业的合规要求。
Maxime Vermeir
Maxime Vermeir
人工智能战略高级总监
Maxime Vermeir 在产品和技术领域拥有十年经验,是一位热衷于创造卓越客户体验的创业型专业人士。 他曾领导并管理全球创新顾问团队,主导大型企业的转型项目。 洞察新技术以及新技术如何提升客户价值,是 Maxime 的一系列专业知识的关键点。 他是该领域值得信赖的顾问和思想领袖,引领着 ABBYY 技术的市场认知度。