我们的客户经常要处理大都非常相似却又不尽相同的大型文档流。鉴于每年处理如此之多的信息日益显得繁琐,我们提出了一个将此任务高精度自动化的技术解决方案。
不妨设想一下,有来自数百家合同方的数万张发票等待处理。按以前的做法,要实现信息的分类和提取的自动化,必须创建一个供应商数据库,再为每个类型的文档手动创建一个具体描述(设置各字段相对于彼此的线性关系信息)。过去客户实现这样一套解决方案要用去 3 到 6 个月的时间。
为简化并加快此项任务的完成,从总体上方便客户的工作,我们制定了一套新的聚类机制并开发出了 FastML 技术,再将这些工作整合为一体。
该解决方案中聚类的出现让供应商数据库维护成为了过去式,且 FastML 还具备基于用户学习工作的能力:此技术会将文档流划分为各个特定的组,再根据每个组学习不同的搜索模式。因此,新解决方案能更好地适应文档的外部差异,处理速度亦提高数倍。
但仍兼顾流程之先后缓急。
我们首先了解一下文档处理过程中分类与聚类的区别。
若某公司一直同少量(如十个)供应商合作,也清楚其文档类型和差异,则需要分类。这种情况下,分类器中的识别模型已经过充分训练且将正确进行处理。
若公司合作的对象不是十个、而是成千上万,则要用到聚类。 这类客户也不能准确掌握文档的内容和结构,不清楚其中类别的类型和数量。
聚类会让该客户轻松许多:无需维护供应商数据库,无需不停地更新它并更改设置 - 通过相似性函数实现一切工作的自动化。
相似性函数是量化两个对象之间相似性的函数。这种测量方法是相似对象取大值,而极不相似的对象取零或负值。聚类任务中的相似性函数会将新文档与现有聚类中的文件进行对比,从而决定将其划分至对应组还是创建一个新类。
例如,若某供应商更改了公司名,文档类型仍与之前相同,则将自动继续由现有聚类中的相同模型进行处理。若该供应商随名称一道更改了文档类型,则该技术将自动创建一个新聚类,而文档处理过程不会中断。
回到该客户的问题上来:它有一个非结构化文档和图像均以文件夹和子文件夹形式进行组织的庞大资料库。对其内容完全不得而知。该客户需要对大量文件进行聚类:确定对应内容从属于哪份文件。
聚类可解决此问题。以下即解决此问题的一种大致算法。
1. 首先,构建一个相似性函数。函数机制即返回一个反映一对文档之间相似程度的范围在 [0; 1] 内的值。这个在稍后将文档划分到聚类中时还要用到。顺便提一下,该函数本身还有几种不同的实现方式:分类器(如梯度分箱)、神经网络等。
2. 完成相似性函数构建后,我们可利用聚类法将所有文档分解成组。有两种截然不同的方案:统合(图 1)与分割(图
合并方法是查找两个相似元素并将其合而为一。反复执行此任务,直到所有项目都归于一个共有聚类中。我们需要挑选特定阈值,指明文档的最优分割方式。得到满意的分割结果后,我们将所需的聚类程度固定、保存,然后开始使用。
聚类的分割方法遵循一样的原则,只是方向相反 - 从多到少。
我们的技术选定的是一种统合方案。于是开始训练聚类以确定新文档是属于此组还是彼组。
作为一种初步解决方案,我们可从某个组中随机抽取两个文件,使用第 1 步的方法与新文档进行对比,取平均分,确定纳入该组所需的一个给定阈值,再通过计算聚类质心并与之对比来进行替换。
质心即聚类之重心。每个质心是一个向量,其元素代表相应特性的平均值,由所有聚类条目计算得出。
未来可针对相似类别构建二级差分分类器(如 SVM - 支持向量机),以在聚类结构发生变化时重新训练。
3. 然后,我们调用一个返回文档归入不同组的概率的排名函数(称之为反向索引),并为后续按第 2 步方法将文档归入该组之假设的详尽测试选择最合适的组
下面来详细讲讲。 要确定新文档属于哪一类(供应商),我们需要搜索并找到最接近、最相似的聚类。为此,我们应用反向索引机制(图 3)。
反向索引 - 一种数据结构,可将出现了文档集合中每个文字的集合中的所有文档列出。它用于文本搜索。该索引可能只包含每个文字所在文档的列表,也可能还包括该文字在每份文档中的位置。
这就要提取出文档中的所有文字,再为字典中的每个文字分配一个编号。此机制搜索相同文字还在其他哪些文档中出现。若大多数文字均见于同一聚类的多个文档中,则认为该新文件也归属于同一聚类。
4. 若文档不属于任何组,则由该文档创建一个新组。排名函数索引会重新构建以纳入该新组。
5. 若文档被错置于所属组之外(我们实际上是在用户进行纠正时发现的,但本例是通过供应商的标记),则会修复错误并继续第 4 步。
若遵循此算法,也就意味着每个组仅包含属于一个供应商的代表项。同时也可以根据文档的属性为一个供应商创建多个组。
接下来,您要尽量减少第 5 步中出现的错误,并缩减组别本身的数量。选择最佳参数值和阈值可实现错误最少化。比如说,若为一个供应商设立了多个组,则可通过组合并实现组数量的最小化(若需要)。
因此,只要相似性函数和属性集选择得当,就有可能将文档划分到超大量(数万)的组别中去。寻常的分类器对此类任务无能为力,但聚类机制可以。
我们已将新开发成果 - FastML - 添加到了聚类机制。它取代了敏捷描述训练,较前一种方法速度更快,能更好地适应各种文档结构,还有将于本节中详述的数项其他优势
我们在之前的一篇文章中讲到过使用视觉文字字典提取文档中的数据,其中就应用了聚类机制。我们利用创建的这种机制,作为处理无锚文本(即,无“名称”、“日期”、“总计”等字段名称)文档的一种原型。
FastML 技术将视觉与文本方案结合起来,让我们能够在任何类型的文档中实现更高的文本识别精确度。
FastML 是一种可搭配高效文档聚类机制的全新客户端学习技术:聚类根据相似性将新文档分为若干组,反过来 FastML 又通过相似文件得到很好的训练,从而为客户端提供精准的搜索并提取所需数据。
FastML 的处理工作可分为两个阶段:根据某个特定聚类训练模型,再于该聚类的文档中运行此模型。值得注意的是,每个聚类都有自己的训练模型。
其工作方式如下:
第 1 阶段。用户先要在训练阶段独立(全部或有选择地)标记文档中的必要字段 - 需要从整个文件集中选出 3-5 份不同类型的文档。针对每个标记字段,探测出其他字段(热图)与不同关键(频率)字相互排列的可能稳定组合。字段的相互排列可通过绝对或相对位置,或通过特定字段或关键字的可接受分布区来确定。所有找到的字段被分为三组:
这种技术组合有助于解决标记校验等问题。
完成训练后,将模型应用于同一聚类来探测新文档字段。
第 2 步。应用新模型的流程可分为三步:
A) 有新文档进入聚类时,此模型会找到其中的参考元素,并据其构建每个字段位置的概率图。热图中最亮的区域表示您要寻找的字段的可能位置。这些就是模型将寻找用户要找的信息的地方。
B) 一旦模型界定了搜索区域,从中提取所有找到的文字以建立字段假设。这可以是一种文字格式、一种用户定义的参考、字段中的文字数量,字与字间的排列顺序等。假设本身的建立则是基于训练期间模型习得的知识。亦于第一阶段接受训练的一种专用分类器会为每个假设生成分数。
C) 一旦所有字段假设和“自信”预估均已形成,即会启动假设队列。它会选择一个不彼此重叠、不相互矛盾的字段聚合集变体,会选择聚合得分最高的已发现字段的最大数量。此为客户将能看到的所需字段搜索的最终版本。
学习敏捷描述与 FastML 的最初理念类似 - 两种技术都是通过上传的文档学习,但其工作原理(和结果)却不同。通过下表可清楚了解。
载入文档
将文档编排成组。
在标记的 1-2 份文档中训练模型的过程。
运行经过训练的模型以处理某特定聚类中新文档的流程(供应商)。
技术效果取决于我们学习过的客户文档量。
弊端:该模型更适于少量文档。
基于数据库的按供应商逐个细分
弊端:积累数据库耗时巨大
该模型会告知各元素彼此间的几何关系。
弊端:对字段相互排列的几何学表示的复杂程度有限制。
该模型会找到关键字并检查其几何关系。
弊端:耗时颇长,不一定准确,且训练中存在因大量异构文档造成错误的风险。
对任何数量的下载文档处理都同等有效。
利用聚类技术分散(无需维护数据库)。
该模型根据找到字段的概率分布进行训练,该方法中不存在冲突
在找到关键词和其他参考元素后,该模型会构建一个字段概率分布,然后确定潜在的字段位置区域。由于搜索区域小,该流程要比灵活描述快得多。
接下来,此算法会根据给定的规则(和格式)检查文字是否匹配。
正如该对比表所示,新技术 FastML 与聚类的结合(图 4)比灵活描述效率更高,无需数据库供应商的强制性积累与扩展,同时提升数据检索质量。
我们精心打造出了一套可进行大批文档处理的全新解决方案。FastML 搭配聚合,造就了较以往该领域内任何开发项目都更快、质量也更高的尖端技术。此外,它还可以内置到当下各公司中非常热门的低代码/无代码系统中。
顺便说一下,FastML 已经运行于我们的新型低代码/无代码平台。依靠该技术,我们的客户可训练解决方案学会探测并识别必需文档类型的能力。
但也要提醒大家,FastML 还只是客户端学习的第一步。目前我们正致力于研究 FastML 与神经网络双管齐下持续学习的可能性。
产品
开发者工具
© 2025 ABBYY。所有的权利都得到保障
本网站使用cookies
我们使用 cookie 来创建相关内容和广告, 提供社交媒体功能并分析我们的流量。我们还分享以下信息 您与我们的社交媒体、广告和分析合作伙伴一起使用我们的网站,他们可能会 将其与您提供给他们或他们收集的其他信息结合起来 从您使用他们的服务.
本网站使用cookies
我们使用 cookie 来创建相关内容并 广告,提供社交媒体功能并分析我们的流量。我们还分享 有关您通过我们的社交媒体、广告和分析使用我们网站的信息 合作伙伴可能会将其与您提供给他们的其他信息或 他们从您使用他们的服务中收集的信息.
我们使用这些 cookie 来 分析和评估您的行为和偏好,以更好地了解您的 兴趣,创建营销材料和产品广告。当您访问时 我们的网站或阅读我们的电子邮件,我们会计算您在设备上执行的操作。
Cookie consent
Stores user cookie consent status for the current domain
最长储存时间: 1 年
类别 :HTTP Cookies
_cfuvid [x2]
This cookie is a part of the services provided by Cloudflare - Including load-balancing, deliverance of website content and serving DNS connection for website operators.
最大存储时长:: 临时
类别 : HTTP Cookies
XSRF-TOKEN
Ensures visitor browsing-security preventing by cross-site request forgery. This cookie is essential for the security of the website and visitor.
最大存储时长 :临时
类别 : HTTP Cookies
_noRedirectOffer
待定
最大存储时长:7 天
类别 : HTTP Cookies
Cookies-policy
Remember what cookies you consent to use
最大存储时长 :30 天
类别 : HTTP Cookies
mktoFormSent
Remembers that user filled out request form
最大存储时长 : 7 天
类别 : HTTP Cookies
__cf_bm [x3]
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长: 1 天
类别 : HTTP Cookies
_grecaptcha
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 永久
永久 : HTML 本地存储
rc::a
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 永久
类别 : HTML 本地存储
rc::brc::b
This cookie is used to distinguish between humans and bots.
最大存储时长 : 临时
类别 : HTML 本地存储
rc::c
This cookie is used to distinguish between humans and bots.
最大存储时长: 临时
类别 : HTML 本地存储
_GRECAPTCHA
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 180 天
类别 : HTTP Cookies
These cookies allow us to make our website more user friendly, for example, if you visit abbyy.com from the UK , we can show you the UK area of abbyy.com the next time you visit.
yt/youkuplayer.fdl.playerckey
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: :临时
类别 : 像素追踪器
yt/youkuplayer.fdl.ykplayer_process
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: 临时
类别 : 像素追踪器
YK_PSL_SETTINGS
Used to save information about the visitor's video settings.
最大存储时长: 永久
类别 : HTML 本地存储
We use these cookies to measure the statistics and performance of the website. If you do not agree to the use of these cookies, we will not be able to measure the performance of the website and make improvements.
atpsida
Registers a unique ID that identifies the user's device during return visits. Used for conversion tracking and to measure the efficacy of online ads.
最大存储时长: 临时
类别 : HTTP Cookies
sca
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_ga
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 2 年
类别 : HTTP Cookies
_ga_#
Used by Google Analytics to collect data on the number of times a user has visited the website as well as dates for the first and most recent visit.
最大存储时长: 2 年
类别 : HTTP Cookies
_gat
Used by Google Analytics to throttle request rate
最大存储时长: 1 天
类别 : HTTP Cookies
_gid
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 1 天
类别 : HTTP Cookies
APLUS_LS_KEY
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
APLUS_CNA
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
x5secdata
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 1 天
类别 : HTTP Cookies
cna [x2]
Presents the user with relevant content and advertisement. The service is provided by third-party advertisement hubs, which facilitate real-time bidding for advertisers.
最大存储时长:1 年
类别 : HTTP Cookies
__utmz
Collects data on where the user came from, what search engine was used, what link was clicked and what search term was used. Used by Google Analytics.
最大存储时长: 180 天
类别 : HTTP Cookies
We use these cookies to analyze and evaluate your behavior and preferences to better understand your interests, create marketing materials and product advertisements. When you visit our website or read our emails, we count the actions you take on your device.
tfstk [x2]
Necessary for the implementation of video-content on the website.
最大存储时长 180 天
类别 : HTTP Cookies
isg
Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
最大存储时长: 180 天
类别 : HTTP Cookies
Hm_ck_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 1 年
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 临时
类别 : HTML 本地存储
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 永久
类别 : HTML 本地存储
Hm_unsent_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTML 本地存储
HMACCOUNT [x2]
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 4824 天
类别 : HTTP Cookies
HMACCOUNT_BFESS
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 400 天
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_gcl_au
Used by Google AdSense for experimenting with advertisement efficiency across websites using their services.
最大存储时长: 3 月
类别 : HTTP Cookies
IDE
Used by Google DoubleClick to register and report the website user's actions after viewing or clicking one of the advertiser's ads with the purpose of measuring the efficacy of an ad and to present targeted ads to the user.
最大存储时长: 400 天
类别 : HTTP Cookies
test_cookie
Used to check if the user's browser supports cookies
最大存储时长:1 天
类别 : HTTP Cookies
pagead/1p-user-list/#
Tracks if the user has shown interest in specific products or events across multiple websites and detects how the user navigates between sites. This is used for measurement of advertisement efforts and facilitates payment of referral-fees between websites.
最大存储时长: 临时
类别 : 像素追踪器
xlly_s
Collects data on visitor interaction with the website's video-content. This data is used to make the website's video-content more relevant towards the visitor.
最大存储时长: 3 天
类别 : HTTP Cookies
VISITOR_INFO1_LIVE
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 天
类别 : HTTP Cookies
YSC
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 临时
类别 : HTTP Cookies
auyst
Necessary for the implementation of video-content on the website.
最大存储时长 : 永久
类别 : HTML 本地存储
yt/youkuplayer.fdl.h5send
Required for the embedded media player to operate.
最大存储时长: 临时
类别 : 像素追踪器
__arpvid [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ayft [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__aypstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__ayscnt [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__aysid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__ayspstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__aysvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 2 天
类别 : HTTP Cookies
__ayvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ysuid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 1 年
类别 : HTTP Cookies
YK_PSL_RECORDS
Necessary for the implementation of video-content on the website.
最大存储时长: 永久
类别 : HTML 本地存储
rc::f
This cookie is used to distinguish between humans and bots.
最大存储时长 : 永久
类别 : HTML 本地存储
Uncategorized cookies are cookies that we are categorizing with individual cookie providers.
_visits
To be 待定
最大存储时长 : 1 天
类别 : HTTP Cookies
HMACCOUNT
待定
最大存储时长: 临时
类别 : HTML 本地存储
ts
待定
最大存储时长: 临时
类别 : 像素追踪器
x5sectag
待定
最大存储时长 : 1 天
类别 : HTTP Cookies
APLUS_S_CORE_1.0.1_20240910171434_7d560148
待定
最大存储时长 : 永久
类别 : HTML 本地存储
ETLCD
待定
最大存储时长: 永久
类别 : HTML 本地存储
syfhs
待定
最大存储时长: 永久
类别 : HTML 本地存储
web_behavior_time
待定
最大存储时长 : 永久
类别 : HTML 本地存储
yt/vp.vdoview
待定
最大存储时长 : 临时
类别 : 像素追踪器
HideModalFC
待定
最大存储时长:3 天
类别 : HTTP Cookies
HideModalFCE
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCI
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCILP
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFRE
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalFRS
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalTL
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalVant
待定
最大存储时长: 3 天
类别 : HTTP Cookies
IpDetection
待定
最大存储时长: 7 天
类别 : HTTP Cookies
viewCount
待定
最大存储时长: 1 年
类别 : HTTP Cookies
Cookie 是小文本文件, 网站用于使使用我们的用户体验更加高效。该网站使用 各种不同类别的 cookie。有些cookie是由第三方放置的 我们网站上显示的服务。
您可以更改或撤回您的同意 随时从我们网站的 Cookie 声明中获取。
详细了解我们是谁、如何 联系我们以及我们的隐私政策如何处理个人数据.