在处理纸质文档时,您需要找到并纠正错误或特意进行的更改。FineReader Engine 12 新版本中最需要的特性之一 是“比较文档”,功能可集成到企业软件中,用户可使用该功能自动检测两个文档版本之间的内容差异,从而快速跟踪变更、验证文档完整性或预防欺诈。请阅读这篇文章,探讨它为什么很棘手,它是如何工作的,以及您如何能使用它。
一般来说比较任何格式的两个文档时,都要尽量减少错误差异。另外,就是不能漏掉两个文档之间的任何实际差异。
造成错误差异主要有三个原因:
造成两个文档比较时产生错误差异的第一个原因是,同一文本的格式不同,或在页面中的位置不同,但文本在文件中出现的总体顺序没有改变。第二个原因是页眉/页脚或插入的文字在不同位置打断正文。这两种情况都可能是由于其中一个文档被编辑,或者修改了版面布局,比如设置了不同的页边距。对于这两种情况,您可能已经猜到了解决方案,那就是获取并使用文档结构信息,即通过 OCR 重建结构。然而,还有另外一个原因也会造成错误差异,那就是 OCR 精度。一般来说,OCR 并非 100% 准确。关于这个问题,我们稍后再作讨论。
上面截图的两个文档中只存在一处真正的差异。左边的文档中有一条脚注,而右边的文档没有。其余的文本都是一样的,但在各页之间的分布有所不同(请看两个文档中第 4 节的开头)。
下面的截图中同样是这两个文档,是在不考虑文档结构的情况下进行对比:
可以看到,只存在一处真正的差异,然而错误差异却多达四处。错误差异会浪费我们的时间和精力,导致专注度和工作效率下降。所以,我们要尽量减少错误差异。
总而言之,如果我们简单地从数字 PDF 文档或扫描件中提取文本进行比较,有可能产生许多错误差异,因为没有而且不能考虑文档结构。这包括文本在页与页之间的衔接方式可能不同,可能被不属于正文的页眉和页脚打断等等
只是简单地从 PDF 文档中提取文本的另一个问题是,PDF 文档的文本层并不一定准确或可用。
有真正有效的解决方案吗?
我们在上面讲到了通过 OCR 了解文档结构对于准确比较数字文档的益处,以及 OCR 错误识别差异带来的挑战,然而要解决文本层质量的问题,最好还是使用 OCR……那么,有没有什么真正有效的解决方案可以解决所有这些难题呢?
当然有,那就是巧妙利用 OCR。尽可能多地从 PDF 文档中提取数字文本,最大程度减少字符识别的使用,同时使用足够的文档结构信息正确识别要比较的内容和确定比较的顺序。
下面是比较数字 PDF 文档的流程:
如果文件及其副本包含一些缺陷或特意做的标记,如签名或盖章,则需要在识别之前进行一些预处理。适用于多种文档格式,例如 Word、Excel、PowerPoint、PDF 和 JPEG、TIFF、PNG 以及其他图像格式,能够比较数字文件与打印版本。
当识别文档时,文件的各种布局元素(文本、表格、图像、分隔符等)被识别。识别文档的各种布局元素(文本、表格、图像、分隔符等)。在文档合成的过程中,文档的逻辑结构被恢复,而页面合成可以完全恢复文档的格式(字体、样式等)
要将文档或页面与其副本进行比较时,使用通过ABBYY FineReader Engine 识别的文档。您可以使用跨不同格式的文件的两个版本。比较之后,您会得到带有变化列表的结果,用它来检索有关变化的位置的信息。仅报告“真实”内容变更(变更、删除或添加文本),忽略文档格式变化,避免用户的注意力偏离“真正的”内容变化。如果您使用手动验证,使用这些信息来强调文本的变化,从而使操作员的工作更容易。
您也可以把比较结果保存为XML和在 "跟踪变更" 模式中作为Word文档。比较结果包含有关内容类型(仅文本)、修改类型(删除、插入或修改)及其在原件和副本中的位置差异的信息。您也可以得到检测到的差异列表或任何变化的区域,并将比较结果保存到一个外部文件,以便进一步处理或长期保存。
文档比较演示工具也说明了下面描述的过程。您可以通过提交这里的免费试用表单来访问它。
https://www.abbyy.cn/ocr-sdk/#request-demo
销售专员将会及时与您取得联系并提供试用版的下载链接。如果您没有收到回复,您也可以通过微信和我们联系。
这项技术可以集成到用于联系人管理、客户关系管理、内容管理的软件解决方案或归档系统中,也可以集成到法律部门的各种解决方案中,以增强功能并为用户提供附加价值。最后,查看一下使用场景。
业务谈判:向各种业务合作伙伴发送商业提案后,可以快速将新提案与原始提案进行比较。即便并未明确标注,也能轻松跟踪版本之间的差异。
文档管理与归档:可以比较同一个文档的两个版本,快速发现差异和跟踪变更,或确定最新文档版本 – 即便在文档的编辑和修正流程期间并未记录修订内容,也不妨碍其发挥作用。
确保文档完整性:如果文档的完整性至关重要(例如与另一方签订合同),可以利用该功能轻松比较收到的文档与原件,并立即发现可能存在的不一致之处。
以上对ABBYY FineReader Engine 的这一强大专业的文件比较功能做了简单的介绍,此时相信大家都对这款软件有了比较初步的认识。现在 ABBYY 正在进行12.12优惠活动:FineReader Engine 12 工具包企业套餐, 包括:1个开发许可证(Developer license) 和 1个运行 (Runtime) 许可证 (3 年内 20万页数)。总价:3 900 美金。本活动12月31日结束。
产品
开发者工具
© 2025 ABBYY。所有的权利都得到保障
本网站使用cookies
我们使用 cookie 来创建相关内容和广告, 提供社交媒体功能并分析我们的流量。我们还分享以下信息 您与我们的社交媒体、广告和分析合作伙伴一起使用我们的网站,他们可能会 将其与您提供给他们或他们收集的其他信息结合起来 从您使用他们的服务.
本网站使用cookies
我们使用 cookie 来创建相关内容并 广告,提供社交媒体功能并分析我们的流量。我们还分享 有关您通过我们的社交媒体、广告和分析使用我们网站的信息 合作伙伴可能会将其与您提供给他们的其他信息或 他们从您使用他们的服务中收集的信息.
我们使用这些 cookie 来 分析和评估您的行为和偏好,以更好地了解您的 兴趣,创建营销材料和产品广告。当您访问时 我们的网站或阅读我们的电子邮件,我们会计算您在设备上执行的操作。
Cookie consent
Stores user cookie consent status for the current domain
最长储存时间: 1 年
类别 :HTTP Cookies
_cfuvid [x2]
This cookie is a part of the services provided by Cloudflare - Including load-balancing, deliverance of website content and serving DNS connection for website operators.
最大存储时长:: 临时
类别 : HTTP Cookies
XSRF-TOKEN
Ensures visitor browsing-security preventing by cross-site request forgery. This cookie is essential for the security of the website and visitor.
最大存储时长 :临时
类别 : HTTP Cookies
_noRedirectOffer
待定
最大存储时长:7 天
类别 : HTTP Cookies
Cookies-policy
Remember what cookies you consent to use
最大存储时长 :30 天
类别 : HTTP Cookies
mktoFormSent
Remembers that user filled out request form
最大存储时长 : 7 天
类别 : HTTP Cookies
__cf_bm [x3]
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长: 1 天
类别 : HTTP Cookies
_grecaptcha
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 永久
永久 : HTML 本地存储
rc::a
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 永久
类别 : HTML 本地存储
rc::brc::b
This cookie is used to distinguish between humans and bots.
最大存储时长 : 临时
类别 : HTML 本地存储
rc::c
This cookie is used to distinguish between humans and bots.
最大存储时长: 临时
类别 : HTML 本地存储
_GRECAPTCHA
This cookie is used to distinguish between humans and bots. This is beneficial for the website, in order to make valid reports on the use of their website.
最大存储时长 : 180 天
类别 : HTTP Cookies
These cookies allow us to make our website more user friendly, for example, if you visit abbyy.com from the UK , we can show you the UK area of abbyy.com the next time you visit.
yt/youkuplayer.fdl.playerckey
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: :临时
类别 : 像素追踪器
yt/youkuplayer.fdl.ykplayer_process
This cookie is used in conjunction with the video player. The cookie remembers if the user has muted the volume and keeps this setting on other video content watched by the visitor.
最大存储时长: 临时
类别 : 像素追踪器
YK_PSL_SETTINGS
Used to save information about the visitor's video settings.
最大存储时长: 永久
类别 : HTML 本地存储
We use these cookies to measure the statistics and performance of the website. If you do not agree to the use of these cookies, we will not be able to measure the performance of the website and make improvements.
atpsida
Registers a unique ID that identifies the user's device during return visits. Used for conversion tracking and to measure the efficacy of online ads.
最大存储时长: 临时
类别 : HTTP Cookies
sca
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_ga
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 2 年
类别 : HTTP Cookies
_ga_#
Used by Google Analytics to collect data on the number of times a user has visited the website as well as dates for the first and most recent visit.
最大存储时长: 2 年
类别 : HTTP Cookies
_gat
Used by Google Analytics to throttle request rate
最大存储时长: 1 天
类别 : HTTP Cookies
_gid
Registers a unique ID that is used to generate statistical data on how the visitor uses the website.
最大存储时长: 1 天
类别 : HTTP Cookies
APLUS_LS_KEY
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
APLUS_CNA
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 永久
类别 : HTML 本地存储
x5secdata
Registers statistical data on users' behavior on the website. Used for internal analytics by the website operator.
最大存储时长: 1 天
类别 : HTTP Cookies
cna [x2]
Presents the user with relevant content and advertisement. The service is provided by third-party advertisement hubs, which facilitate real-time bidding for advertisers.
最大存储时长:1 年
类别 : HTTP Cookies
__utmz
Collects data on where the user came from, what search engine was used, what link was clicked and what search term was used. Used by Google Analytics.
最大存储时长: 180 天
类别 : HTTP Cookies
We use these cookies to analyze and evaluate your behavior and preferences to better understand your interests, create marketing materials and product advertisements. When you visit our website or read our emails, we count the actions you take on your device.
tfstk [x2]
Necessary for the implementation of video-content on the website.
最大存储时长 180 天
类别 : HTTP Cookies
isg
Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
最大存储时长: 180 天
类别 : HTTP Cookies
Hm_ck_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTTP Cookies
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 1 年
类别 : HTTP Cookies
Hm_lpvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 临时
类别 : HTML 本地存储
Hm_lvt_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 永久
类别 : HTML 本地存储
Hm_unsent_#
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 临时
类别 : HTML 本地存储
HMACCOUNT [x2]
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长: 4824 天
类别 : HTTP Cookies
HMACCOUNT_BFESS
Used to send data to Baidu about the visitor's device and behavior. Tracks the visitor across devices and marketing channels.
最大存储时长 : 400 天
类别 : HTTP Cookies
Some of the data collected by this provider is for the purposes of personalization and measuring advertising effectiveness.
_gcl_au
Used by Google AdSense for experimenting with advertisement efficiency across websites using their services.
最大存储时长: 3 月
类别 : HTTP Cookies
IDE
Used by Google DoubleClick to register and report the website user's actions after viewing or clicking one of the advertiser's ads with the purpose of measuring the efficacy of an ad and to present targeted ads to the user.
最大存储时长: 400 天
类别 : HTTP Cookies
test_cookie
Used to check if the user's browser supports cookies
最大存储时长:1 天
类别 : HTTP Cookies
pagead/1p-user-list/#
Tracks if the user has shown interest in specific products or events across multiple websites and detects how the user navigates between sites. This is used for measurement of advertisement efforts and facilitates payment of referral-fees between websites.
最大存储时长: 临时
类别 : 像素追踪器
xlly_s
Collects data on visitor interaction with the website's video-content. This data is used to make the website's video-content more relevant towards the visitor.
最大存储时长: 3 天
类别 : HTTP Cookies
VISITOR_INFO1_LIVE
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 天
类别 : HTTP Cookies
YSC
Tries to estimate the users' bandwidth on pages with integrated YouTube videos.
最大存储时长: 180 临时
类别 : HTTP Cookies
auyst
Necessary for the implementation of video-content on the website.
最大存储时长 : 永久
类别 : HTML 本地存储
yt/youkuplayer.fdl.h5send
Required for the embedded media player to operate.
最大存储时长: 临时
类别 : 像素追踪器
__arpvid [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ayft [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__aypstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__ayscnt [x2]
Used to track user's interaction with embedded content.
最大存储时长: 临时
类别 : HTTP Cookies
__aysid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__ayspstp [x2]
Used to track user's interaction with embedded content.
最大存储时长: 2 天
类别 : HTTP Cookies
__aysvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 2 天
类别 : HTTP Cookies
__ayvstp [x2]
Used to track user's interaction with embedded content.
最大存储时长 : 临时
类别 : HTTP Cookies
__ysuid [x2]
Used to track user's interaction with embedded content.
最大存储时长: 1 年
类别 : HTTP Cookies
YK_PSL_RECORDS
Necessary for the implementation of video-content on the website.
最大存储时长: 永久
类别 : HTML 本地存储
rc::f
This cookie is used to distinguish between humans and bots.
最大存储时长 : 永久
类别 : HTML 本地存储
Uncategorized cookies are cookies that we are categorizing with individual cookie providers.
_visits
To be 待定
最大存储时长 : 1 天
类别 : HTTP Cookies
HMACCOUNT
待定
最大存储时长: 临时
类别 : HTML 本地存储
ts
待定
最大存储时长: 临时
类别 : 像素追踪器
x5sectag
待定
最大存储时长 : 1 天
类别 : HTTP Cookies
APLUS_S_CORE_1.0.1_20240910171434_7d560148
待定
最大存储时长 : 永久
类别 : HTML 本地存储
ETLCD
待定
最大存储时长: 永久
类别 : HTML 本地存储
syfhs
待定
最大存储时长: 永久
类别 : HTML 本地存储
web_behavior_time
待定
最大存储时长 : 永久
类别 : HTML 本地存储
yt/vp.vdoview
待定
最大存储时长 : 临时
类别 : 像素追踪器
HideModalFC
待定
最大存储时长:3 天
类别 : HTTP Cookies
HideModalFCE
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCI
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFCILP
待定
最大存储时长: 3 天
类别 : HTTP Cookies
HideModalFRE
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalFRS
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalTL
待定
最大存储时长 : 3 天
类别 : HTTP Cookies
HideModalVant
待定
最大存储时长: 3 天
类别 : HTTP Cookies
IpDetection
待定
最大存储时长: 7 天
类别 : HTTP Cookies
viewCount
待定
最大存储时长: 1 年
类别 : HTTP Cookies
Cookie 是小文本文件, 网站用于使使用我们的用户体验更加高效。该网站使用 各种不同类别的 cookie。有些cookie是由第三方放置的 我们网站上显示的服务。
您可以更改或撤回您的同意 随时从我们网站的 Cookie 声明中获取。
详细了解我们是谁、如何 联系我们以及我们的隐私政策如何处理个人数据.