免费截图识别
返回案例研究

ABBYY FineReader Engine完美嵌入DLP解决方案

硬件(OEM) | 数据泄漏保护

准确的OCR结果对于信息安全系统的发展至关重要。虽然我们的DjVu产品捆绑了第三方OCR引擎,但ABBYY FineReader展示出更高的准确度。此外,ABBYY FineReader Engine可以处理任何一种语言的文件,所以,ABBYY FineReader Engine非常适于集成到我们的DjVu解决方案之中。我们正在考虑扩大业务,利用ABBYY FineReader Engine来开发传真信息搜索解决方案。

Heungsik Choi,DjVu科技公司技术总监, 背景

由于信息是机构之中最宝贵的资源,机密数据丢失的风险已成为许多企业面对的关键问题。随着不同通信渠道(如IM、USB、移动电话)技术的迅速发展,被外界盗取的公司数据的风险显著增加。机构的机密数据或专有信息可以通过电子邮件、U盘、即时消息、网络邮件、新移动技术、HTTP和FTP链接,以及很多其他途径泄露出去。

随着越来越多的敏感数据被盗窃和误用,以及合规管理变得更加严格,重要公司的信息安全显得尤为重要。近年来,市场对透明度的要求日益增高,企业需要与客户、业务合作伙伴和供应商共享信息。因此,保护机密数据,使之不被恶意或意外地泄露出去,这已经成为当今各组织所面临的首要的安全挑战。应当指出的是,大规模的数据丢失案例,是由雇主疏忽和无意错误而导致的,并非是由故意盗窃引起的。

为了确保内容传送和管理的安全,人们发明了各种预防数据泄漏的技术工具(也称为防数据泄漏产品)。这些工具为机构提供了大量让人信服的优点,让人们更好地了解何为敏感信息,应该如何使用这些信息,以及如何防止这些数据流失。防数据泄漏产品通常部署于整个组织之内,以便识别和分类敏感数据,监控未经授权的数据披露,并采取适当的措施来防止数据泄露。

因此,当韩国的主要建筑公司“现代建筑”决定保护其敏感数据并引入数据安全系统的时候,它购买了出站内容管理解决方案。为了保护企业的信息安全,DjVu科技公司为之提供了完整的数据安全解决方案,并设计了数据分类方案和存储架构体系。

项目

为了创建文档集中管理系统并简化业务流程,该项目在现代建筑公司内安装了大约50台多功能一体机。经过这些多功能硬件处理的企业信息被汇集到一起,因此可以全面监控网络上的所有机密数据。雇主可以追踪打印机和多功能一体机上的操作,通过维护安全信息系统,来阻止重要的宝贵信息被泄露出去。

DjVu科技有限公司是韩国的一家软件集成和分销公司,专门从事数字图像压缩、可扩展图像浏览,以及内容访问和管理安全业务。该公司负责实施数据泄露防护解决方案。为此,它为现代建筑公司设计了端到端的复杂解决方案,用来保护企业机密数字数据。

该项目旨在满足DjVu科技公司创建安全的内容传送和管理系统的需求,创建一个基于光学字符识别(OCR)技术的、强大的智能文档识别和数据采集系统。最后,公司选择使用多功能的软件开发工具包ABBYY FineReader Engine,它兼具了便捷的图像处理工具、文档布局分析、先进的转换和压缩功能,并能够生成优质的识别结果。DIOTEK有限公司是ABBYY在韩国的合作伙伴,也是嵌入式应用软件开发专家。它将OCR技术无缝集成到通用软件架构之中。

为确保信息安全系统稳健、高效,DjVu科技公司采用了以下机制:

l  系统架构存储机制,以存储扫描和复印的文件;

l  先进的成像技术结合强大的OCRtoolkit;

l  分类关键字监控;

l  对处理后的数据进行合并OCR搜索。

因此,该项目的主要目标是避免公司机密信息泄漏。它为公司带来了大量引人注目的好处,让用户更好地了解何为敏感信息,应该如何使用这些信息,以及如何防止它们流失。该项目以部署在整个企业中的多功能一体机为基础,将多功能一体机中集成了OCR技术,能够识别出所有的扫描和复印文件。为此,DIOTEK有限公司基于屡获殊荣的ABBYY FineReader Engine 为之提供了文档识别技术。ABBYY FineReader Engine 是一款功能强大的识别和转换软件技术开发工具包。

由于客户的特殊性,OCR软件必须满足大量要求,例如,它必须支持三种语言:英语、韩语和日语,而且必须能够识别不同的页面方向。

ABBYY FineReader Engine 非常适合这个项目,它提供了全面的OCR技术,支持上述三种语言,以及这些语言组成的多语言文件。它还提供了一系列的图像处理工具,如图像缩放和剪裁、创建预览、图像旋转、线拉直、镜像和反相等,可以改进图像质量,以便进行进一步的识别和归档。现代建筑公司需要处理大量的图片,而且这些图片的页面方向是未知的,有可能彼此不同,因此,系统必须能够自动检测页面方向(90、180和270度)。而ABBYY FineReader Engine 系统能够自动检测各页面的方向,并能够根据需要进行校正。

系统完成数字化处理及其他处理之后,将信息存储到集中的数据库,用户可以轻易地检索到这些信息。由于OCR结果非常准确,可以创建索引和监控(当特定的关键字被打印、扫描、传真、复印或发送出去时,系统会发送通知)。

在最后阶段,系统将所有的扫描图像和数字文档转换成DjVu®格式。这可以在保证图像质量的同时,尽量压缩文件大小,从而既能减少存储图像所需的空间,并使之更容易访问,又能不损害图像的完整性。

工作流程

通过融合OCR、DjVu图像压缩等不同技术,实现最终解决方案——企业搜索引擎解决方案,项目取得了成功。整个项目实施花了3个月时间,先后包括以下几个阶段:

1)存储在统一数据库中。扫描或复印的所有文档图像都分别存储在不同的文件夹中,文件夹按照日期和时间命名。

2)辨识。系统辨识出新添加的图像,将它们拖拽到中央存储区,然后将它们转发给识别服务器,进行进一步处理。

3)文本识别。ABBYY FineReader Engine 安装在两台服务器上,通过进行全文识别,将数字文件转换成可搜索的可靠格式,并创建文件档案。它可以识别英语、中文和韩文,以及处理多语文件。

4)存储识别结果。系统将OCR结果存储为目标文件夹中的文本文件。

5)索引。搜索引擎监控OCR目标文件夹,查看是否有新的文本文件,并开始建立索引。

6)DjVu压缩。DjVu图像服务器将原始图像文件压缩并存储起来,以进行存档。

结果

现代建筑公司首次引入基于OCR技术的文档泄露保护系统以后,违反信息安全的情况大大减少,公司也创建了统一的企业存储系统。

ABBYY FineReader Engine 提供了最优质的文件识别功能,由此,公司也可以监控嵌在图像中的数据信息——整个可打印文档都被纳入监控范围之内。

该系统最主要的好处是,减少了不必要的信息泄露所导致的经济损失。新的数据安全系统可防止员工泄露重要信息,减少文件复印量,并保护机密数据免遭滥用。

最后,DjVu科技公司开发了无可比拟的数据防护解决方案,为客户提供了合规的强化安全系统。

 

关于DjVu科技公司

公司成立于1996年,十多年来,公司一直致力于开发高倍图像压缩和高速数字内容发布技术。公司专门研究扫描图像和数字文档管理,以及照片图像压缩、发布和安全。

 

关于DIOTEK有限公司

DIOTEK有限公司是领先的移动电话和嵌入式设备专用移动软件解决方案开发商。公司开发手写识别、移动词典软件、OCR解决方案,以及移动照片编辑软件等软件解决方案。公司还提供了手机条码软件和数字墨水解决方案。