案例研究

ABBYY OCR 技术加持下的新一代成者科技 (CZUR®) 书籍扫描仪

查看或下载此文章的可打印版本 (PDF 544 kb)

成者科技是一个快速成长的年轻科技公司。自 2013 年创立以来,在短短几年内,从一个在中国大连的小办公室成长为国际知名厂商。该公司专门从事生产和销售智能办公扫描仪。不同于手机和个人电脑,扫描仪在过去 20 年里几乎一成不变。
成者科技将此牢记于心,并在深圳建立了一家研发中心,致力于开发重新想象用户体验的扫描设备。
挑战
开发一个快速,易于操作的扫描仪是一个艰巨的任务。以至于团队不得不重新设计整个架构。
他们认为带盖子的重型设备并不简单易用,尤其是当你想扫描一本厚厚的书籍的时候。所以他们设计了一个可以放在桌子上类似台灯形状的扫描仪。此外,他们还提高了扫描和图片处理的速度。即便如此,扫描仪设备的用户体验依旧不尽如人意:扫描仪也应该易于操作并且让扫描后的信息更加便于访问。
于是,成者科技开始测试各种 OCR 光学文字识别解决方案。他们要求 OCR 软件在中文和西文文档的处理上都具有优越的表现,扫描后的文稿要有高精度的识别结果和良好的排版样式,最好在必要的时候能够保留原始文件排版,否则软件无法将手工劳动最小化,反而会导致用户多做工作。
测试过几个 OCR 识别技术之后,成者科技依然收到了用户的许多负面反馈。可以看见,扫描仪的软件优化部分仍然是整个项目的弱点。此后,成者科技通过 Taibi 信息科技联系到 ABBYY 在中国的合作伙伴,他们建议成者科技将 ABBYY 的 FineReader 引擎整合进扫描仪软件开发中。
解决方案
成者科技通过高清相机获取文档图像,它能在快速扫描文档的同时保证图片的良好质量。唯一的缺点就是扫描的图片可能会出现弯曲或变形,为了更好的识别和保存图片,显然还需要一些预处理操作。
这个问题早已被 ABBYY 的 FineReader 引擎解决了。它有一个特殊的相机 OCR 功能来优化数码相片。这个算法可以矫正曲线,纠正透视失真、修复模糊的图像和消除 ISO 噪点。
当用户选择成者科技的扫描应用并点击「OCR」按钮,内置的FineReader 引擎会自动执行预处理操作并定义识别区域。然后开始对于字符和文字的识别。
成者科技 OCR 技术能够识别近 200 种语言。对于用户来说,这意味着他们不仅可以识别中文和拉丁字母,也可以识别其它更为罕见但是有条理的语言。用户也可以选择扫描后的文档导出格式:可检索的 PDF、Word 或者 Excel 等。对于 Word 和 Excel 类型的文件,FineReader 引擎可以保留原始文件的排版;对于 PDF 格式的文件,在可以确定文件大小的前提下,得力于 MRC 技术,我们可以通过软件预设导出文档的最终大小,最多可以将文件大小降低 80%。
成果
成者科技的扫描仪因为简单且具有性价比的书籍扫描和文档数字化功能而备受赞誉。中国总理李克强曾授予该公司物联网创新金钥匙奖以奖励他们的成就。
采用智能易用的硬件和 FineReader 引擎结合,为用户提供精准的文本识别和保留原始排版的功能成为了成者科技成功的关键。ABBYY OCR 技术则使得用户在使用成者科技产品的过程中体验更加顺畅:用户可以在启动拍照后直接识别文件,然后保存结果,这样只需在几次点击之间就能完成搜索、编辑文档和复制的需求。
成者科技将 ABBYY 整合进扫描仪后,用户不再像之前一样对软件产生各种抱怨,产品声誉大大提高,精准的 OCR 识别功能已然成为一个特色解决方案。