免费截图识别

新闻

ABBYY众包项目:让全世界阅读托尔斯泰

2015年5月11日

所谓“众包”,其实是一个时髦的说法,指的是以自由自愿的形式外包给非特定的大众网络的做法。这一形式最典型的案例就是维基百科:很多不同的人通过网络创建同一/不同的词条。尽管有些人对这种新兴的外包形式持否定的态度,但是它的效果非常好:因为参与外包的人既没有在网络上编写一些乱七八糟的信息,也没有任何不恰当的行为,相反,他们用可靠的文字和经过验证的事实创建了一个充满活力的社区。

现在我很荣幸能够为您介绍如何使用众包方式来完成“一键阅读托尔斯泰全集”这个项目,以及我们通过互联网吸引志愿者的效果。此外,我还将向您介绍,我们曾面临的困难,以及数字化托尔斯泰全集的想法所导致的后果。
ABBYY的文本识别技术曾被用于欧洲文化遗产的数字化项目之中,尤其是在古腾堡数字图书馆的创建期间。但这个众包项目对于我们来说是一次全新的体验。在此之前,ABBYY从未尝试过将任务委托给网络上素不相识的人。

当然,我们也可以聘请一些外部编辑来帮助我们校对文本。但由于我们有46,000多页扫描文本需要校对,这个工作量非常大。因此,当ABBYY团队计算完项目所需的时间之后,决定求助于网络。正如Fyokla Tolstaya(托尔斯泰的玄孙女)所说:“共同完成一项伟大而有价值的工作,这听起来颇具托尔斯泰的风格!”

众包的优点和缺点:我们的经验
众包的优势是显而易见的:人们用自己的热情免费完成任务。此外,如果任务有趣,他们会完成得非常快!
说实话,我们还未发现这种方法有任何缺点。而众包唯一的难处在于:你需要考虑周详,并将所有资源和人员有效地组织起来。为了让人们效力于你,并为他们创造便利条件。
我们所做的工作包括:

1. 创建网站。
我们在网站上详细描述了我们的主要目标和任务,力求让志愿者能够轻松便利地帮助我们。
只需要在网站进行简单的注册,注册后,参与者即可下载ABBYY FineReader和需要校对的成批文件。我们建议一次至少校对20页,但我们也提出,如果用户愿意,可以一次校对更多内容。
2. 我们编写了非常详细的使用手册。
ABBYY FineReader并不是个非常复杂的软件,但我们还是决定向用户详细介绍其功能,教给他们操作办法和步骤,并配上截图。编写手册的过程非常匆忙,刚开始手册文本比预期的要复杂得多,因此,在我的文件夹中(我负责创建手册)已经有几十个版本的手册。
3. 我们始终在线。
网站上留有ABBYY的邮箱地址,我们每天都会查看这个邮箱。此外,我们还在如今最流行的一些社交网络创建了社区,在那里回答所有的提问。在最初的几个星期,我们必须全天候轮岗值班,并提供技术支持,甚至在周末也是如此。
这个项目成功地启动了!我们获得了许多忠实的参与者和宝贵的志愿者,他们不仅帮助我们校对大量的文本,还为其他社区成员提供帮助。

志愿者是一股神奇的力量
我们迫不及待地要赞美我们的志愿者。规划项目的时候,我们估计项目第一阶段——完成46,820页扫描文件的首轮校对工作——将需要1年甚至更长的时间。当时,情况已经非常清晰明了,我们需要对所有文本进行数次校对:我们主要的想法是要创建完美的版本,让每个标点都准确无误。
你能猜测出第一阶段真正花了多长时间吗?两个星期!在两个星期内,所有参与者共校对了90卷托尔斯泰文集。这就像是比赛:比谁读得更多。ABBYY做了一个排名榜,并给最积极的志愿者提供了若干奖品,但他们阅读的目的并不是为了获得FineReader、电子书或去Yasnaya Polyana旅游的机会。他们是真的非常喜欢阅读托尔斯泰的作品。
ABBYY收到了许多志愿者的感谢信!人们感谢我们让他们成为首批阅读作家日记的幸运儿。他们感谢我们将托尔斯泰的世界展现在他们面前:很多用户反映他们除了在学校的课程之外没有读过任何其他关于托尔斯泰的东西,并坦诚说,他们原本认为托尔斯泰的作品毫无趣味可言,但是当他们开始阅读那些信件和笔记的时候,他们根本停不下来!有些人甚至请求预留若干批次的文档给他们,以便他们有机会按照正确的顺序来阅读:那样对他们而言会更加有趣。

在所有批次的校对工作完成以后,ABBYY收到了网友的询问:是否还有其他的校对任务?因此,我们决定将第二阶段的校对工作也委托给网络志愿者。现在,他们每次得阅读更多的页面,从之前的20页到现在的100页,而且他们需要更加细心:所有明显的错误和笔误已经在第一轮编辑过了。ABBYY创建了新的手册,列出了最常见的错误,并通过测试选出了最合格的参与者:他们中符合要求的人实在是太多了!第二阶段的完成用了不到两个月的时间。志愿者们再次成功地完成了任务:他们总共对46,820页文本进行了两轮校对!
由此,ABBYY得出结论:网络上有成千上万的人随时愿意免费帮助你!他们善良热心,乐于助人,聪明有趣,学识渊博!他们上网不仅仅是为了娱乐和消耗时间。他们愿意努力工作,致力于实现重要的目标,愿意为整个社会贡献自己的力量。

ABBYY的梦之队
我必须要夸奖一下我们的团队。
我在前面说过,在众包项目中,你必须充分安排好所有事情。维基百科有严格的规则和公正的版主。而托尔斯泰项目有我们: 夜以继日工作的ABBYY俄罗斯团队员工。后来,ABBYY编辑和Wexler公司也加入进来:他们根据校对过的文本来创建电子书。
当然,那些比较重要的工作是由托尔斯泰国家博物馆的员工完成的。首先是Fyokla Tolstaya:ABBYY的灵感激励者。在跟她谈话之后,我们才产生了阅读其高曾祖父的著作的愿望。此外,他们还帮ABBYY收集了我们在社区和网站上发布的所有有趣的信息,并帮助我们回答了有关作家的问题。

ABBYY的工作总结
众包最重要的部分的效率问题。这样做是否值得?就我们的案例来说,答案是“绝对值得”。

您可以留意如下数据:我们有46,820页扫描过的并由ABBYY FineReader识别过的文本。我们预计要花费数年时间才能完成校对。 2013年6月18日,我们在新闻发布会上宣布启动本项目,在短短两周时间内,志愿者就把90卷文本全部校对完了!为了找出绝大多数错误和笔误,我们组织了第二轮校对:这轮校对前后历时两个月。准确的说,志愿者们完成的工作堪称浩大:在大约1年时间里,他们对90卷文本进行了三次校对。
我们成功地吸引了来自49个国家总共3,249名志愿者。

在本项目中,我们采用epub、mobi、fb2、html、PDF等最常用的文件格式,共创建了761本电子书。

除了托尔斯泰广为人知的小说、故事和传说以外,现在人们可以阅读他童年和青年时期的文学练笔作品,以及他的戏剧、各种文章、笔记、书信和(最重要的是)日记。托尔斯泰本人认为他的主要作品是日记,而不是《战争与和平》或《安娜·卡列尼娜》。
最了不起的是,列夫·托尔斯泰最重要的梦想终于得以实现。伟大的作家总是希望自己的作品能够在大众中广泛流传,不受任何限制。感谢这个项目,志愿者们和互联网,让这个梦想现在成为了可能。

并非后记
“一键阅读托尔斯泰全集”对于我们意味着什么呢?我们在某个社交网络社区中收到了如下评论:“无论你未来的生活如何,你已经拥有了某些值得骄傲和铭记的东西”。我想这是对我们这个项目的最好总结。