Marco Trombetti

未来

你可以通过识别、利用和预测不断增长的宏观趋势来增加成功的机会。识别这种趋势的简单方法就是活在未来。目前还没有时间机器:为了试验未来,你必须生活在被大多数人认定为未来的环境当中。研究实验室、创新公司和一群对技术有着强烈共同兴趣的朋友都是很好的例子。

了解宏观趋势很重要,在这里,我可以分享一个关于此主题的简短个人经验。

人工智能令人神魂颠倒也令人魂飞魄散。人类语言,特别是翻译,可能是机器面临的最严峻挑战。自然语言是一种非常压缩的信息渠道,意义深远,需要超出单词本身的上下文信息才能被理解。

语言是机器面临的最大挑战,因为它是最具人性化的东西。

正因如此,自动翻译系统进展缓慢;但不可否认,他们正在进步。

在Translated(由我联合创办的翻译服务网站),我们在过去17年中一直应用人工智能,以帮助专业译者更好、更快地进行翻译。我们试图在人与机器之间建立共生关系。我们在很多方面应用人工智能,但一个尤为重要的方式是(在翻译前)为译者提供每个句子的翻译建议。我们为专业语言学家开发了一种翻译工具,它将网上提供的所有专业翻译材料与可以预测未见语句的人工智能相结合。这是我们的开源产品MateCat的基础。

其他公司则尝试更具颠覆性的方式,用终端到终端翻译技术取代专业翻译人员。最引人注目的例子就是谷歌翻译。

通过帮助专业译者,我们能够利用独特的机会,在多年时间内衡量人工智能的进展。

日复一日、月复一月、年复一年,我们测量专业译者纠正人工智能建议的程度。

早在2003年,在欧洲委员会的宝贵财政支持下,我们进行了一项研究。我们共翻译了数十万字,并发现英语>意大利语和英语>法语的整体修正率(译后编辑工作量*)在43%左右。而在2015年,相同语言组合的修正率为27%。第二次我们使用了5000万字的样本,这些翻译都是在MateCat上进行的。由于神经机器翻译和MMT(一种能够适应用户的翻译系统)的应用,我们预计到2018年,修正率将降低到22%至26%之间。

这种改进势不可挡且持续不断,只在一项技术达到最大潜力而另一项技术被引入时产生几次微不足道的延迟与反复。两个主要变革是:2006年投入使用的统计翻译,以及2016年底推出的深度学习。

如果保持当前的步调,我们什么时候能达到不再需要纠正机器翻译的程度?

如果我们只看这些数字,它似乎会在2030年到2035年之间成为现实。

然而,我们常常遗忘另外一个有趣的事实:人类并不完美。

我们分析了2000万字由人类语言学家提供的逐字翻译建议(称为100%匹配),并观察到其他人的修订建议,其平均修正率为11%而不是0%。这是因为人无完人,也因为我们每个人都想要发扬自我风格。当我们谈论出众时,我们需要确定行业标准在哪里。你是绝对的完美吗?是世界上最好的译者?或者只是普通的专业译者?

如果我们满足于机翻水准超越普通专业译者,那么2025年可能是一个更加合理的日期,到那个时候,上述语言组合的修正率就会降低到11%。在我看来,这个日期近得耸人听闻

我在想是否应该现在卖出Translated,因为专业翻译市场将大幅缩水,或者我是否应该变中求进、以便抓住更大的机遇。最终,人们可能需要更多的翻译,而非反之。我感觉自己有点像胶片向数码过度时期的柯达。

既然我意识到这一点已经存在,并且也正因如此我决定经受考验。

未来,人工智能很可能在的每个部门中发挥关键作用。虽然语言是机器需要攻克的最难关,但在许多其他领域,突破指日可待,也潜藏着绝佳的创业想法来源。

1 译后编辑工作量:为了测量修正率,我们使用类似于模糊匹配的算法。(模糊匹配被其他翻译界同行所应用)单词级别编辑距离,根据标点符号、大小写和格式错误做出调整。