由大数据文摘制作
作者:刘俊焕
最近,一款在线机器翻译软件在日本火了。
这个翻译软件叫DeepL,火的原因是工作太负责,翻译太准确,在日本引起了热议。
从日本网友的民间评价来看,不仅日语方言翻译效果有效,文言文也获得了胜利。要知道,这是连谷歌翻译都做不到的。
但是有多准确呢?作为一款严谨的科技软件,当然还是要用数据说话。DeepL官方也公布了日英翻译和汉英翻译的盲测结果。如下图所示,可以看出DeepL简直就是碾压级的存在:
盲测是在专业翻译人员不知道哪个版本由哪个网站翻译的情况下,对翻译文本进行评估,这一直是DeepL的测试方法之一。
由于其出色的准确性,DeepL也引爆了Reddit。有网友指出,DeepL不像Google Translate那样翻译单词。从Textractor的设置可以看出,DeepL还支持使用之前的翻译作为上下文来改善翻译结果。
也有很多网友直呼“DeepL牛逼”!
三年前,DeepL第一次出现在大众视野的时候就吸引了很多人的关注。DeepL的首席执行官Gereon Frahling曾表示,DeepL的目标不仅仅是翻译任务,神经网络将从理解文本开始,开辟更多的可能性。
至于更多的可能性是如何开发出来的,消化菌做了一个小评价,接下来我们一起看DeepL的家族史。小板凳已经放好了,欢迎坐~
方言,文言文,学术论文,机器翻译神仙打架!
无论是民间的评测,还是DeepL官方的盲测结果,都暗示着DeepL可能是目前准确率最高的机器翻译。最后是什么颜色?还是要自己尝试一下才知道。
由于本次更新还包括简体中文,带着一点怀疑和好奇,消化菌也对DeepL做了一个简单的评测,并与目前主流的Google Translate、Microsoft Translate、Baidu Translate、Youdao Translate进行了对比。
这次考核分三轮,第一轮方言,第二轮文言文,第三轮学术论文。好,现在让我们欢迎五位选手。
第一轮,我们来看方言。
众所周知,汉语方言文化博大精深。如果方言翻译不正确,准确性还是会受到质疑。
我们选了东北话十级题目:“我靠,你看起来太尴尬了”。这个问题有两个评分点,一个是“我去”,一个是“磕头”。让我们来看看五位选手的表现。
在第一个得分点上,谷歌翻译了“我去那里”,微软和百度认为是“我去”的意思,有道给出了“我不知道”的答案。DeepL表现很好,用惊讶的语气正确翻译了“哦,我的上帝”。
在第二个评分点上,五位选手都给出了不同的答案,比如Google shy、微软snobful、百度shabby、有道bad、DeepL“丑。
从评分来看,百度在第二题的表现尚可,有句话说……勉强及格,而谷歌和微软全军覆没。我们来看看DeepL的满分试卷:
这是第一个问题,别急,还有翻盘的机会。接下来,我们来看看文言文。既然DeepL能翻译古日语,那它不能翻译古汉语就错了。
第二轮,文言文。
在文言文部分,我们以唐代著名诗人张九龄《望月远怀》的名句“明月几经沧海,皓月当空”作为试题。这首诗的意思是,一轮明月升起在浩瀚无垠的大海上,使人想起远在天涯海角的亲朋好友。他此刻应该也在看同一轮明月。
这个问题的评分点是看每位选手能否用英语表达全诗的意境。好了,中国版标准答案已经公布,那么五位选手表现如何?
首先,谷歌、微软、百度都直接放弃了后半句的翻译,有一种说法是后半句翻译成“此时天涯”;前半句的翻译,微软和百度都用了born这个词,但是微软的翻译是“海生”?
再来看看DeepL。前半句和Google的回答一模一样,但后半句的翻译是否达到了信达雅的程度不得而知,但读起来感觉很舒服。让我们也品尝一下:
第三个也是最后一个问题是参赛选手对学术论文的英汉翻译。
学术论文的关键除了句子的流畅性,还需要专业词汇准确,这也是本次考察的重点。
对于汉译英,我们选择了去年《国际新闻界》发表的一篇文章。研究者调查了社交媒体信任对隐私风险感知和自我表露的影响。
实证结果表明:1 .隐私风险感知与自我表露之间不存在显著相关;2.社交媒体信任负向影响用户的隐私风险感知,网络人际信任在其中起中介作用;3.社交媒体信任正向影响用户的自我表露,网络人际信任在其中起中介作用。
从翻译结果来看,五位选手给出的答案都比较令人满意。
人满意,句型和语法也都没有问题,只是在一些具体的用词上各有千秋。比如,“自我表露”,DeepL和微软用的是“self-expression”,其余三位选手用的是“self-disclosure”;而“网络人际信任”,有道、百度和微软译成“network interpersonal trust”,谷歌给出“online interpersonal trust”的答案,DeepL则译为“cyber-interpersonal trust”。照例,我们还是来看看DeepL的答案。
在英译中部分,我们选择了上周文摘菌报道的帝国理工大学论文的导论部分。在用户体验上文摘菌要插播一下,从中译英切换到英译中的时候,只有百度、有道和DeepL做到了自动识别,谷歌和微软仍需要手动选择语言。
原文:The global impact of COVID-19 has been profound, and the public health threat it represents is the most serious seen in a respiratory virus since the 1918 H1N1 influenza pandemic. Here we present the results of epidemiological modelling which has informed policymaking in the UK and other countries in recent weeks. In the absence of a COVID-19 vaccine, we assess the potential role of a number of public health measures – so-called non-pharmaceutical interventions (NPIs) – aimed at reducing contact rates in the population and thereby reducing transmission of the virus. In the results presented here, we apply a previously published microsimulation model to two countries: the UK (Great Britain specifically) and the US. We conclude that the effectiveness of any one intervention in isolation is likely to be limited, requiring multiple interventions to be combined to have a substantial impact on transmission.
从结果上看,五位选手的学术造诣都比较高,学术语言使用的规范性也都相差不大。但是,细节见真知,只有有道保留了双破折号的使用,但这在中文中其实并不常见;除有道外,其他三位选手在“非药物干预措施(NPI)”的表达上都没有做到尽善尽美。
仍然,笑到最后的还是DeepL,虽然还存在各种小问题,无法得到满分,但也是一张妥妥的高分试卷了:
以上就是本次测评全部的考题了,可以看出DeepL不愧是头号种子选手,不管是方言、文言文还是学术话语,都有不错的表现,看来DeepL官方还是很诚实的嘛。
从Linguee蜕变,机器学习赋能DeepL
见识到了DeepL的“独秀”表现,接下来,我们就重点介绍一下本次测评表现最佳的头号种子DeepL。
不知道DeepL?那Linguee应该听说过吧,就是那个运营十多年的在线外语词典,DeepL的前身正是Linguee。Linguee是一款出现多年的翻译工具,尽管使用广泛,也有一批忠实用户,但其翻译质量尚无法与谷歌翻译相提并论,尤其是考虑到后者品牌和地位的巨大优势。
但真正重要的是Linguee的技术积累,Linguee的联合创始人Gereon Frahling之前就在谷歌研究院工作,2007年,他选择开启新的征程,团队数年来一直致力于机器翻译,直到2016年,他们才开始全力开发全新的系统,建设新公司,也就是DeepL。
Linguee的核心竞争优势就是爬虫和机器学习系统,前者能够抓取互联网上超过10亿句翻译结果和查询的大型数据库,后者在网页上搜索相似片段的真实翻译方法并对其评估,两者结合使Linguee成为了当时“世界上首个翻译搜索引擎”。
十年积累下来,Linguee无论在数据和对算法的研究上都不可小觑,而这也直接成为DeepL的绝对优势,为团队训练新模型打好了坚实的基础。
DeepL变革性的神经架构在冰岛的一台超级计算机上运行,该计算机能力为5.1 petaFLOPS(每秒5100万亿次操作),不到一秒内能翻译100万单词。“冰岛可再生能源丰富,因此我们可以在这里用非常低廉的成本训练我们的神经网络。我们将继续专注于高性能硬件”,DeepL的CTO Jaroslaw Kutylowski说。
“我们的神经网络架构已经实现了多个显著改善”,Gereon Frahling表示,“通过用不同的方式安排神经元及其连接,我们的网络比目前其他神经网络更全面地映射自然语言。”
大学、研究机构和Linguee的竞争对手发布的研究进展表明,卷积神经网络才是机器翻译的正确道路,而非DeepL之前使用的循环神经网络,但现在不是探讨二者区别的时候,对于相关词语的长、复杂字符串,只要你能够控制其弱点,卷积神经网络效果会更好。
例如,CNN一次处理一个单词,当句末单词决定句首单词的形成时,这就成了问题。查找整个句子寻找句首单词,如果网络获取到的第一个单词是错误的,就太浪费了,还得使用该知识重新开始,因此DeepL和机器学习领域的其他机构在CNN转向下一个单词或词组时,使用能够监控此类潜在问题的“注意力机制”来解决。
DeepL在最新版本增加了对日语和中文(简体)的支持,包括日语汉字,平假名和片假名以及数千个汉字。目前,DeepL支持的语言数量增加到11种,虽然语言支持不如其他翻译服务广泛,如Google Translate和Bing Microsoft Translator均支持一百多种不同的语言,但翻译精度也是不可忽视的关键点。
掌握多国语言的Techcrunch编辑Frederic曾这么评价DeepL:“谷歌翻译的风格非常直接,但却错过了一些细节和习语(或者把这些习语翻译错了),而 DeepL 经常可以提供更加自然的翻译效果,就像训练有素的人类翻译一样。”
说了这么多,还是那句话,真真假假还是自己试了才知道,有兴趣的同学可以亲自动手试试,要是遇到什么好玩的翻译结果还记得告诉文摘菌噢~
最后,官网链接双手奉上:
https://www.deepl.com/translator