首个在新闻报道的翻译质量和准确率上可以比肩人工翻译?

继在语音识别和机器阅读领域取得的“过人”成绩,由微软亚洲研究院与雷德蒙研究院的研究人员组成的团队今天宣布,其研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测......

首个在新闻报道的翻译质量和准确率上可以比肩人工翻译

翻译没有唯一标准答案,它更像一种艺术。14日晚,微软亚洲研究院与雷德蒙研究院的研究人员宣布,其研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测试集上,达到了......接下来具体说说

新闻机器翻译媲美人类水平?不过是一场自娱自乐的给定数据集测试

首个在新闻报道的翻译质量和准确率上可以比肩人工翻译?

近**译圈发生件不大不小的事,引起了一波新的讨论,起因是一篇新闻稿,微软亚洲研究院与雷德蒙研究院称,在WMT的newstest2017中-英测试集上,其研发的机翻系统“ 达到了可与人工翻译媲美的水平;这是推荐在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。

首个在新闻报道的翻译质量和准确率上可以比肩人工翻译?

在人工智能突飞猛进的今天,在语言服务领域,机器翻译VS.人工翻译一直是热议的焦点,而微软的这则新闻,似乎一下子把机器翻译取代人工翻译拉到了眼前,而且已经可以在新闻报道领域应用了,对于不那么理解这是一种“给定数据集测试”的用户来说,这条新闻里的“ 首次、与人工翻译比肩、媲美 ”可谓颇有煽动力,可事实果真如此吗?

翻译的足够精准VS.翻译的接近人工得分

WMT是一项针对机器翻译的研讨会,2017年是第二届,会议主要是针对八项任务,对各个报名机构的机器翻译进行评估。参与新闻机翻任务时间是5月,正式会议是在2017年9月7、8两天(相当于成果发表和研讨),当时搜狗知音还出过新闻。

首个在新闻报道的翻译质量和准确率上可以比肩人工翻译?

微软而时隔7个月才放出测试结果,很大程度上像是目前国内许多团队都颇为热衷的“跑分”行为,比赛、刷榜,给自己的产品背书。

由于很多商业机器翻译提供商不参加WMT,而只是使用WMT对其系统进行测试,也有部分参与测试的商业和在线系统采取匿名形式,因此在新闻机翻:中-英的任务里,我们是看不到微软、或者其系统Combo的名字的。

首个在新闻报道的翻译质量和准确率上可以比肩人工翻译?

而微软公布的数据并非WMT2017的官方数据,而是以“如果机器翻译系统在测试集上的译文质量得分(人工评分)与人类译文得分没有显著差别,则机器达到人类水平”为标准,再另请语言顾问进行评分的。

简单来说,就是做同一套WMT2017测试集,以人工翻译的得分为参照,如果机翻的得分能够接近人工得分,就认定机翻达到了人类翻译的水平。“与人类得分足够接近”和“人工判定机翻是否足够精准”显然是两套衡量标准,也就发生了在微软的评分结果里,发生了微软的系统(Combo-4, 5, 6)超过人类翻译(Reference-HT)的水准。

首个在新闻报道的翻译质量和准确率上可以比肩人工翻译?

而这个结果是否就担得起“这是推荐在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统”,这样的赞誉呢?

给定数据集测试

微软所参加的Machine Translation of News是一种给定数据集测试,在严格受限环境下的研究和测试手段,即:给定了训练语料、给定了测试数据,在规定时间里,用这些给定的语料训练出引擎,来处理测试数据,封闭条件下,谁训练出的引擎处理测试数据结果好,谁就是赢家。

WMT的Machine Translation of News属于三个 翻译任务 中的一项(另两项为多模式及生物医学),也就是说是,这项测试首先框定了语言出现的情景:新闻领域。在这项任务里,官方给定了 培训数据 :Europarl语料库、联合国语料库、语言数据联盟(LDC); 开发数据 :并行数据、单语言模型训练数据、开发集、测试集。在这几项严格受限数据里达到人类水平,再对比新闻里所谓的“中英新闻翻译达到人类水平”性对比,就可以知道其中的夸大其词;更何况,微软所应用的newstest2017测试集,官方明文写清了只是来自2016年8月在线新闻中建立的样本,而实际的新闻报道已经有超过400年的积累,忽略了给定数据和封闭环境的语境,这个结论无从谈起。从另一个角度来说,数据集测试只是一种科研竞赛手段,这种手段是否有利于科研发展,目前在学界也是众说纷纭。

不断地突破技术的限制,探讨人工智能的可能性,是所有公司、机构都致力于去不断推进的。微软团队开发的对偶学习(Dual Learning)、推敲网络(Deliberation Networks)、联合训练(Joint Training)、一致性规范(Agreement Regularization)目前全部未到达商用阶段,对于机器翻译的发展是否有积极意义,能否投入实际应用还需要经历更多的考验。它具体真实的现实世界通用环境,并不像新闻里字与字之间说的那么轻易,表现的那么近在咫尺。

人工智能≠取代人类

在语言服务的范畴里,对于已经位列国内最大、亚洲前三、全球排名第十九位,并且掌握超过200项自主知识产权专利、超过150个软件著作权的专业语言服务商传神语联来说,机器和人工不是绝对对立和绝对取代的关系。

人工智能发展到今天,在诸多方面有着人类不可企及的优势,没有人会否定这一点,但这并不表示 人工智能发展的终极目标就是用机器翻译彻底取代人类翻译 ,一味的强调机翻达到了什么样的水准,也并不代表它就具有可应用性,更遑论以现在的技术,要让一个机器人长时间像人一样处理问题,可能要自带两个微型的核电站,而人脑的功耗大约只有10-25瓦。我们大力投入资源,是为了通过应用人工智能,让翻译服务本身变得更好:翻译得更精准,流程更高效,价格更低廉,这才是在语言服务应用人工智能的意义所在,也是 语翼专业人工翻译平台 在语言服务市场上的价值所在:以技术驱动完成去中介化。

微软人工智能又一里程碑:微软中英机器翻译水平可“与人类媲美”

继在语音识别和机器阅读领域取得的“过人”成绩,由微软亚洲研究院与雷德蒙研究院的研究人员组成的团队今天宣布,其 研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测试集上,达到了可与人工翻译媲美的水平 。这是 推荐在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统

newstest2017新闻报道测试集由产业界和学术界的合作伙伴共同开发,并于去年秋天在WMT17大会上发布。为了确保翻译结果准确且达到人类的翻译水平,微软研究团队邀请了双语语言顾问将微软的翻译结果与两个*的人工翻译结果进行了比较评估。

微软技术院士,负责微软语音、自然语言和机器翻译工作的黄学东称,这是对自然语言处理领域最具挑战性任务的一项重大突破。“在机器翻译方面达到与人类相同的水平是所有人的梦想,我们没有想到这么快就能实现。”他表示,“消除语言障碍,帮助人们更好地沟通,这非常有意义,值得我们多年来为此付出的努力。”

微软技术院士黄学东

机器翻译是科研人员攻坚了数十年的研究领域,曾经很多人都认为机器翻译根本不可能达到人类翻译的水平。虽然此次突破意义非凡,但 研究人员也提醒大家,这并不代表人类已经完全解决了机器翻译的问题,只能说明我们离终极目标又更近了一步 。微软亚洲研究院副院长、自然语言计算组负责人周明表示,在WMT17测试集上的翻译结果达到人类水平很鼓舞人心,但仍有很多挑战需要我们解决,比如在实时的新闻报道上测试系统等。

微软机器翻译团队研究经理Arul Menezes表示,团队想要证明的是:当一种语言对(比如中-英)拥有较多的训练数据,且测试集中包含的是常见的大众类新闻词汇时,那么在人工智能技术的加持下机器翻译系统的表现可以与人类媲美。

微软机器翻译团队研究经理Arul Menezes

跨时区跨领域合作,四大技术为创新加持

虽然学术界和产业界的科研人员致力于机器翻译研究很多年,但近两年深度神经网络的使用让机器翻译的表现取得了很多实质性突破,翻译结果相较于以往的统计机器翻译结果更加自然流畅。为了能够取得中-英翻译的里程碑式突破, 来自微软亚洲研究院和雷德蒙研究院的三个研究组,进行了跨越中美时区、跨越研究领域的联合创新

其中, 微软亚洲研究院机器学习组将他们的最新研究成果——对偶学习(Dual Learning)和推敲网络(Deliberation Networks)应用在了此次取得突破的机器翻译系统中 。微软亚洲研究院副院长、机器学习组负责人刘铁岩介绍道,“ 这两个技术的研究灵感其实都来自于我们人类的做事方式。 ”对偶学习利用的是人工智能任务的天然对称性。当我们将其应用在机器翻译上时,效果就好像是通过自动校对来进行学习——当我们把训练集中的一个中文句子翻译成英文之后,系统会将相应的英文结果再翻译回中文,并与原始的中文句子进行比对,进而从这个比对结果中学习有用的反馈信息,对机器翻译模型进行修正。而推敲网络则类似于人们写文章时不断推敲、修改的过程。通过多轮翻译,不断地检查、完善翻译的结果,从而使翻译的质量得到大幅提升。对偶学习和推敲网络的工作发表在NIPS、ICML、AAAI、IJCAI等人工智能的全球顶级会议上,并且已被其他学者推广到机器翻译以外的研究领域。

微软亚洲研究院副院长、机器学习组负责人刘铁岩

周明带领的自然语言计算组多年来一直致力于攻克机器翻译,这一自然语言处理领域最具挑战性的研究任务。周明表示,“由于 翻译没有唯一的标准答案,它更像是一种艺术 ,因此需要更加复杂的算法和系统去应对。”自然语言计算组基于之前的研究积累, 在此次的系统模型中增加了另外两项新技术:联合训练(Joint Training)和一致性规范(Agreement Regularization),以提高翻译的准确性 。联合训练可以理解为用迭代的方式去改进翻译系统,用中英翻译的句子对去补充反向翻译系统的训练数据集,同样的过程也可以反向进行。一致性规范则让翻译可以从左到右进行,也可以从右到左进行,最终让两个过程生成一致的翻译结果。

微软亚洲研究院副院长、自然语言计算组负责人周明

可以说, 两个研究组分别将各自所在领域的积累与最新发现应用在了此次的机器翻译系统中,从不同角度切入,让翻译质量大幅提升 。在项目合作过程中,他们每周都会与雷德蒙总部的团队开会讨论,确保技术可以无缝融合,系统可以快速迭代。

没有“正确的”翻译结果

newstest2017新闻报道测试集包括约2000个句子,由专业人员从在线报纸样本翻译而来 。微软团队对测试集进行了多轮评估,每次评估会随机挑选数百个句子翻译。为了验证微软的机器翻译是否与人类的翻译同样出色,微软没有停留在测试集本身的要求,而是从外部聘请了一群双语语言顾问,将微软的翻译结果与人工翻译进行比较。

验证过程之复杂也从另一个侧面体现了机器翻译要做到准确所面临的复杂性。对于语音识别等其它人工智能任务来说,判断系统的表现是否可与人类媲美相当简单,因为理想结果对人和机器来说完全相同,研究人员也将这种任务称为模式识别任务。

然而,机器翻译却是另一种类型的人工智能任务,即使是两位专业的翻译人员对于完全相同的句子也会有略微不同的翻译,而且两个人的翻译都不是错的。那是因为 表达同一个句子的“正确的”方法不止一种 。 周明表示:“ 这也是为什么机器翻译比纯粹的模式识别任务复杂得多,人们可能用不同的词语来表达完全相同的意思,但未必能准确判断哪一个更好 。”

复杂性让机器翻译成为一个极有挑战性的问题,但也是一个极有意义的问题。刘铁岩认为,我们不知道哪一天机器翻译系统才能在翻译任何语言、任何类型的文本时,都能在“信、达、雅”等多个维度上达到专业翻译人员的水准。不过,他对技术的进展表示乐观,因为每年微软的研究团队以及整个学术界都会发明大量的新技术、新模型和新算法,“ 我们可以预测的是,新技术的应用一定会让机器翻译的结果日臻完善 。”

研究团队还表示,此次技术突破将被应用到微软的商用多语言翻译系统产品中,从而帮助其它语言或词汇更复杂、更专业的文本实现更准确、更地道的翻译。此外, 这些新技术还可以被应用在机器翻译之外的其他领域,催生更多人工智能技术和应用的突破

延伸阅读:

对偶学习(Dual Learning) :对偶学习的发现是由于现实中有意义、有实用价值的人工智能任务往往会成对出现,两个任务可以互相反馈,从而训练出更好的深度学习模型。例如,在翻译领域,我们关心从英文翻译到中文,也同样关心从中文翻译回英文;在语音领域,我们既关心语音识别的问题,也关心语音合成的问题;在图像领域,图像识别与图像生成也是成对出现。此外,在对话引擎、搜索引擎等场景中都有对偶任务。

一方面,由于存在特殊的对偶结构,两个任务可以互相提供反馈信息,而这些反馈信息可以用来训练深度学习模型。也就是说,即便没有人为标注的数据,有了对偶结构也可以做深度学习。另一方面,两个对偶任务可以互相充当对方的环境,这样就不必与真实的环境做交互,两个对偶任务之间的交互就可以产生有效的反馈信号。因此, 充分地利用对偶结构,就有望解决深度学习和增强学习的瓶颈——训练数据从哪里来、与环境的交互怎么持续进行等问题

论文地址:https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation.pdf

对偶无监督学习框架

推敲网络(Deliberation Networks) “推敲”二字可以认为是来源于人类阅读、写文章以及做其他任务时候的一种行为方式,即任务完成之后,并不当即终止,而是会反复推敲 。微软亚洲研究院机器学习组将这个过程沿用到了机器学习中。推敲网络具有两段解码器,其中靠前阶段解码器用于解码生成原始序列,第二阶段解码器通过推敲的过程打磨和润色原始语句。后者了解全局信息,在机器翻译中看,它可以基于靠前阶段生成的语句,产生更好的翻译结果。

机器翻译四大技术新突破,微软中英新闻翻译达人类水平!

翻译没有唯一标准答案,它更像一种艺术。

14日晚,微软亚洲研究院与雷德蒙研究院的研究人员宣布,其研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测试集上,达到了可与人工翻译媲美的水平;这是推荐在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。

newstest2017测试集由来自产业界和学术界的团队共同开发完成,并于2017年在WMT17大会上发布。而新闻(news)测试集则是三类翻译测试集中的一个,其他两类为生物医学(biomedical)和多模式(multimodal)。

四大技术

我们知道,对于同一个意思人类可以用不同的句子来表达,因此翻译并没有标准答案,即使是两位专业的翻译人员对于完全相同的句子也会有略微不同的翻译,而且两个人的翻译都不错。微软亚洲研究院副院长、自然语言计算组负责人周明表示:“这也是为什么机器翻译比纯粹的模式识别任务复杂得多,人们可能用不同的词语来表达完全相同的意思,但未必能准确判断哪一个更好。”

这也是为什么科研人员在机器翻译上攻坚了数十年,甚至曾经很多人都认为机器翻译永远不可能达到人类翻译的水平。近两年随着深度神经网络的引入,机器翻译的表现取得了很多显著的提升,翻译结果相较于以往的统计机器翻译结果更加的自然流畅。

据雷锋网(公众号:雷锋网)了解,在这次的工作中来自微软亚洲研究院和雷德蒙研究院的三个研究组通过多次交流合作,将他们的研究工作相结合,再次更进一步地提高了机器翻译的质量,其中用到的技术包括对偶学习(Dual Learning)、推敲网络(Deliberation Networks)、联合训练(Joint Training)和一致性规范(Agreement Regularization)等。

对偶无监督学习框架

对偶学习,即利用任务的对偶结构来进行学习。例如,在翻译领域,我们关心从英文翻译到中文,也同样关心从中文翻译回英文。由于存在这样的对偶结构,两个任务可以互相提供反馈信息,而这些反馈信息可以用来训练深度学习模型。也就是说,即便没有人为标注的数据,有了对偶结构也可以做深度学习。另一方面,两个对偶任务可以互相充当对方的环境,这样就不必与真实的环境做交互,两个对偶任务之间的交互就可以产生有效的反馈信号。因此,充分地利用对偶结构,就有望解决深度学习和增强学习的瓶颈——训练数据从哪里来、与环境的交互怎么持续进行等问题。

推敲网络的解码过程

推敲网络中的“推敲”二字可以认为是来源于人类阅读、写文章以及做其他任务时候的一种行为方式,即任务完成之后,并不当即终止,而是会反复推敲。微软亚洲研究院机器学习组将这个过程沿用到了机器学习中。推敲网络具有两段解码器,其中靠前阶段解码器用于解码生成原始序列,第二阶段解码器通过推敲的过程打磨和润色原始语句。后者了解全局信息,在机器翻译中看,它可以基于靠前阶段生成的语句,产生更好的翻译结果。

联合训练:从源语言到目标语言翻译(Source to Target)P(y|x) 与从目标语言到源语言翻译(Target to Source)P(x|y)

联合训练可以认为是从源语言到目标语言翻译(Source to Target)的学习与从目标语言到源语言翻译(Target to Source)的学习的结合。中英翻译和英中翻译都使用初始并行数据来训练,在每次训练的迭代过程中,中英翻译系统将中文句子翻译成英文句子,从而获得新的句对,而该句对又可以反过来补充到英中翻译系统的数据集中。同理,这个过程也可以反向进行。这样双向融合不仅使得两个系统的训练数据集大大增加,而且准确率也大幅提高。

一致性规范:从左到右P(y|x,theta->) 和从右到左P(y|x,theta<-)

一致性规范,即翻译结果可以从左到右按顺序产生,也可以从右到左进行生成。该规范对从左到右和从右到左的翻译结果进行约束。如果这两个过程生成的翻译结果一样,一般而言比结果不一样的翻译更加可信。这个约束,应用于神经机器翻译训练过程中,以鼓励系统基于这两个相反的过程生成一致的翻译结果。

与人类比较

由于机器翻译没有“正确的”翻译结果,为了与人类的翻译水平进行比较,就必须严格地定义什么是与人类翻译水平相当。根据其发表的论文中表述,这种定义有两种:

1、如果一个具备双语能力的人判断人类输出的译文质量与机器输出的译文质量相当,则机器达到人类水平。

2、如果机器翻译系统在测试集上的译文质量得分(人工评分)与人类译文得分没有显著差别,则机器达到人类水平。

微软选择了第二种定义,因为这样相对而言比较公平且有实际意义。

newstest2017新闻报道测试集中共包括了约2000个句子,它们是由专业人员从在线报纸样本翻译而来。

微软团队对测试集进行了多轮评估,每次评估会随机挑选数百个句子进行翻译。

随后,为了验证微软的机器翻译是否达到了人类翻译水平,微软从外部聘请了一群双语语言顾问,让他们对微软的翻译结果和人工的翻译进行比较和评分,结果如下:

#表示集群的排名,Ave%表示平均原始分数(范围在[0,100]之间),Ave z表示标准 z分数。该表显示了系统收集了至少1827份评估结果。

从表中我们可以看出,微软的系统(Combo-4, 5, 6)已经与人类翻译(Reference-HT)无显著差别,远远超过Reference-PE(人类翻译—基于机器翻译后的编辑)以及Reference-WMT。

任重而道远

对于这项结果,来自微软的研究人员却表现地极为自然。

微软技术院士黄学东,负责微软语音、自然语言和机器翻译

微软技术院士黄学东告诉记者:

“在机器翻译方面达到与人类相同的水平是所有人的梦想,我们没有想到这么快就能实现。消除语言障碍,帮助人们更好地沟通,这非常有意义,值得我们多年来为此付出的努力。”

微软机器翻译团队研究经理Arul Menezes表示:

“团队想要证明的是:当一种语言对(比如中-英)拥有较多的训练数据,且测试集中包含的是常见的大众类新闻词汇时,那么在人工智能技术的加持下机器翻译系统的表现可以与人类媲美。”

微软亚洲研究院副院长、自然语言计算组负责人周明

微软亚洲研究院副院长、自然语言计算组负责人周明则表示任重而道远:

“在WMT17测试集上的翻译结果达到人类水平很鼓舞人心,但仍有很多挑战需要我们解决,比如在实时的新闻报道上测试系统等。”

微软亚洲研究院副院长、机器学习组负责人刘铁岩

而微软亚洲研究院副院长、机器学习组负责人刘铁岩对技术的进展表示乐观:

“我们不知道哪一天机器翻译系统才能在翻译任何语言、任何类型的文本时,都能在“信、达、雅”等多个维度上达到专业翻译人员的水准。我们可以预测的是,新技术的应用一定会让机器翻译的结果日臻完善。”

据雷锋网了解,此次的技术突破将很快应用到微软的商用多语言翻译系统产品中,从而帮助其它语言或词汇更复杂、更专业的文本实现更准确、更地道的翻译。此外,这些新技术还可以被应用在机器翻译之外的其他领域,催生更多人工智能技术和应用的突破。

以上就是首个在新闻报道的翻译质量和准确率上可以比肩人工翻译?的详细内容,希望通过阅读小编的文章之后能够有所收获!

版权:本文由用户自行上传,观点仅代表作者本人,本站仅供存储服务。如有侵权,请联系管理员删除,了解详情>>

发布
问题