全网多领域智能翻译首上线——新译科技机器翻译更新上线
全网多领域智能翻译首上线——新译科技机器翻译更新上线
摘要
新译信息科技(北京/深圳)有限公司(以下简称“新译科技”)技术团队历经四个月的努力更新上线了该次垂直领域的机器翻译。该次更新对底层架构进行了彻底更换,并对机器翻译解码器的速度和质量再提高。
该次升级涉及英语,中文,俄语和维语,并覆盖中英新闻媒体、IT通讯、专利产权、金融财经、生物医学、法律合同,工程制造、国际工程、石油化工、旅游口语十个领域和方向。
新版机翻多领域化方向全网首次上线,翻译速度更快,翻译质量更高。大家如果迫不及待想体验可直接点击链接前往体验公测版(http://mt.newtranx.com),如果对其中的技术细节和性能感兴趣可继续阅读哦。
技术部分正文
2014年至今,机器翻译领域可以说是翻天覆地。这期间发生的大事,是以神经网络作为基础的神经网络机器翻译(NMT),开始在全面超越此前以统计模型为基础的统计机器翻译(***T),并快速成为在线翻译系统的主流标配。
NMT的基本思想,是以每一个句子作为独立的神经元,从而打破传统基于短语的翻译障碍。此外,NMT跳过传统基于短语的机器翻译中间各种子NLP步骤(分词、词性标注、句法分析等),用深层的网络结构去直接学习拟合源语言到目标语言的概率,可以实现监督训练,不必完全依赖固定数据,这可以在专业领域等资料稀少的环节,获得更好的翻译结果 。
图1:人工智能能技术图谱
新译科技专注人工智能文本领域(自然语言理解),自2014年成立以来一直致力于机器翻译质量的不断提升和改进,不断为B端G端用户提供强有力的支撑服务。新译科技深圳公司机器翻译技术团队,历经四个月再次更新完善一版,该版本不论训练效率还是解码速度和质量都较前一版有较大提升,从技术工程层面看,该次系统较2016年6月和2015版本有如下改变:
图2:各版本机器翻译对比
本次更新主要有以下特点:
1.支持GPU多卡训练
该次升级主要对原有神经网络算法的工程改进以及全部底层语言代码的统一,事实上,近年来深度学习取得的许多进展都源于模型容量的增加和计算力的相应提升。模型容量增大,通常会涉及使用更大、更深的网络,而这些网络又需要复杂的超参数设置和调整。因此,不断增大的模型和超参数数量也大大增加了训练时间。快速的训练是增量学习能够实用的一个前提保证,所以尽可能的缩短训练时间也是这次更新的重点。通过技术人员的测试,该次更新也支持了多卡训练,让单GPU训练速度接近1.5-2倍的速度快于开源框架Theano, Tensorflow, Torch的训练时间。我们以每秒钟能够处理的单词数(中文为分词后词语)为评测标准,图2中展示了多卡训练的效果,在NVIDIA GTX 1080 TI的训练中,我们发现随着GPU卡数的增多,能够每秒处理的单词数不断增多。现实测试发现,训练效果比较明显的是4卡同时训练,增加到6卡的时候,提升幅度降低,但是仍然有所提高,能够从单卡每秒4000到每秒15000单词的效果,这样可以大大提升我们的更新线上语言对的速度。当前在分布式集群训练环境下,只需要3-5天的时间就可以训练一个千万句对的双语数据。
图3:多GPU卡训练效率评测
2.支持CPU和GPU多卡解码
同时本次系统也同时支持CPU和GPU解码。在真实的B端和G端业务中,我们发现用户对CPU和GPU均有需求,由于各种原因,部分用户对GPU服务器的采购是限制的,所以能够在现有CPU服务器上进行解码实用就变得越来越重要。该次更新中,我们增加了对CPU和GPU同时支持,并且响应速度大幅提升。
在CPU解码中:
?第一版的统计机器翻译(435词/秒)解码速度大约是统计神经网络混合模型(37词/秒)的12倍;
?16线程解码速度中,纯神经网络机器翻译(170词/秒)是混合解码速度(37词/秒)的4倍,是纯统计模型的1/3;
?第二版纯神经网络解码速度(235词/秒)是第一版速度的1.5倍(170词/秒)。
在GPU解码中:
?第二版纯神经网络单卡单线程解码速度(830词/秒)是第一版解码速度(235词/秒)的3倍;
?第二版解码中在BLEU大致相同的情况下,解码空间从15降为8,速度最高为1128词/秒;
图4:新老版本CPU、GPU解码速度评测
3.多领域翻译支持
当前有一个共识就是,在一定数量的双语数据中,垂直领域的机器翻译要比通用的效果好。这次更新中,我们对公司现存的5.7亿句中英双语数据进行归类整理,划分出了25个领域。最终选择了新闻媒体、IT通讯、专利产权、金融财经、生物医学、法律合同,工程制造、机械工程、石油化工、旅游口语十个领域和方向作为首批上线领域(图5)。
图5:新版机器翻译10个领域划分
之所以优先选择这几类领域,是因为机器翻译擅长是叙述性文本的表述和传达,对于创作性内容(诗歌,散文)并不完美。而这几个领域正好符合表述相对固定,容易被机器“理解”。从实践的效果来看,同样一句话,选择不同的领域翻译的质量也会有些许差异,甚至很大的质量差异。这也从结果的层面来验证领域翻译的重要性。
4.效果评测
为了检验本次更新的效果,我们也使用公开的联合国领域内数据(United Nations Parallel Corpus v1.0)以及UM-Corpus做了评测。其中公开的United Nations Parallel Corpus v1.0为1990年到2014年的数据,我们选择了所有的外语到中文的双语数据(英中、法中、西班牙中、阿拉伯语中、俄语中文),另外补充了2015-2016年的联合国双语数据每个语言对大约30万句以及UM-Corpus的210万句英中双语数据。测试集合选择United Nations Parallel Corpus v1.0中的公开测试集合开发集。图6给出了以BELU值作为评测指标的对比图。
图6:新老版本NMT引擎对比
从图6中的评测中可以看出,新版系统翻译质量较上一版本提升效果明显,基本都达到了2个BLEU值的提升(BLEU为机器翻译中常用的自动评测方法,更多关于机器翻译的评测方法介绍,可以关注新译大讲堂的详细讲解:《 新译科技讲堂 | 机器翻译评测 》),最高能提升9个百分点。当然,自动评测虽然能从一定程度上能反应出同样测试集,在不同系统中的性能,但是在实际的过程中,人工翻译同样也是一个很重要的指标。这里剧透下我们合作机构的评测结果,专业的译员对300句法律领域评测中显示,有261句可以达到直接稍微修改即可使用的程度,其中有23句的漏译(原文中某些短语片段不翻译)和9句的过译(某个短语片段会重复翻译)问题,有7句需要大的修改,属于机器翻译错误。更多的测试,这里我们留给广大的用户来评测和反馈。
此外,该次测试数据中,我们完善了UM-CORPUS中原有的数据,更正去除了其中的乱码和错误的地方,并且补充了100万句通用领域的双语句对,供研究者学习使用。训练数据我们将在十一过后,随着上线更多的语言通知中一起提供。
等了好久的十一长假即将来临。想想八天的假期,是不是有点小激动? 新译给大伙准备了一个特殊的礼物。假期期间用我们新上线的机器翻译系统,你将减少语言沟通的障碍。迫不及待想试试了吧?那就点击http://mt.newtranx.com/ 体验吧。
新译信息科技(北京/深圳)有限公司(以下简称“新译科技”)技术团队历经四个月的努力更新上线了该次垂直领域的机器翻译。该次更新对底层架构进行了彻底更换,并对机器翻译解码器的速度和质量再提高。
该次升级涉及英语,中文,俄语和维语,并覆盖中英新闻媒体、IT通讯、专利产权、金融财经、生物医学、法律合同,工程制造、国际工程、石油化工、旅游口语十个领域和方向。
新版机翻多领域化方向全网首次上线,翻译速度更快,翻译质量更高。大家如果迫不及待想体验可直接点击链接前往体验公测版(http://mt.newtranx.com),如果对其中的技术细节和性能感兴趣可继续阅读哦。
技术部分正文
2014年至今,机器翻译领域可以说是翻天覆地。这期间发生的大事,是以神经网络作为基础的神经网络机器翻译(NMT),开始在全面超越此前以统计模型为基础的统计机器翻译(***T),并快速成为在线翻译系统的主流标配。
NMT的基本思想,是以每一个句子作为独立的神经元,从而打破传统基于短语的翻译障碍。此外,NMT跳过传统基于短语的机器翻译中间各种子NLP步骤(分词、词性标注、句法分析等),用深层的网络结构去直接学习拟合源语言到目标语言的概率,可以实现监督训练,不必完全依赖固定数据,这可以在专业领域等资料稀少的环节,获得更好的翻译结果 。
图1:人工智能能技术图谱
新译科技专注人工智能文本领域(自然语言理解),自2014年成立以来一直致力于机器翻译质量的不断提升和改进,不断为B端G端用户提供强有力的支撑服务。新译科技深圳公司机器翻译技术团队,历经四个月再次更新完善一版,该版本不论训练效率还是解码速度和质量都较前一版有较大提升,从技术工程层面看,该次系统较2016年6月和2015版本有如下改变:
图2:各版本机器翻译对比
本次更新主要有以下特点:
1.支持GPU多卡训练
该次升级主要对原有神经网络算法的工程改进以及全部底层语言代码的统一,事实上,近年来深度学习取得的许多进展都源于模型容量的增加和计算力的相应提升。模型容量增大,通常会涉及使用更大、更深的网络,而这些网络又需要复杂的超参数设置和调整。因此,不断增大的模型和超参数数量也大大增加了训练时间。快速的训练是增量学习能够实用的一个前提保证,所以尽可能的缩短训练时间也是这次更新的重点。通过技术人员的测试,该次更新也支持了多卡训练,让单GPU训练速度接近1.5-2倍的速度快于开源框架Theano, Tensorflow, Torch的训练时间。我们以每秒钟能够处理的单词数(中文为分词后词语)为评测标准,图2中展示了多卡训练的效果,在NVIDIA GTX 1080 TI的训练中,我们发现随着GPU卡数的增多,能够每秒处理的单词数不断增多。现实测试发现,训练效果比较明显的是4卡同时训练,增加到6卡的时候,提升幅度降低,但是仍然有所提高,能够从单卡每秒4000到每秒15000单词的效果,这样可以大大提升我们的更新线上语言对的速度。当前在分布式集群训练环境下,只需要3-5天的时间就可以训练一个千万句对的双语数据。
图3:多GPU卡训练效率评测
2.支持CPU和GPU多卡解码
同时本次系统也同时支持CPU和GPU解码。在真实的B端和G端业务中,我们发现用户对CPU和GPU均有需求,由于各种原因,部分用户对GPU服务器的采购是限制的,所以能够在现有CPU服务器上进行解码实用就变得越来越重要。该次更新中,我们增加了对CPU和GPU同时支持,并且响应速度大幅提升。
在CPU解码中:
?第一版的统计机器翻译(435词/秒)解码速度大约是统计神经网络混合模型(37词/秒)的12倍;
?16线程解码速度中,纯神经网络机器翻译(170词/秒)是混合解码速度(37词/秒)的4倍,是纯统计模型的1/3;
?第二版纯神经网络解码速度(235词/秒)是第一版速度的1.5倍(170词/秒)。
在GPU解码中:
?第二版纯神经网络单卡单线程解码速度(830词/秒)是第一版解码速度(235词/秒)的3倍;
?第二版解码中在BLEU大致相同的情况下,解码空间从15降为8,速度最高为1128词/秒;
图4:新老版本CPU、GPU解码速度评测
3.多领域翻译支持
当前有一个共识就是,在一定数量的双语数据中,垂直领域的机器翻译要比通用的效果好。这次更新中,我们对公司现存的5.7亿句中英双语数据进行归类整理,划分出了25个领域。最终选择了新闻媒体、IT通讯、专利产权、金融财经、生物医学、法律合同,工程制造、机械工程、石油化工、旅游口语十个领域和方向作为首批上线领域(图5)。
图5:新版机器翻译10个领域划分
之所以优先选择这几类领域,是因为机器翻译擅长是叙述性文本的表述和传达,对于创作性内容(诗歌,散文)并不完美。而这几个领域正好符合表述相对固定,容易被机器“理解”。从实践的效果来看,同样一句话,选择不同的领域翻译的质量也会有些许差异,甚至很大的质量差异。这也从结果的层面来验证领域翻译的重要性。
4.效果评测
为了检验本次更新的效果,我们也使用公开的联合国领域内数据(United Nations Parallel Corpus v1.0)以及UM-Corpus做了评测。其中公开的United Nations Parallel Corpus v1.0为1990年到2014年的数据,我们选择了所有的外语到中文的双语数据(英中、法中、西班牙中、阿拉伯语中、俄语中文),另外补充了2015-2016年的联合国双语数据每个语言对大约30万句以及UM-Corpus的210万句英中双语数据。测试集合选择United Nations Parallel Corpus v1.0中的公开测试集合开发集。图6给出了以BELU值作为评测指标的对比图。
图6:新老版本NMT引擎对比
从图6中的评测中可以看出,新版系统翻译质量较上一版本提升效果明显,基本都达到了2个BLEU值的提升(BLEU为机器翻译中常用的自动评测方法,更多关于机器翻译的评测方法介绍,可以关注新译大讲堂的详细讲解:《 新译科技讲堂 | 机器翻译评测 》),最高能提升9个百分点。当然,自动评测虽然能从一定程度上能反应出同样测试集,在不同系统中的性能,但是在实际的过程中,人工翻译同样也是一个很重要的指标。这里剧透下我们合作机构的评测结果,专业的译员对300句法律领域评测中显示,有261句可以达到直接稍微修改即可使用的程度,其中有23句的漏译(原文中某些短语片段不翻译)和9句的过译(某个短语片段会重复翻译)问题,有7句需要大的修改,属于机器翻译错误。更多的测试,这里我们留给广大的用户来评测和反馈。
此外,该次测试数据中,我们完善了UM-CORPUS中原有的数据,更正去除了其中的乱码和错误的地方,并且补充了100万句通用领域的双语句对,供研究者学习使用。训练数据我们将在十一过后,随着上线更多的语言通知中一起提供。
等了好久的十一长假即将来临。想想八天的假期,是不是有点小激动? 新译给大伙准备了一个特殊的礼物。假期期间用我们新上线的机器翻译系统,你将减少语言沟通的障碍。迫不及待想试试了吧?那就点击http://mt.newtranx.com/ 体验吧。
感恩有你- 帖子数 : 2077
注册日期 : 17-06-08
您在这个论坛的权限:
您不能在这个论坛回复主题