中科院计算所冯洋副研究员应邀做学术报告
2019年10月29日下午,应实验室孙乐研究员和韩先培研究员的邀请,中科院计算技术研究所冯洋副研究员到访实验室,为实验室师生做了题为“机器翻译的训练改进和解码提速”的学术报告。
冯老师的报告聚焦于机器翻译训练和测试阶段的四个困难,分别介绍了四个相对应的工作。首先,冯老师简要阐述了当前机器翻译使用的序列到序列模型架构:RnnSearch和Transformer,并指出在现有机器翻译模型训练阶段存在的:1)曝光偏差;2)词级匹配的问题以及测试阶段存在的:3)Beam Search搜索空间过大;4)顺序解码时效性差的问题。
曝光偏差是指机器翻译模型训练阶段将上一时刻准确的词作为输入以预测这一时刻的词,而测试阶段没有标准的目标端输出词只能将上一时刻预测的词作为输入。而这就导致了训练阶段与测试阶段的不一致。冯老师针对该问题介绍了他们在ACL2019的Best Long Paper:Bridging the Gap between Training and Inference for Neural Machine Translation。该文章通过在训练阶段生成并采样Oracle翻译使得模型训练和测试阶段一致。详细的实验证明提出方法的有效性。
词级匹配是指机器翻译模型在训练阶段采用的策略是词级别匹配的Teacher Forcing方法。这种词级别匹配的方法对序列并不敏感,而传统序列级的损失函数不可导。冯老师针对该问题介绍了他们在EMNLP2018的长文:Greedy Search with Probabilistic N-gram Matching for Neural Machine Translation。该文章提出了可导的序列级损失函数:概率化GLEU,并在训练阶段采用贪心搜索的策略获得整个序列。最终实验证明了提出方法的有效性。
Beam Search搜索空间过大是指机器翻译解码阶段往往通过Beam Search搜索较优解。而Beam Search的复杂性以及机器翻译任务庞大的词表限制了机器翻译解码的速度。冯老师针对该问题介绍了他们在EMNLP2018的长文:Speeding Up Neural Machine Translation Decoding by Cube Pruning。该文章将Beam Search的二维拓展为三维并使用Cube Pruning技术大大加快了模型解码速度。实验证明提出的方法能够大大加速机器翻译模型的解码。
顺序解码时效性差是指机器翻译解码阶段通常使用自回归技术使得模型对已解码信息感知。而自回归需要模型从左至右顺序解码,无法很好并行从而限制了模型解码速度。冯老师针对该问题介绍了他们在ACL2019的长文:Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation。该文章在传统非自回归模型基础上使用了序列级训练技巧,以及带有回归层的非自回归模型。实验证明提出的方法相比传统非自回归模型性能更优。相比自回归模型,提出方法在性能可比的情况下提升了不少速度。
报告结束后,冯洋老师与实验室师生进行了热烈的互动,又为大家介绍了ACL最佳论文必须具备的品质,回答了大家如何做科研,如何度过充实有意义的博士阶段等问题。冯老师的报告内容充实,信息量非常大,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生获益良多。
责任编辑:马龙龙
编辑:唐家龙