Monthly Archives: October 2019

//October

中科院计算所冯洋副研究员应邀做学术报告

2019-10-29T17:36:30+00:00

中科院计算所冯洋副研究员应邀做学术报告 2019年10月29日下午,应实验室孙乐研究员和韩先培研究员的邀请,中科院计算技术研究所冯洋副研究员到访实验室,为实验室师生做了题为“机器翻译的训练改进和解码提速”的学术报告。 冯老师的报告聚焦于机器翻译训练和测试阶段的四个困难,分别介绍了四个相对应的工作。首先,冯老师简要阐述了当前机器翻译使用的序列到序列模型架构:RnnSearch和Transformer,并指出在现有机器翻译模型训练阶段存在的:1)曝光偏差;2)词级匹配的问题以及测试阶段存在的:3)Beam Search搜索空间过大;4)顺序解码时效性差的问题。 曝光偏差是指机器翻译模型训练阶段将上一时刻准确的词作为输入以预测这一时刻的词,而测试阶段没有标准的目标端输出词只能将上一时刻预测的词作为输入。而这就导致了训练阶段与测试阶段的不一致。冯老师针对该问题介绍了他们在ACL2019的Best Long Paper:Bridging the Gap between Training and Inference for Neural Machine Translation。该文章通过在训练阶段生成并采样Oracle翻译使得模型训练和测试阶段一致。详细的实验证明提出方法的有效性。 词级匹配是指机器翻译模型在训练阶段采用的策略是词级别匹配的Teacher Forcing方法。这种词级别匹配的方法对序列并不敏感,而传统序列级的损失函数不可导。冯老师针对该问题介绍了他们在EMNLP2018的长文:Greedy Search with Probabilistic N-gram Matching for Neural Machine Translation。该文章提出了可导的序列级损失函数:概率化GLEU,并在训练阶段采用贪心搜索的策略获得整个序列。最终实验证明了提出方法的有效性。 Beam Search搜索空间过大是指机器翻译解码阶段往往通过Beam Search搜索较优解。而Beam Search的复杂性以及机器翻译任务庞大的词表限制了机器翻译解码的速度。冯老师针对该问题介绍了他们在EMNLP2018的长文:Speeding Up Neural Machine Translation Decoding by Cube Pruning。该文章将Beam Search的二维拓展为三维并使用Cube Pruning技术大大加快了模型解码速度。实验证明提出的方法能够大大加速机器翻译模型的解码。 顺序解码时效性差是指机器翻译解码阶段通常使用自回归技术使得模型对已解码信息感知。而自回归需要模型从左至右顺序解码,无法很好并行从而限制了模型解码速度。冯老师针对该问题介绍了他们在ACL2019的长文:Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation。该文章在传统非自回归模型基础上使用了序列级训练技巧,以及带有回归层的非自回归模型。实验证明提出的方法相比传统非自回归模型性能更优。相比自回归模型,提出方法在性能可比的情况下提升了不少速度。 报告结束后,冯洋老师与实验室师生进行了热烈的互动,又为大家介绍了ACL最佳论文必须具备的品质,回答了大家如何做科研,如何度过充实有意义的博士阶段等问题。冯老师的报告内容充实,信息量非常大,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生获益良多。 责任编辑:马龙龙 编辑:唐家龙      

中科院计算所冯洋副研究员应邀做学术报告 2019-10-29T17:36:30+00:00

中文信息处理分工会组织秋游活动

2019-10-29T17:38:02+00:00

天朗气清,金海赏秋 一年好景君须记,最是橙黄橘绿时,金海赏秋正当时。10月27日,中文信息处理实验室组织职工及学生20余人奔赴北京市金海湖,一赏秋日美景。 金海湖风景区,地处京城东北85公里京津唐交界的三角地带,三面环山,峰峦叠翠、风景秀丽,有千岛湖的湖观山色,又有兔耳岭的怪石嶙峋,有湖光塔、金花公主墓、望海亭、锯齿崖等自然景观、人文景观数十处。 金海湖水域宽阔、碧波万顷,是开展水上娱乐项目的理想之所。待到暖阳染红苍穹,湖面泛起点点金芒,荡起轻舸,泛舟湖上,微风吹皱粼粼涟漪,人在其中静静欣赏着青峰翠嶂,仿佛置身水墨山水之中,令人忘返。   告别秋水盈盈的金海湖,大家来到了苹果采摘园体验采收。晚秋的时节,带着丝丝凉意,大家健步快走、气氛热烈融洽,零距离感受田园风光,体验亲手采摘的超凡乐趣。 夕阳渐斜,告别秋日的宁静与秀美,我们重新回到实验室投入紧张的工作与学习。相信我们的辛勤耕种,一定会换来收获的沉淀与甘甜;作为一个团体,中文信息处理实验室也必将不断成长,砥砺前行! 供稿人:周赢、徐若曦    

中文信息处理分工会组织秋游活动 2019-10-29T17:38:02+00:00

中文信息处理实验室多名师生参加CCL2019

2019-10-28T19:02:22+00:00

中文信息处理实验室多名师生参加CCL2019 “第十八届中国计算语言学大会”(The Eighteenth China National Conference on Computational Linguistics, CCL 2019)于2019年10月18日-20日在昆明成功举行,会议由中国中文信息学会主办,昆明理工大学承办,组织单位为清华大学。大会吸引了来自海内外的八百余名科研学者、工业界专家和知名企业代表参加。实验室师生代表参加了CCL2019。 实验室师生代表参加CCL2019 本次大会在主会前一天举办了前沿技术讲习班、HowNet研讨会和学生研讨会。在会议讲习班上,复旦大学邱锡鹏副教授、清华大学崔鹏副教授、哈尔滨工业大学车万翔教授、中科院自动化所张家俊副研究员介绍了生成对抗网络、图神经网络、预训练语言模型、文本生成等前沿技术。为了纪念今年初去世的我国计算语言学泰斗董振东先生,本次会议组织了首届OpenHowNet学术研讨会。大会还邀请了国内一线青年教师和优秀博士生为参会者带来精彩的学生研讨会。 主会包括特邀报告、优秀学术论文报告、自然语言处理国际前沿动态综述、技术评测与竞赛及系统展示等环节。特邀报告环节邀请了英国皇家工程院院士、欧洲科学院院士、英国帝国理工大学郭毅可教授,《人工智能简史》作者、乌镇智库理事长张晓东先生,浙江大学计算机学院副院长陈为教授,京东AI研究院常务副院长何晓冬博士,美国伊利诺伊大学厄巴纳-香槟分校季姮教授做大会特邀报告,为与会者带来了一场丰富精彩的学术盛宴。 实验室孙乐研究员(学会副理事长兼秘书长)出席了大会开幕式,同时在开幕式上宣布了2019年学会“优秀博士学位论文”获奖名单,并为获得“优秀博士学位论文”提名奖获得者进行颁奖。在会议闭幕之前,孙乐研究员还为CCL2019最佳中文论文奖的作者颁奖。在学会第八届理事会上,孙乐研究员向全体理事作了2019年学会年度工作报告,从学术活动、组织建设、技术评测、奖励推荐、期刊编辑、会员发展、网站改版及脱贫攻坚等方面回顾了学会2019年工作。 孙乐研究员出席大会开幕式 孙乐研究员宣布优秀博士学位论文获奖名单 孙乐研究员为获得CIPS“优秀博士学位论文”提名奖的作者颁奖 孙乐研究员和季姮教授为CCL2019最佳中文论文奖作者颁奖 孙乐研究员作学会2019年工作报告 实验室韩先培研究员在本次大会中担任系统展示主席;此外,韩先培老师与自动化所刘康老师在学生研讨会环节为参会者带来题为《做失败科研的10个方法》的报告,以幽默风趣的方式为参会者讲解了如何避免科研中常见的误区,两位老师基于在30年(求和得出)科研经历中遇到过、看到过、听到过的失败科研方法,包括失败科研的哲学、心态、理念、方法、技术和工具,生动的给出失败科研的反面—如何做出成功的科研。 韩先培研究员和刘康副研究员在学生研讨会环节作报告 本次会议共收到论文投稿 371 篇(包括中文 237 篇,英文 134 篇);最终录用 146 篇论文(中文 90 篇,英文 56 篇)。实验室刘磊同学的论文《一个面向中文古诗词理解难易度的人工标注数据集》(刘磊, 何苯, 孙乐)被大会录用。 硕士生刘磊进行poster展示   责任编辑:马龙龙 编辑:周赢    

中文信息处理实验室多名师生参加CCL2019 2019-10-28T19:02:22+00:00