Yearly Archives: 2019

/2019

大阪大学褚晨翚博士应邀做学术报告

2019-12-25T15:42:42+00:00

大阪大学褚晨翚博士应邀做学术报告 2019年12月24日下午,应实验室孙乐研究员和韩先培研究员邀请,大阪大学褚晨翚博士到访实验室,为实验室师生作了题为“从多语言到多模态处理”的学术报告。 褚晨翚博士的报告主要聚焦于近年来极为热门的跨语言及跨模态相关的研究。在报告中,褚博士主要介绍了其课题组近期发表在顶级刊物上的三个科研成果,内容涉及多语言机器翻译、视觉问答复述以及基于知识的视觉问答等重要方向。 在多语言机器翻译上,褚博士提出了一种全新的三步骤微调学习方案,大幅度地提升了多语言机器翻译模型的性能。 在视觉问答复述上,褚博士的课题组率先提出了在视觉问答中需要考虑训练以及测试中的复述现象,提出了一个全新的视觉复述识别任务,并对该任务进行了系统性的研究。 在基于知识的视觉问答上,褚博士的课题组构造了一个全新的视觉问答数据,该数据需要综合各种不同的背景知识进行推理,从而能够很好地衡量模型基于知识推理的能力。 报告结束后,褚博士与实验室师生进行了热烈的互动,并对多模态学习的未来发展方向进行了展望。褚博士凭借多年来跨语言学习以及多模态学习领域的深厚积累,为大家带来非常具有启发意义的报告,使得大家获益良多。   责任编辑:马龙龙 编辑:林鸿宇      

大阪大学褚晨翚博士应邀做学术报告 2019-12-25T15:42:42+00:00

浙江大学丁鼐研究员应邀做学术报告

2019-12-12T17:01:23+00:00

浙江大学丁鼐研究员应邀做学术报告 2019年12月12日下午,应实验室孙乐研究员和韩先培研究员邀请,浙江大学生物医学工程与仪器科学学院丁鼐研究员,为实验室师生作了题为“层级语言结构的认知神经加工”的学术报告。 丁鼐老师首先通过一系列实验向大家介绍了大脑如何编码语音中不同层级的语言单元——比如音节、词、短语和语句。这些实验主要建模语言特征与脑信号之间的关系,实验结果显示不同时间尺度的神经振荡表征不同大小的语言单元,这也说明了大脑构建了多层级的语言表征。 随后丁鼐老师介绍了注意力如何影响大脑对不同大小语言单元的编码。实验发现高级语言结构加工更依赖于注意力,而且句子聆听过程中的注意焦点可以调节大脑响应。 报告结束后,实验室老师和多位同学与丁鼐老师针对人与计算机进行阅读理解时注意力的差异、大脑中词汇表征形式等问题进行了深入交流。 责任编辑:马龙龙 编辑:陆垚杰    

浙江大学丁鼐研究员应邀做学术报告 2019-12-12T17:01:23+00:00

阿里达摩院陈博兴博士应邀做学术报告

2019-12-02T09:48:18+00:00

阿里达摩院陈博兴博士应邀做学术报告 2019年11月29日下午,应实验室孙乐研究员和韩先培研究员邀请,阿里巴巴达摩院机器智能技术实验室陈博兴博士到访实验室,为实验室师生作了题为“语音翻译的技术及其应用”的学术报告。 陈老师的报告主要介绍了阿里巴巴集团近年来在语音翻译方面的相关工作。从主要挑战、技术策略以及实际应用等多个方面介绍了阿里巴巴公司在语音翻译方面的研究及落地情况。 首先,陈老师简单回顾了在语音翻译方面的两个主要的技术路线:级联式以及端到端的方法。虽然近年来端到端的方法得到的广泛的关注,但因其对于数据量的要求较高,阿里巴巴公司目前仍然采用级联式的语音翻译方案。 接下来,陈老师总结了在级联式语音翻译中的主要挑战:糟糕的翻译输入(主要来自于语音错误、断句错误、不通顺、非正式语言),缺少相关的标注语料(缺少非正式语言的平行语料等)以及在MT任务上的一些传统挑战。 针对上述的一些重要挑战,陈老师分别详细地介绍了阿里巴巴公司在级联式方法的翻译输入以及翻译过程上的一些相关工作。    比如在语音识别错误纠正上,特别是中文的人称代词(他/她/它)上的纠正工作。 使用noisy training加入Bert fine-tuning手段的Disfluency Detection。 由于语音识别结果存在口语化的情况,为了将其转为书面形式,陈老师团队采用的基于规则和序列到序列两种方案来进行Inverse text normalization。 由于现实中的大量标注语料都是正式文本而缺少非正式的文本语料,为了能够得到更多的非正式文本,使用的领域内的单语言语料构造的非正式文本平行语料。 陈老师进一步介绍了使用code-switching训练方法并利用多标签的占位符信息进行有约束的机器翻译,同时介绍了该方法可以更好地帮助阿里巴巴避免国际业务的纠纷。 最后,陈老师总结了在级联式语音翻译系统中,级联系统的每一个模块都可以被提升,在语音翻译中的大部分问题都可以看作是序列到序列的问题。通过针对级联式语音翻译任务的主要挑战的多个层面的改进,阿里巴巴公司的语音翻译模块的性能得到了较为显著的提升。 报告结束后,陈老师与实验室师生进行了热烈的互动,探讨了针对语音翻译系统的几个重要问题进行了探讨。陈老师还通过他的亲身经历,分享了在高校、研究所以及企业三个不同工作环境下的感悟,让大家颇多受益。 编辑:颜令勇 责任编辑:马龙龙

阿里达摩院陈博兴博士应邀做学术报告 2019-12-02T09:48:18+00:00

复旦大学张奇教授应邀做学术报告

2019-11-19T18:00:47+00:00

复旦大学张奇教授应邀做学术报告 2019年11月18日下午,应实验室孙乐研究员和韩先培研究员邀请,复旦大学计算机学院张奇教授到访实验室,为实验室师生作了题为“搜索引擎中的智能问答”的学术报告。 张老师的报告聚焦于近些年在学术界和工业界都备受关注的智能问答方向。张老师首先介绍了近些年搜索引擎发展的趋势,指出了智能问答技术在移动互联网时代的重要性。随即,张老师比较了近些年在学术界火热的SQuAD数据集和工业界实际应用场景下的区别,相比于SQuAD评测,工业界实际场景中存在文档种类更多,质量差异大,文档更长,且不一定存在正确答案等问题,使得真实场景中的智能问答难度更大,更具挑战性。 为了解决智能问答中存在的这些问题,张老师将解决方案分为三大类:1)基于社区的问题回答;2)基于知识图谱的问题回答;3)机器阅读理解。张老师着重介绍了第一和第三这两大类方案的主要方法和最新工作。 基于社区的问题回答,可以当成语义匹配问题来建模。现阶段互联网的问答平台如百度知道、搜狗问问、知乎等都已积累了丰富的问题和答案资源。当用户有新的问题咨询时,可以直接在已有问题中匹配到相似问题,返回对应的已有答案。现有的语义匹配模型可以分为两大类:一是基于句子表示的方法;二是基于交互关系的方法。 在实际问答场景中,许多问题所包含信息较少,但其对应答案中却包含可以解释和区分问题的信息。因此,张老师等在SIGIR2019发表的工作利用自适应多注意力机制,融合答案和问题信息,提高了语义匹配的性能。 尽管基于社区的问题问答在近些年取得了极大的进展,但是依然存在各种精度和召回损失,难以应对社区问答文本中存在的各种情况。因此,引入基于阅读理解的问题问答是十分必要的。 基于阅读理解的问题问答,主要思路是根据所提问题,在文档集中选取相关候选文档,再从候选文档集中抽取出能够回答问题的短语。近些年许多阅读理解模型被提出,如BiDAF、DrQA等。在介绍了阅读理解模型基本框架后,张老师又介绍了近些年的研究进展,如为解决文档中长距离依赖问题,引入了多层级的attention机制的HM-QRNN模型。同时,针对深度学习难解释的问题,张老师等在AAAI2020提出了大规模的中文阅读理解数据集,数据中包含给出答案的依据信息,使得模型在给出答案的同时能够提供对应的依据。除此之外,张老师也介绍了组内最近的开源工具包SMRCToolkit。 最后,张老师总结了智能问答当前面临的一些重要挑战:如何利用知识和常识,如何进行推理,如何快速低成本进行领域切换,如何构造有效的置信度机制等。 报告结束后,张老师与实验室师生进行了热烈的互动,探讨了智能问答的现状,以及工业界当前实际面临的问题。张老师凭借多年来在学术界和工业界的深厚学识和经验,为大家带来了一场生动,具有启发意义的报告,使得大家获益良多。 责任编辑:马龙龙 编辑:刘方超        

复旦大学张奇教授应邀做学术报告 2019-11-19T18:00:47+00:00

中文信息处理实验室师生参加EMNLP-IJCNLP2019

2019-11-18T09:11:30+00:00

中文信息处理实验室师生参加EMNLP-IJCNLP2019 2019年11月3日至7日,由ACL SIGDAT(语言学数据特殊兴趣小组)主办的EMNLP-IJCNLP 2019(2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing)在中国香港成功举行。中国科学院软件研究所中文信息处理实验室孙乐研究员、安波副研究员以及博士生林鸿宇、颜令勇参加了本次会议。 EMNLP是自然语言处理领域的顶级国际会议,覆盖了语言分析、信息抽取、信息检索、自动问答、情感分析和观点挖掘、文摘和文本生成、文本分类和挖掘、机器翻译、语义解析等众多研究方向。   参会师生合影 本次会议共收到2876篇投稿,接收论文683篇,接受率23.7%。实验室共有三项工作被会议录用,包括: 1) GEANN: Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition,作者包括林鸿宇、陆垚杰、韩先培、孙乐等,探讨命名实体识别问题。 2) Learning to Bootstrap for Entity Set Expansion,作者包括颜令勇、韩先培、孙乐、何苯,提出了一种用于有效实体集扩展算法。 3) EUSP: An Easy-to-Use Semantic Parsing PlatForm,作者包括安波、陈波、韩先培、孙乐,提出了一种自然语言解析平台。 11月3日晚间,孙乐研究员受邀出席有华为公司主办的“HUAWEI Night-EMNLP 2019”活动并发表了精彩的演讲,本次活动其他受邀发表演讲的嘉宾还有爱丁堡大学信息学院教授、ACL终身成就奖获得者Mark Steedman以及,香港中文大学黄锦辉教授。 孙乐研究员在“华为之夜”发表演讲 孙乐研究员与Mark Steedman教授、黄锦辉教授合影 在本次ACL会议上,参会的师生就上述被录用论文做了海报报告和系统演示,并与自然语言处理领域的国内外研究人员进行了深入的交流。 博士生林鸿宇做Poster报告 博士生颜令勇做Poster报告 安波做系统展示报告 责任编辑:马龙龙 编辑:安波      

中文信息处理实验室师生参加EMNLP-IJCNLP2019 2019-11-18T09:11:30+00:00

祝贺实验室唐家龙和吴杉荣获2019年国家奖学金

2019-11-08T11:01:41+00:00

祝贺实验室唐家龙和吴杉荣获2019年国家奖学金 所研究生国家奖学金评审委员会于2019年11月6日组织了公开答辩、评议,最后通过无记名投票表决,我实验室2018级直博生唐家龙同学、2017级硕士吴杉同学获得2019年硕士研究生国家奖学金。特向两位同学表示祝贺!      

祝贺实验室唐家龙和吴杉荣获2019年国家奖学金 2019-11-08T11:01:41+00:00

中科院计算所冯洋副研究员应邀做学术报告

2019-10-29T17:36:30+00:00

中科院计算所冯洋副研究员应邀做学术报告 2019年10月29日下午,应实验室孙乐研究员和韩先培研究员的邀请,中科院计算技术研究所冯洋副研究员到访实验室,为实验室师生做了题为“机器翻译的训练改进和解码提速”的学术报告。 冯老师的报告聚焦于机器翻译训练和测试阶段的四个困难,分别介绍了四个相对应的工作。首先,冯老师简要阐述了当前机器翻译使用的序列到序列模型架构:RnnSearch和Transformer,并指出在现有机器翻译模型训练阶段存在的:1)曝光偏差;2)词级匹配的问题以及测试阶段存在的:3)Beam Search搜索空间过大;4)顺序解码时效性差的问题。 曝光偏差是指机器翻译模型训练阶段将上一时刻准确的词作为输入以预测这一时刻的词,而测试阶段没有标准的目标端输出词只能将上一时刻预测的词作为输入。而这就导致了训练阶段与测试阶段的不一致。冯老师针对该问题介绍了他们在ACL2019的Best Long Paper:Bridging the Gap between Training and Inference for Neural Machine Translation。该文章通过在训练阶段生成并采样Oracle翻译使得模型训练和测试阶段一致。详细的实验证明提出方法的有效性。 词级匹配是指机器翻译模型在训练阶段采用的策略是词级别匹配的Teacher Forcing方法。这种词级别匹配的方法对序列并不敏感,而传统序列级的损失函数不可导。冯老师针对该问题介绍了他们在EMNLP2018的长文:Greedy Search with Probabilistic N-gram Matching for Neural Machine Translation。该文章提出了可导的序列级损失函数:概率化GLEU,并在训练阶段采用贪心搜索的策略获得整个序列。最终实验证明了提出方法的有效性。 Beam Search搜索空间过大是指机器翻译解码阶段往往通过Beam Search搜索较优解。而Beam Search的复杂性以及机器翻译任务庞大的词表限制了机器翻译解码的速度。冯老师针对该问题介绍了他们在EMNLP2018的长文:Speeding Up Neural Machine Translation Decoding by Cube Pruning。该文章将Beam Search的二维拓展为三维并使用Cube Pruning技术大大加快了模型解码速度。实验证明提出的方法能够大大加速机器翻译模型的解码。 顺序解码时效性差是指机器翻译解码阶段通常使用自回归技术使得模型对已解码信息感知。而自回归需要模型从左至右顺序解码,无法很好并行从而限制了模型解码速度。冯老师针对该问题介绍了他们在ACL2019的长文:Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation。该文章在传统非自回归模型基础上使用了序列级训练技巧,以及带有回归层的非自回归模型。实验证明提出的方法相比传统非自回归模型性能更优。相比自回归模型,提出方法在性能可比的情况下提升了不少速度。 报告结束后,冯洋老师与实验室师生进行了热烈的互动,又为大家介绍了ACL最佳论文必须具备的品质,回答了大家如何做科研,如何度过充实有意义的博士阶段等问题。冯老师的报告内容充实,信息量非常大,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生获益良多。 责任编辑:马龙龙 编辑:唐家龙      

中科院计算所冯洋副研究员应邀做学术报告 2019-10-29T17:36:30+00:00

中文信息处理分工会组织秋游活动

2019-10-29T17:38:02+00:00

天朗气清,金海赏秋 一年好景君须记,最是橙黄橘绿时,金海赏秋正当时。10月27日,中文信息处理实验室组织职工及学生20余人奔赴北京市金海湖,一赏秋日美景。 金海湖风景区,地处京城东北85公里京津唐交界的三角地带,三面环山,峰峦叠翠、风景秀丽,有千岛湖的湖观山色,又有兔耳岭的怪石嶙峋,有湖光塔、金花公主墓、望海亭、锯齿崖等自然景观、人文景观数十处。 金海湖水域宽阔、碧波万顷,是开展水上娱乐项目的理想之所。待到暖阳染红苍穹,湖面泛起点点金芒,荡起轻舸,泛舟湖上,微风吹皱粼粼涟漪,人在其中静静欣赏着青峰翠嶂,仿佛置身水墨山水之中,令人忘返。   告别秋水盈盈的金海湖,大家来到了苹果采摘园体验采收。晚秋的时节,带着丝丝凉意,大家健步快走、气氛热烈融洽,零距离感受田园风光,体验亲手采摘的超凡乐趣。 夕阳渐斜,告别秋日的宁静与秀美,我们重新回到实验室投入紧张的工作与学习。相信我们的辛勤耕种,一定会换来收获的沉淀与甘甜;作为一个团体,中文信息处理实验室也必将不断成长,砥砺前行! 供稿人:周赢、徐若曦    

中文信息处理分工会组织秋游活动 2019-10-29T17:38:02+00:00

中文信息处理实验室多名师生参加CCL2019

2019-10-28T19:02:22+00:00

中文信息处理实验室多名师生参加CCL2019 “第十八届中国计算语言学大会”(The Eighteenth China National Conference on Computational Linguistics, CCL 2019)于2019年10月18日-20日在昆明成功举行,会议由中国中文信息学会主办,昆明理工大学承办,组织单位为清华大学。大会吸引了来自海内外的八百余名科研学者、工业界专家和知名企业代表参加。实验室师生代表参加了CCL2019。 实验室师生代表参加CCL2019 本次大会在主会前一天举办了前沿技术讲习班、HowNet研讨会和学生研讨会。在会议讲习班上,复旦大学邱锡鹏副教授、清华大学崔鹏副教授、哈尔滨工业大学车万翔教授、中科院自动化所张家俊副研究员介绍了生成对抗网络、图神经网络、预训练语言模型、文本生成等前沿技术。为了纪念今年初去世的我国计算语言学泰斗董振东先生,本次会议组织了首届OpenHowNet学术研讨会。大会还邀请了国内一线青年教师和优秀博士生为参会者带来精彩的学生研讨会。 主会包括特邀报告、优秀学术论文报告、自然语言处理国际前沿动态综述、技术评测与竞赛及系统展示等环节。特邀报告环节邀请了英国皇家工程院院士、欧洲科学院院士、英国帝国理工大学郭毅可教授,《人工智能简史》作者、乌镇智库理事长张晓东先生,浙江大学计算机学院副院长陈为教授,京东AI研究院常务副院长何晓冬博士,美国伊利诺伊大学厄巴纳-香槟分校季姮教授做大会特邀报告,为与会者带来了一场丰富精彩的学术盛宴。 实验室孙乐研究员(学会副理事长兼秘书长)出席了大会开幕式,同时在开幕式上宣布了2019年学会“优秀博士学位论文”获奖名单,并为获得“优秀博士学位论文”提名奖获得者进行颁奖。在会议闭幕之前,孙乐研究员还为CCL2019最佳中文论文奖的作者颁奖。在学会第八届理事会上,孙乐研究员向全体理事作了2019年学会年度工作报告,从学术活动、组织建设、技术评测、奖励推荐、期刊编辑、会员发展、网站改版及脱贫攻坚等方面回顾了学会2019年工作。 孙乐研究员出席大会开幕式 孙乐研究员宣布优秀博士学位论文获奖名单 孙乐研究员为获得CIPS“优秀博士学位论文”提名奖的作者颁奖 孙乐研究员和季姮教授为CCL2019最佳中文论文奖作者颁奖 孙乐研究员作学会2019年工作报告 实验室韩先培研究员在本次大会中担任系统展示主席;此外,韩先培老师与自动化所刘康老师在学生研讨会环节为参会者带来题为《做失败科研的10个方法》的报告,以幽默风趣的方式为参会者讲解了如何避免科研中常见的误区,两位老师基于在30年(求和得出)科研经历中遇到过、看到过、听到过的失败科研方法,包括失败科研的哲学、心态、理念、方法、技术和工具,生动的给出失败科研的反面—如何做出成功的科研。 韩先培研究员和刘康副研究员在学生研讨会环节作报告 本次会议共收到论文投稿 371 篇(包括中文 237 篇,英文 134 篇);最终录用 146 篇论文(中文 90 篇,英文 56 篇)。实验室刘磊同学的论文《一个面向中文古诗词理解难易度的人工标注数据集》(刘磊, 何苯, 孙乐)被大会录用。 硕士生刘磊进行poster展示   责任编辑:马龙龙 编辑:周赢    

中文信息处理实验室多名师生参加CCL2019 2019-10-28T19:02:22+00:00

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布

2019-09-27T18:00:51+00:00

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布 9月26日上午,由中国科学院软件研究所中文信息处理实验室负责研发的“北京冬奥项目知识图谱资源及问答系统”在北京语言大学正式发布。教育部、国家语委、北京冬奥组委、中国科学院软件研究所和北京语言大学相关领导及专家出席发布会。 会上,项目负责人、中国科学院软件研究所孙乐研究员详细介绍了“基于知识图谱的北京冬奥项目智能问答系统”的研发进展及成果特色。项目构建了大规模知识图谱,完整覆盖5类冬奥核心实体,设计多种类型的知识展示服务,研发了语音和文字两种输入方式的“智能问答平台”,提供实时便捷的冬奥会问答服务,为普及冬奥知识、宣传冬奥文化提供了全方位、立体化手段。 孙乐研究员介绍项目情况 中科院软件研究所副所长肖作敏研究员代表软件所发表致辞,首先感谢了教育部、国家语委和北京冬奥组委的指导,感谢项目合作单位北京语言大学的提供的大力支持。他表示,项目立项之初,软件所高度重视,深感在普及冬奥知识、宣扬冬奥文化方面的责任重大。未来将继续在人、财、物方面给予项目研发团队大力支持,持续钻研技术、锻造品牌,研发更多的智能语言服务成果,全力以赴地服务好北京冬奥会,共同谱写“智能”新篇章。 肖作敏副所长致辞 北京语言大学副校长张旺喜教授在致辞中表示,冬奥项目知识图谱资源及问答系统特色鲜明、优势突出,期待项目再上一个更高的台阶。北京语言大学将继续与中科院软件研究所密切合作,为冬奥会提供精益求精、臻于极致的服务。 教育部语信司副司长刘宏致辞。他首先充分肯定了项目成果,该项目丰富并完善了冬奥知识问答服务,本次发布的“北京冬奥项目知识图谱资源及问答系统”,是落实2017年《北京冬奥会语言服务行动计划》的又一重要体现。他认为,要继续加强多方合作,在体制机制方面进行大胆探讨与创新,各相关部门要继续发挥应有职能,切实为2022年北京冬奥会创造良好环境,彰显中国语言的独特魅力。 北京冬奥组委对外联络部副部长万学军在致辞中表示,冬奥组委高度重视科技和人工智能,今天的项目成果发布会适逢其时,“人类与计算机对话服务”将为北京冬奥会提供更加丰富的手段,提供更加多元的智慧,为世界奉上一届精彩、非凡、卓越的体育盛会。 启动仪式开始。与会领导及专家在倒计时主屏幕前,共同启动了“北京冬奥项目知识图谱资源”及“小奥智能问答系统”,国家语委、教育部语信司副司长刘宏宣布:“北京冬奥项目问答系统正式上线”。全场观众见证了这一重要时刻。 与会领导共同启动北京冬奥项目问答系统 仪式结束后,项目组主要负责人接受多家主流媒体的专访。后续,项目研发团队还将继续对“北京冬奥项目知识图谱资源”及“小奥智能问答系统”进行完善,并围绕冬奥赛事组织、冬奥文化宣传的实际需求,持续发布更多的成果,为北京冬奥会的智能语言服务提供强有力的技术支撑。 发布会现场合影 供稿人:付成      

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布 2019-09-27T18:00:51+00:00