未分类

/未分类

中科院计算所冯洋副研究员应邀做学术报告

2019-10-29T17:36:30+00:00

中科院计算所冯洋副研究员应邀做学术报告 2019年10月29日下午,应实验室孙乐研究员和韩先培研究员的邀请,中科院计算技术研究所冯洋副研究员到访实验室,为实验室师生做了题为“机器翻译的训练改进和解码提速”的学术报告。 冯老师的报告聚焦于机器翻译训练和测试阶段的四个困难,分别介绍了四个相对应的工作。首先,冯老师简要阐述了当前机器翻译使用的序列到序列模型架构:RnnSearch和Transformer,并指出在现有机器翻译模型训练阶段存在的:1)曝光偏差;2)词级匹配的问题以及测试阶段存在的:3)Beam Search搜索空间过大;4)顺序解码时效性差的问题。 曝光偏差是指机器翻译模型训练阶段将上一时刻准确的词作为输入以预测这一时刻的词,而测试阶段没有标准的目标端输出词只能将上一时刻预测的词作为输入。而这就导致了训练阶段与测试阶段的不一致。冯老师针对该问题介绍了他们在ACL2019的Best Long Paper:Bridging the Gap between Training and Inference for Neural Machine Translation。该文章通过在训练阶段生成并采样Oracle翻译使得模型训练和测试阶段一致。详细的实验证明提出方法的有效性。 词级匹配是指机器翻译模型在训练阶段采用的策略是词级别匹配的Teacher Forcing方法。这种词级别匹配的方法对序列并不敏感,而传统序列级的损失函数不可导。冯老师针对该问题介绍了他们在EMNLP2018的长文:Greedy Search with Probabilistic N-gram Matching for Neural Machine Translation。该文章提出了可导的序列级损失函数:概率化GLEU,并在训练阶段采用贪心搜索的策略获得整个序列。最终实验证明了提出方法的有效性。 Beam Search搜索空间过大是指机器翻译解码阶段往往通过Beam Search搜索较优解。而Beam Search的复杂性以及机器翻译任务庞大的词表限制了机器翻译解码的速度。冯老师针对该问题介绍了他们在EMNLP2018的长文:Speeding Up Neural Machine Translation Decoding by Cube Pruning。该文章将Beam Search的二维拓展为三维并使用Cube Pruning技术大大加快了模型解码速度。实验证明提出的方法能够大大加速机器翻译模型的解码。 顺序解码时效性差是指机器翻译解码阶段通常使用自回归技术使得模型对已解码信息感知。而自回归需要模型从左至右顺序解码,无法很好并行从而限制了模型解码速度。冯老师针对该问题介绍了他们在ACL2019的长文:Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation。该文章在传统非自回归模型基础上使用了序列级训练技巧,以及带有回归层的非自回归模型。实验证明提出的方法相比传统非自回归模型性能更优。相比自回归模型,提出方法在性能可比的情况下提升了不少速度。 报告结束后,冯洋老师与实验室师生进行了热烈的互动,又为大家介绍了ACL最佳论文必须具备的品质,回答了大家如何做科研,如何度过充实有意义的博士阶段等问题。冯老师的报告内容充实,信息量非常大,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生获益良多。 责任编辑:马龙龙 编辑:唐家龙      

中科院计算所冯洋副研究员应邀做学术报告 2019-10-29T17:36:30+00:00

中文信息处理分工会组织秋游活动

2019-10-29T17:38:02+00:00

天朗气清,金海赏秋 一年好景君须记,最是橙黄橘绿时,金海赏秋正当时。10月27日,中文信息处理实验室组织职工及学生20余人奔赴北京市金海湖,一赏秋日美景。 金海湖风景区,地处京城东北85公里京津唐交界的三角地带,三面环山,峰峦叠翠、风景秀丽,有千岛湖的湖观山色,又有兔耳岭的怪石嶙峋,有湖光塔、金花公主墓、望海亭、锯齿崖等自然景观、人文景观数十处。 金海湖水域宽阔、碧波万顷,是开展水上娱乐项目的理想之所。待到暖阳染红苍穹,湖面泛起点点金芒,荡起轻舸,泛舟湖上,微风吹皱粼粼涟漪,人在其中静静欣赏着青峰翠嶂,仿佛置身水墨山水之中,令人忘返。   告别秋水盈盈的金海湖,大家来到了苹果采摘园体验采收。晚秋的时节,带着丝丝凉意,大家健步快走、气氛热烈融洽,零距离感受田园风光,体验亲手采摘的超凡乐趣。 夕阳渐斜,告别秋日的宁静与秀美,我们重新回到实验室投入紧张的工作与学习。相信我们的辛勤耕种,一定会换来收获的沉淀与甘甜;作为一个团体,中文信息处理实验室也必将不断成长,砥砺前行! 供稿人:周赢、徐若曦    

中文信息处理分工会组织秋游活动 2019-10-29T17:38:02+00:00

中文信息处理实验室多名师生参加CCL2019

2019-10-28T19:02:22+00:00

中文信息处理实验室多名师生参加CCL2019 “第十八届中国计算语言学大会”(The Eighteenth China National Conference on Computational Linguistics, CCL 2019)于2019年10月18日-20日在昆明成功举行,会议由中国中文信息学会主办,昆明理工大学承办,组织单位为清华大学。大会吸引了来自海内外的八百余名科研学者、工业界专家和知名企业代表参加。实验室师生代表参加了CCL2019。 实验室师生代表参加CCL2019 本次大会在主会前一天举办了前沿技术讲习班、HowNet研讨会和学生研讨会。在会议讲习班上,复旦大学邱锡鹏副教授、清华大学崔鹏副教授、哈尔滨工业大学车万翔教授、中科院自动化所张家俊副研究员介绍了生成对抗网络、图神经网络、预训练语言模型、文本生成等前沿技术。为了纪念今年初去世的我国计算语言学泰斗董振东先生,本次会议组织了首届OpenHowNet学术研讨会。大会还邀请了国内一线青年教师和优秀博士生为参会者带来精彩的学生研讨会。 主会包括特邀报告、优秀学术论文报告、自然语言处理国际前沿动态综述、技术评测与竞赛及系统展示等环节。特邀报告环节邀请了英国皇家工程院院士、欧洲科学院院士、英国帝国理工大学郭毅可教授,《人工智能简史》作者、乌镇智库理事长张晓东先生,浙江大学计算机学院副院长陈为教授,京东AI研究院常务副院长何晓冬博士,美国伊利诺伊大学厄巴纳-香槟分校季姮教授做大会特邀报告,为与会者带来了一场丰富精彩的学术盛宴。 实验室孙乐研究员(学会副理事长兼秘书长)出席了大会开幕式,同时在开幕式上宣布了2019年学会“优秀博士学位论文”获奖名单,并为获得“优秀博士学位论文”提名奖获得者进行颁奖。在会议闭幕之前,孙乐研究员还为CCL2019最佳中文论文奖的作者颁奖。在学会第八届理事会上,孙乐研究员向全体理事作了2019年学会年度工作报告,从学术活动、组织建设、技术评测、奖励推荐、期刊编辑、会员发展、网站改版及脱贫攻坚等方面回顾了学会2019年工作。 孙乐研究员出席大会开幕式 孙乐研究员宣布优秀博士学位论文获奖名单 孙乐研究员为获得CIPS“优秀博士学位论文”提名奖的作者颁奖 孙乐研究员和季姮教授为CCL2019最佳中文论文奖作者颁奖 孙乐研究员作学会2019年工作报告 实验室韩先培研究员在本次大会中担任系统展示主席;此外,韩先培老师与自动化所刘康老师在学生研讨会环节为参会者带来题为《做失败科研的10个方法》的报告,以幽默风趣的方式为参会者讲解了如何避免科研中常见的误区,两位老师基于在30年(求和得出)科研经历中遇到过、看到过、听到过的失败科研方法,包括失败科研的哲学、心态、理念、方法、技术和工具,生动的给出失败科研的反面—如何做出成功的科研。 韩先培研究员和刘康副研究员在学生研讨会环节作报告 本次会议共收到论文投稿 371 篇(包括中文 237 篇,英文 134 篇);最终录用 146 篇论文(中文 90 篇,英文 56 篇)。实验室刘磊同学的论文《一个面向中文古诗词理解难易度的人工标注数据集》(刘磊, 何苯, 孙乐)被大会录用。 硕士生刘磊进行poster展示   责任编辑:马龙龙 编辑:周赢    

中文信息处理实验室多名师生参加CCL2019 2019-10-28T19:02:22+00:00

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布

2019-09-27T18:00:51+00:00

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布 9月26日上午,由中国科学院软件研究所中文信息处理实验室负责研发的“北京冬奥项目知识图谱资源及问答系统”在北京语言大学正式发布。教育部、国家语委、北京冬奥组委、中国科学院软件研究所和北京语言大学相关领导及专家出席发布会。 会上,项目负责人、中国科学院软件研究所孙乐研究员详细介绍了“基于知识图谱的北京冬奥项目智能问答系统”的研发进展及成果特色。项目构建了大规模知识图谱,完整覆盖5类冬奥核心实体,设计多种类型的知识展示服务,研发了语音和文字两种输入方式的“智能问答平台”,提供实时便捷的冬奥会问答服务,为普及冬奥知识、宣传冬奥文化提供了全方位、立体化手段。 孙乐研究员介绍项目情况 中科院软件研究所副所长肖作敏研究员代表软件所发表致辞,首先感谢了教育部、国家语委和北京冬奥组委的指导,感谢项目合作单位北京语言大学的提供的大力支持。他表示,项目立项之初,软件所高度重视,深感在普及冬奥知识、宣扬冬奥文化方面的责任重大。未来将继续在人、财、物方面给予项目研发团队大力支持,持续钻研技术、锻造品牌,研发更多的智能语言服务成果,全力以赴地服务好北京冬奥会,共同谱写“智能”新篇章。 肖作敏副所长致辞 北京语言大学副校长张旺喜教授在致辞中表示,冬奥项目知识图谱资源及问答系统特色鲜明、优势突出,期待项目再上一个更高的台阶。北京语言大学将继续与中科院软件研究所密切合作,为冬奥会提供精益求精、臻于极致的服务。 教育部语信司副司长刘宏致辞。他首先充分肯定了项目成果,该项目丰富并完善了冬奥知识问答服务,本次发布的“北京冬奥项目知识图谱资源及问答系统”,是落实2017年《北京冬奥会语言服务行动计划》的又一重要体现。他认为,要继续加强多方合作,在体制机制方面进行大胆探讨与创新,各相关部门要继续发挥应有职能,切实为2022年北京冬奥会创造良好环境,彰显中国语言的独特魅力。 北京冬奥组委对外联络部副部长万学军在致辞中表示,冬奥组委高度重视科技和人工智能,今天的项目成果发布会适逢其时,“人类与计算机对话服务”将为北京冬奥会提供更加丰富的手段,提供更加多元的智慧,为世界奉上一届精彩、非凡、卓越的体育盛会。 启动仪式开始。与会领导及专家在倒计时主屏幕前,共同启动了“北京冬奥项目知识图谱资源”及“小奥智能问答系统”,国家语委、教育部语信司副司长刘宏宣布:“北京冬奥项目问答系统正式上线”。全场观众见证了这一重要时刻。 与会领导共同启动北京冬奥项目问答系统 仪式结束后,项目组主要负责人接受多家主流媒体的专访。后续,项目研发团队还将继续对“北京冬奥项目知识图谱资源”及“小奥智能问答系统”进行完善,并围绕冬奥赛事组织、冬奥文化宣传的实际需求,持续发布更多的成果,为北京冬奥会的智能语言服务提供强有力的技术支撑。 发布会现场合影 供稿人:付成      

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布 2019-09-27T18:00:51+00:00

北京大学王选计算机研究所孙薇薇副教授应邀做学术报告

2019-09-18T08:57:32+00:00

北京大学王选计算机研究所孙薇薇副教授应邀做学术报告 2019年9月17日下午,应实验室孙乐研究员和韩先培研究员邀请,北京大学王选计算机研究所孙薇薇副教授到访实验室,为实验室师生做了题为“English Resource Semantics: Linguistic Design and Neural Parsing”的学术报告。 孙老师的报告是关于图表征的句子的语义表示和处理,报告主要分为四个部分。首先,孙老师简要阐述了自然语言表义的几个主要方面,分别是:predicate-argument structure, quantification and scope, presupposition and focus, word sense differentiation, lexical decomposition, anaphoric coreference, grounding, tense and aspect, information structure, discourse structure等,并指出在语义解析领域,每一个SemBank通常只能捕获其中几个方面的语义,因此SemBank必须要在标注方案所捕获的信息、标注代价和标注一致性等方面做出权衡。此外,报告还对语义图相较于语法树在表征句子语义时的优势进行了直观解释。 其次,报告从 FraCaS 入手,系统阐述了目前流行的几种语义图框架(如:DM、PSD、EDS、和AMR等)的语义表示方法、优缺点及其所能捕获的语义信息。其中重点介绍了LinGO English Resource Grammar和 LinGO Redwoods TreeBank等两种重要的英语资源语义(English Resource Semantics)。 然后,报告以上述的几种语义图框架为基础,重点介绍了基于AMR语义表示框架的几个重要的语义解析方法,分别是factorization-based、composition-based、transition-based和translation-based方法。其中孙老师还介绍了组合语义(Compositional Semantics)以及超图替换文法(Hyperedge Replacement Grammar)的概念及其在语义解析中的应用。 最后,报告对用语义图进行句子的语义表示在自然语言处理任务中的应用(如:机器翻译、实体链接、自动文摘等)进行了总结。孙老师从还从多语言语义解析、跨框架的语义解析以及语义图的构建等多个层面对未来的语义解析工作进行了展望。 报告结束后,孙薇薇老师与实验室师生进行了热烈互动,对实验室师生提出的问题做出了细致的回答。孙老师的报告信息量非常大,实验室师生获益良多。 责任编辑:马龙龙 编辑:聂浩      

北京大学王选计算机研究所孙薇薇副教授应邀做学术报告 2019-09-18T08:57:32+00:00

中文信息处理实验室多名师生参加CCKS2019

2019-08-30T10:01:25+00:00

中文信息处理实验室多名师生参加CCKS2019 2019年全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing, 2019)于8月24日至27日在杭州召开,由中国中文信息学会语言与知识计算专业委员会主办,浙江大学承办。大会吸引了来自海内外的八百多名科研学者、工业界专家和知名企业代表参加。实验室师生代表参加了CCKS 2019。 实验室师生代表参加CCKS 2019 CCKS2019会议分为学科前沿讲习班和大会主会两个阶段。8月24日至25日,中国中文信息学会《前沿技术讲习班》(ATT)第十六期在杭州宝盛水博园大酒店举行。本次讲习班由6场精彩的报告组成,内容涵盖了知识图谱的推理、构建,自然语言的推理、关系抽取及知识图谱应用等多个方面。 主会包括特邀报告、优秀学术论文报告、知识图谱相关顶级会议回顾、知识图谱评测与竞赛及知识图谱工业界论坛等环节。特邀报告环节邀请了海内外知名学者和工业界代表介绍了学科前沿信息及重要成果,英国南安普顿大学(University of Southampton)的Dame Wendy Hall教授作了题为“Web Science, AI and Future of the Internet”的特邀报告;伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign)的Heng Ji教授作了题为“ PaperRobot: Automated Scientific Knowledge Graph”的特邀报告;加拿大滑铁卢大学(University of Waterloo)的李明教授作了题为“第三代聊天机器人”的特邀报告,介绍了第三代聊天机器人架构和可行的实现方法;百度CTO王海峰博士作了题为“知识图谱与语义理解”的特邀报告,介绍了百度知识图谱与语义理解技术及应用,并探讨了未来发展方向。 实验室韩先培老师担任大会竞赛与评测主席。本次评测共有6个知识图谱相关的任务,分别是:面向中文电子病历的命名实体识别、面向中文短文本的实体链指任务、人物关系抽取、面向金融领域的事件主体抽取和公众公司公告信息抽取以及开放领域的中文问答。此次大会评测共有来自国内外的1666支队伍报名参赛。 韩先培老师主持会议评测Session 本次会议共录用论文53篇,其中Oral论文13篇、Poster论文40篇。实验室伍家豪同学的论文《基于多相似性度量和集合编码的属性对齐方法》被大会录用(伍家豪,陈波,韩先培,孙乐),该论文从多个角度设计相似性度量方法来获取属性间的相似性特征,并利用机器学习模型进行特征聚合,提出了基于多相似性度量的属性对齐模型。 伍家豪同学进行论文海报展示 责任编辑:马龙龙 编辑:陆垚杰      

中文信息处理实验室多名师生参加CCKS2019 2019-08-30T10:01:25+00:00

中文信息处理实验室师生参加ACL2019

2019-08-15T13:34:49+00:00

中文信息处理实验室师生参加ACL2019 ACL(Annual Meeting of the Association for Computational Linguistics)是自然语言处理领域的顶级国际会议,覆盖了语言分析、信息抽取、信息检索、自动问答、情感分析和观点挖掘、文摘和文本生成、文本分类和挖掘、机器翻译、口语处理等众多研究方向。ACL被中国计算机学会推荐国际学术会议列表认定为A类会议。 ACL2019于7月27日-8月2日在意大利佛罗伦萨召开。本次会议参会人数超过了3000人。中文信息处理实验室孙乐研究员、韩先培研究员以及博士生林鸿宇、陆垚杰、唐家龙参加了本次会议。 参会师生合影   本次会议共收到2906篇投稿,接收论文660篇,接受率22.7%。实验室共有四项工作被ACL2019录用,包括: Sequence-to-Nuggets: Nested Entity Mention Detection via Anchor-Region Networks,作者包括林鸿宇、陆垚杰、韩先培、孙乐,探讨命名实体识别中的嵌套实体识别问题。 Distilling Discrimination and Generalization Knowledge for Event Detection via ∆-Representation Learning,作者包括陆垚杰、林鸿宇、韩先培、孙乐,提出了一种用于有效地蒸馏判别性和泛化性知识的训练框架来增强事件检测。 Progressively Self-Supervised Attention Learning for Aspect-Level Sentiment Analysis,作者包括唐家龙、陆紫耀、苏劲松、葛毓斌、宋霖峰、孙乐、罗杰波,提出了一种用于情感分析的渐进的自监督注意力学习算法。 Cost-sensitive Regularization for Label Confusion-aware Event Detection,作者包括林鸿宇、陆垚杰、韩先培、孙乐,提出了一种用于事件检测代价敏感的正则化约束优化目标。 在本次ACL会议上,参会的师生就上述被录用论文做了口头以及海报报告,并与自然语言处理领域的国内外研究人员进行了深入的交流。 ACL2020会议将在美国西雅图举行。 博士生林鸿宇做Poster报告 博士生陆垚杰做Oral报告 博士生唐家龙做Poster报告 责任编辑:马龙龙 编辑:林鸿宇      

中文信息处理实验室师生参加ACL2019 2019-08-15T13:34:49+00:00

加拿大蒙特利尔大学聂建云教授、江西师范大学王明文教授与左家莉副教授访问实验室

2019-06-26T08:13:03+00:00

加拿大蒙特利尔大学聂建云教授、江西师范大学王明文教授与左家莉副教授访问实验室 2019年6月24日上午,应实验室孙乐研究员的邀请,加拿大蒙特利尔大学聂建云教授以及江西师范大学的王明文教授与左家莉副教授访问实验室。 聂建云老师是加拿大蒙特利尔大学教授,他在自然语言处理和信息检索领域深耕多年,主要研究领域包括信息检索模型、跨语言信息检索、Query扩展、Query推荐、Query理解、查询日志利用、情感分析等等。聂建云教授在IR和NLP领域的期刊和国际会议上发表了200多篇论文,他是多个国际期刊的编委(e.g. Journal of information retrieval),并作为程序委员会成员参与了IR和NLP领域的很多国际会议主会的组织工作。他是SIGIR 2011的大会主席,是SIGIR 2019的程序委员会主席。 聂建云教授跟大家分享了其研究团队即将在第42届ACM SIGIR(SIGIR 2019)上发表的在“关键词抽取”方面的最新研究成果《DivGraphPointer: A Graph Pointer Network for Extracting Diverse keyphrases》。 聂建云教授首先回顾了在关键词抽取(keyphrase extraction)在传统无监督学习方法和有监督学习方法的特点,并介绍了他所在研究团队利用图神经元网络来捕捉、编码文档级别的词语关联的最新方法,相比于非图神经元网络的方法,该方法在科学论文关键词生成数据集(Kp20k)上得到了state-of-the-art的结果。 报告结束后,聂建云教授同参加报告的师生热烈互动,解答大家的学术问题并分享了关于当前IR领域的前沿问题的思考,大家受益匪浅。 附《DivGraphPointer: A Graph Pointer Network for Extracting Diverse keyphrases》内容摘要:Keyphrase extraction from documents is useful to a variety of applications such as information retrieval and document summarization. We present an end-to-end method called DivGraphPointer for extracting a set of diversified keyphrases from a document. DivGraphPointer combines the advantages of traditional graph-based ranking methods and recent neural network-based approaches. Specifically, given a document, a word graph is constructed from the document based on word proximity and is encoded with graph [...]

加拿大蒙特利尔大学聂建云教授、江西师范大学王明文教授与左家莉副教授访问实验室 2019-06-26T08:13:03+00:00

微软亚洲研究院董力博士访问实验室

2019-06-19T16:10:07+00:00

微软亚洲研究院董力博士访问实验室 2019年6月19日,应实验室孙乐研究员和韩先培研究员邀请,微软亚洲研究院董力博士到访实验室,为实验室师生员工带来了一场题为《UNILM: Unified Language Model Pre-Training for Natural Language Understanding and Generation》的学术报告。 董力博士的报告围绕统一的预训练模型展开,首先梳理了预训练语言模型的发展并分析了其优势,然后介绍了其团队的最新工作—— UNILM。 UNILM是一种统一建模、统一预训练的新框架,可以应用到不同的自然语言理解(Natural Language Understanding, NLU)和自然语言生成(Natural Language Generation, NLG)等任务之中。统一建模是指使用共享的 Transformer 网络,并通过不同的自注意力掩码(Self-Attention Mask)来控制模型使用的上下文信息。在此基础上,UNILM将单向语言模型、双向语言模型和序列到序列预测模型等不同预训练目标函数进行统一。在完成预训练后,UNILM可以通过微调的方式,应用到不同的下游任务中。 报告结束后,董力博士同与会的师生积极互动,针对预训练语言模型及其发展等相关问题进行了深入交流。      

微软亚洲研究院董力博士访问实验室 2019-06-19T16:10:07+00:00

清华大学黄民烈副教授应邀做学术报告

2019-06-17T15:48:49+00:00

清华大学黄民烈副教授应邀做学术报告 2019年6月6日,应实验室孙乐研究员和韩先培研究员邀请,清华大学计算机系智能技术与系统实验室副主任黄民烈副教授到访实验室,为实验室师生员工带来了一场题为《Controllable text generation: types, knowledge, and planning》的学术报告。 黄老师的报告围绕自然语言处理领域条件文本生成的可控性问题展开,针对目前神经语言生成方面的三个主要问题——语义、一致性和逻辑,分别从“类型”、“知识”、“逻辑”和“规划”等层面提出了相应的解决方案,并介绍了相关工作。 在“类型”层面,通过在生成模块中显式地建模词类型的分布,来精细地控制文本生成,显著提高了生成文本的质量。在“知识”层面,通过对知识图谱进行建模,并引入知识图谱中的常识知识来协助理解上下文,从而提高了对话生成的连贯性和多样性。在“逻辑”层面,通过渐近编码的方式获得每一时刻的上下文线索,最终在解码时利用这个上下文线索预测正确的事件和实体。在“规划”层面,针对目前长文本生成领域面临的挑战,通过将键值对列表与训练预料关联起来,显式地将文本地生成过程进行了分解,提高了长文本生成的连贯性和一致性。 报告最后,黄老师耐心回答了实验室师生的学术问题,会场气氛十分热烈。黄老师的报告丰富了同学们的知识结构,拓展了学术视野,让同学们受益匪浅。      

清华大学黄民烈副教授应邀做学术报告 2019-06-17T15:48:49+00:00