Yearly Archives: 2019

/2019

北京大学王选计算机研究所孙薇薇副教授应邀做学术报告

2019-09-18T08:57:32+00:00

北京大学王选计算机研究所孙薇薇副教授应邀做学术报告 2019年9月17日下午,应实验室孙乐研究员和韩先培研究员邀请,北京大学王选计算机研究所孙薇薇副教授到访实验室,为实验室师生做了题为“English Resource Semantics: Linguistic Design and Neural Parsing”的学术报告。 孙老师的报告是关于图表征的句子的语义表示和处理,报告主要分为四个部分。首先,孙老师简要阐述了自然语言表义的几个主要方面,分别是:predicate-argument structure, quantification and scope, presupposition and focus, word sense differentiation, lexical decomposition, anaphoric coreference, grounding, tense and aspect, information structure, discourse structure等,并指出在语义解析领域,每一个SemBank通常只能捕获其中几个方面的语义,因此SemBank必须要在标注方案所捕获的信息、标注代价和标注一致性等方面做出权衡。此外,报告还对语义图相较于语法树在表征句子语义时的优势进行了直观解释。 其次,报告从 FraCaS 入手,系统阐述了目前流行的几种语义图框架(如:DM、PSD、EDS、和AMR等)的语义表示方法、优缺点及其所能捕获的语义信息。其中重点介绍了LinGO English Resource Grammar和 LinGO Redwoods TreeBank等两种重要的英语资源语义(English Resource Semantics)。 然后,报告以上述的几种语义图框架为基础,重点介绍了基于AMR语义表示框架的几个重要的语义解析方法,分别是factorization-based、composition-based、transition-based和translation-based方法。其中孙老师还介绍了组合语义(Compositional Semantics)以及超图替换文法(Hyperedge Replacement Grammar)的概念及其在语义解析中的应用。 最后,报告对用语义图进行句子的语义表示在自然语言处理任务中的应用(如:机器翻译、实体链接、自动文摘等)进行了总结。孙老师从还从多语言语义解析、跨框架的语义解析以及语义图的构建等多个层面对未来的语义解析工作进行了展望。 报告结束后,孙薇薇老师与实验室师生进行了热烈互动,对实验室师生提出的问题做出了细致的回答。孙老师的报告信息量非常大,实验室师生获益良多。 责任编辑:马龙龙 编辑:聂浩      

北京大学王选计算机研究所孙薇薇副教授应邀做学术报告 2019-09-18T08:57:32+00:00

中文信息处理实验室多名师生参加CCKS2019

2019-08-30T10:01:25+00:00

中文信息处理实验室多名师生参加CCKS2019 2019年全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing, 2019)于8月24日至27日在杭州召开,由中国中文信息学会语言与知识计算专业委员会主办,浙江大学承办。大会吸引了来自海内外的八百多名科研学者、工业界专家和知名企业代表参加。实验室师生代表参加了CCKS 2019。 实验室师生代表参加CCKS 2019 CCKS2019会议分为学科前沿讲习班和大会主会两个阶段。8月24日至25日,中国中文信息学会《前沿技术讲习班》(ATT)第十六期在杭州宝盛水博园大酒店举行。本次讲习班由6场精彩的报告组成,内容涵盖了知识图谱的推理、构建,自然语言的推理、关系抽取及知识图谱应用等多个方面。 主会包括特邀报告、优秀学术论文报告、知识图谱相关顶级会议回顾、知识图谱评测与竞赛及知识图谱工业界论坛等环节。特邀报告环节邀请了海内外知名学者和工业界代表介绍了学科前沿信息及重要成果,英国南安普顿大学(University of Southampton)的Dame Wendy Hall教授作了题为“Web Science, AI and Future of the Internet”的特邀报告;伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign)的Heng Ji教授作了题为“ PaperRobot: Automated Scientific Knowledge Graph”的特邀报告;加拿大滑铁卢大学(University of Waterloo)的李明教授作了题为“第三代聊天机器人”的特邀报告,介绍了第三代聊天机器人架构和可行的实现方法;百度CTO王海峰博士作了题为“知识图谱与语义理解”的特邀报告,介绍了百度知识图谱与语义理解技术及应用,并探讨了未来发展方向。 实验室韩先培老师担任大会竞赛与评测主席。本次评测共有6个知识图谱相关的任务,分别是:面向中文电子病历的命名实体识别、面向中文短文本的实体链指任务、人物关系抽取、面向金融领域的事件主体抽取和公众公司公告信息抽取以及开放领域的中文问答。此次大会评测共有来自国内外的1666支队伍报名参赛。 韩先培老师主持会议评测Session 本次会议共录用论文53篇,其中Oral论文13篇、Poster论文40篇。实验室伍家豪同学的论文《基于多相似性度量和集合编码的属性对齐方法》被大会录用(伍家豪,陈波,韩先培,孙乐),该论文从多个角度设计相似性度量方法来获取属性间的相似性特征,并利用机器学习模型进行特征聚合,提出了基于多相似性度量的属性对齐模型。 伍家豪同学进行论文海报展示 责任编辑:马龙龙 编辑:陆垚杰      

中文信息处理实验室多名师生参加CCKS2019 2019-08-30T10:01:25+00:00

中文信息处理实验室师生参加ACL2019

2019-08-15T13:34:49+00:00

中文信息处理实验室师生参加ACL2019 ACL(Annual Meeting of the Association for Computational Linguistics)是自然语言处理领域的顶级国际会议,覆盖了语言分析、信息抽取、信息检索、自动问答、情感分析和观点挖掘、文摘和文本生成、文本分类和挖掘、机器翻译、口语处理等众多研究方向。ACL被中国计算机学会推荐国际学术会议列表认定为A类会议。 ACL2019于7月27日-8月2日在意大利佛罗伦萨召开。本次会议参会人数超过了3000人。中文信息处理实验室孙乐研究员、韩先培研究员以及博士生林鸿宇、陆垚杰、唐家龙参加了本次会议。 参会师生合影   本次会议共收到2906篇投稿,接收论文660篇,接受率22.7%。实验室共有四项工作被ACL2019录用,包括: Sequence-to-Nuggets: Nested Entity Mention Detection via Anchor-Region Networks,作者包括林鸿宇、陆垚杰、韩先培、孙乐,探讨命名实体识别中的嵌套实体识别问题。 Distilling Discrimination and Generalization Knowledge for Event Detection via ∆-Representation Learning,作者包括陆垚杰、林鸿宇、韩先培、孙乐,提出了一种用于有效地蒸馏判别性和泛化性知识的训练框架来增强事件检测。 Progressively Self-Supervised Attention Learning for Aspect-Level Sentiment Analysis,作者包括唐家龙、陆紫耀、苏劲松、葛毓斌、宋霖峰、孙乐、罗杰波,提出了一种用于情感分析的渐进的自监督注意力学习算法。 Cost-sensitive Regularization for Label Confusion-aware Event Detection,作者包括林鸿宇、陆垚杰、韩先培、孙乐,提出了一种用于事件检测代价敏感的正则化约束优化目标。 在本次ACL会议上,参会的师生就上述被录用论文做了口头以及海报报告,并与自然语言处理领域的国内外研究人员进行了深入的交流。 ACL2020会议将在美国西雅图举行。 博士生林鸿宇做Poster报告 博士生陆垚杰做Oral报告 博士生唐家龙做Poster报告 责任编辑:马龙龙 编辑:林鸿宇      

中文信息处理实验室师生参加ACL2019 2019-08-15T13:34:49+00:00

加拿大蒙特利尔大学聂建云教授、江西师范大学王明文教授与左家莉副教授访问实验室

2019-06-26T08:13:03+00:00

加拿大蒙特利尔大学聂建云教授、江西师范大学王明文教授与左家莉副教授访问实验室 2019年6月24日上午,应实验室孙乐研究员的邀请,加拿大蒙特利尔大学聂建云教授以及江西师范大学的王明文教授与左家莉副教授访问实验室。 聂建云老师是加拿大蒙特利尔大学教授,他在自然语言处理和信息检索领域深耕多年,主要研究领域包括信息检索模型、跨语言信息检索、Query扩展、Query推荐、Query理解、查询日志利用、情感分析等等。聂建云教授在IR和NLP领域的期刊和国际会议上发表了200多篇论文,他是多个国际期刊的编委(e.g. Journal of information retrieval),并作为程序委员会成员参与了IR和NLP领域的很多国际会议主会的组织工作。他是SIGIR 2011的大会主席,是SIGIR 2019的程序委员会主席。 聂建云教授跟大家分享了其研究团队即将在第42届ACM SIGIR(SIGIR 2019)上发表的在“关键词抽取”方面的最新研究成果《DivGraphPointer: A Graph Pointer Network for Extracting Diverse keyphrases》。 聂建云教授首先回顾了在关键词抽取(keyphrase extraction)在传统无监督学习方法和有监督学习方法的特点,并介绍了他所在研究团队利用图神经元网络来捕捉、编码文档级别的词语关联的最新方法,相比于非图神经元网络的方法,该方法在科学论文关键词生成数据集(Kp20k)上得到了state-of-the-art的结果。 报告结束后,聂建云教授同参加报告的师生热烈互动,解答大家的学术问题并分享了关于当前IR领域的前沿问题的思考,大家受益匪浅。 附《DivGraphPointer: A Graph Pointer Network for Extracting Diverse keyphrases》内容摘要:Keyphrase extraction from documents is useful to a variety of applications such as information retrieval and document summarization. We present an end-to-end method called DivGraphPointer for extracting a set of diversified keyphrases from a document. DivGraphPointer combines the advantages of traditional graph-based ranking methods and recent neural network-based approaches. Specifically, given a document, a word graph is constructed from the document based on word proximity and is encoded with graph [...]

加拿大蒙特利尔大学聂建云教授、江西师范大学王明文教授与左家莉副教授访问实验室 2019-06-26T08:13:03+00:00

微软亚洲研究院董力博士访问实验室

2019-06-19T16:10:07+00:00

微软亚洲研究院董力博士访问实验室 2019年6月19日,应实验室孙乐研究员和韩先培研究员邀请,微软亚洲研究院董力博士到访实验室,为实验室师生员工带来了一场题为《UNILM: Unified Language Model Pre-Training for Natural Language Understanding and Generation》的学术报告。 董力博士的报告围绕统一的预训练模型展开,首先梳理了预训练语言模型的发展并分析了其优势,然后介绍了其团队的最新工作—— UNILM。 UNILM是一种统一建模、统一预训练的新框架,可以应用到不同的自然语言理解(Natural Language Understanding, NLU)和自然语言生成(Natural Language Generation, NLG)等任务之中。统一建模是指使用共享的 Transformer 网络,并通过不同的自注意力掩码(Self-Attention Mask)来控制模型使用的上下文信息。在此基础上,UNILM将单向语言模型、双向语言模型和序列到序列预测模型等不同预训练目标函数进行统一。在完成预训练后,UNILM可以通过微调的方式,应用到不同的下游任务中。 报告结束后,董力博士同与会的师生积极互动,针对预训练语言模型及其发展等相关问题进行了深入交流。      

微软亚洲研究院董力博士访问实验室 2019-06-19T16:10:07+00:00

清华大学黄民烈副教授应邀做学术报告

2019-06-17T15:48:49+00:00

清华大学黄民烈副教授应邀做学术报告 2019年6月6日,应实验室孙乐研究员和韩先培研究员邀请,清华大学计算机系智能技术与系统实验室副主任黄民烈副教授到访实验室,为实验室师生员工带来了一场题为《Controllable text generation: types, knowledge, and planning》的学术报告。 黄老师的报告围绕自然语言处理领域条件文本生成的可控性问题展开,针对目前神经语言生成方面的三个主要问题——语义、一致性和逻辑,分别从“类型”、“知识”、“逻辑”和“规划”等层面提出了相应的解决方案,并介绍了相关工作。 在“类型”层面,通过在生成模块中显式地建模词类型的分布,来精细地控制文本生成,显著提高了生成文本的质量。在“知识”层面,通过对知识图谱进行建模,并引入知识图谱中的常识知识来协助理解上下文,从而提高了对话生成的连贯性和多样性。在“逻辑”层面,通过渐近编码的方式获得每一时刻的上下文线索,最终在解码时利用这个上下文线索预测正确的事件和实体。在“规划”层面,针对目前长文本生成领域面临的挑战,通过将键值对列表与训练预料关联起来,显式地将文本地生成过程进行了分解,提高了长文本生成的连贯性和一致性。 报告最后,黄老师耐心回答了实验室师生的学术问题,会场气氛十分热烈。黄老师的报告丰富了同学们的知识结构,拓展了学术视野,让同学们受益匪浅。      

清华大学黄民烈副教授应邀做学术报告 2019-06-17T15:48:49+00:00

自动化所曾祥荣博士应邀做学术报告

2019-06-17T15:02:46+00:00

自动化所曾祥荣博士应邀做学术报告 2019年5月31日,应实验室孙乐研究员和韩先培研究员的邀请,中科院自动化所博士毕业生曾祥荣访问实验室,并做了一场题为“面向非结构化文本的关系抽取”的学术报告。 曾祥荣博士首先介绍了关系抽取任务的意义和任务分类,讲解了非结构化文本的关系抽取任务中的难点。随后介绍了在关系抽取任务上的三个工作:第一个工作介绍了如何使用强化学习的思想减轻关系抽取中远距离监督的噪音。第二个和第三个工作利用序列生成模型解决多关系抽取中的实体重叠问题。 报告结束后,曾祥荣博士同与会的师生积极互动,解答大家的学术问题并进行了学术研究方法的交流,会场气氛热烈。    

自动化所曾祥荣博士应邀做学术报告 2019-06-17T15:02:46+00:00

祝贺实验室林鸿宇、陆垚杰、吴杉3位同学荣获软件所2019年度三好学生

2019-06-17T15:54:44+00:00

祝贺实验室林鸿宇、陆垚杰、吴杉3位同学荣获软件所2019年度三好学生 根据《中国科学院大学“中国科学院院长奖”评审实施办法》和《中国科学院软件研究所优秀学生评选办法》,经个人申请,实验室培养小组初评和推荐,所评审小组评审,我实验室2017级博士林鸿宇、2018级博士陆垚杰和2017级硕士吴杉获得软件所2019年度“三好学生”荣誉称号。          

祝贺实验室林鸿宇、陆垚杰、吴杉3位同学荣获软件所2019年度三好学生 2019-06-17T15:54:44+00:00

实验室四项成果被自然语言处理顶级会议ACL 2019接收

2019-06-17T15:44:16+00:00

实验室四项成果被自然语言处理顶级会议ACL 2019接收 ACL(Annual Meeting of the Association for Computational Linguistics)是自然语言处理领域的顶级国际会议。ACL2019将于2019年7月28日至8月2日在意大利佛罗伦萨举行。 在国家自然科学基金重点项目“汉语认知加工机制与计算模型”和国家重点研发计划 “基于大数据的面向开放域的智能问答技术”项目支持下,中科院软件所中文信息处理实验室3篇长文《Sequence-to-Nuggets: Nested Entity Mention Detection via Anchor-Region Networks》、《Distilling Discrimination and Generalization Knowledge for Event Detection via ∆-Representation Learning》、《Progressively Self-Supervised Attention Learning for Aspect-Level Sentiment Analysis》和1篇短文《Cost-sensitive Regularization for Label Confusion-aware Event Detection》被ACL 2019接收。 (1) Sequence-to-Nuggets: Nested Entity Mention Detection via Anchor-Region Networks 命名实体识别是自然语言处理中一个根本性的任务。然而,现有的命名实体识别模型通常假定一个字符仅属于一个实体提及,这就使得这些模型无法被用于带有嵌套命名实体提及的情况。然而,嵌套命名实体提及在自然语言中分布非常广泛,这就使得忽视这类嵌套实体会对后续自然语言处理任务产生巨大影响。针对这一问题,我们提出了一种全新的神经网络结构:锚点-区域网络。该网络充分地利用了自然语言词组以头词为中心的结构特性,提出了通过检测不同头词来检测不同嵌套实体的方案。同时,为了能够在没有实体头词标注数据的情况下训练上述网络结构,我们还提出了一种新的包损失函数。该损失函数能够自动挖掘无头词标注数据中的头词信息,从而对锚点-区域网络进行端到端训练。实验结果表明我们所提出的模型在ACE2005、GENIA以及KBP2017等多个不同领域的命名实体识别标准数据集上都取得了当前最好的性能。 该论文作者分别为:林鸿宇(中科院软件所),陆垚杰(中科院软件所),韩先培(中科院软件所),孙乐(中科院软件所) (2) Distilling Discrimination and Generalization Knowledge for Event Detection via ∆-Representation Learning 事件检测是信息抽取的重要任务,近年来在知识图谱构建、信息检索和文本理解中扮演着重要的角色。事件检测系统不仅依赖判别性知识来区分存在歧义的事件触发词,还依赖泛化性知识来检测未见的、稀疏的事件触发词。现有的神经网络方法通常聚焦于获取一个以触发词为中文的特征表示用于事件检测,这样的方法可以有效的蒸馏出判别性的知识,但是难以学习到泛化性知识,致使模型难以检测未见的、稀疏的事件触发词。为解决这一问题,本文提出了一种表示学习框架,通过有效分离、增量学习,最后自适应合成不同的事件特征表示,来有效地蒸馏判别性和泛化性知识。实验结果证明了本文的方法在未见的、稀疏的事件触发词上超过了之前的方法,同时在ACE2005和KBP2017两个数据集取得了当前最好的性能。 该论文作者分别为:陆垚杰(中科院软件所),林鸿宇(中科院软件所),韩先培(中科院软件所),孙乐(中科院软件所) (3) Progressively Self-Supervised Attention Learning for Aspect-Level Sentiment Analysis 在方面层次的情感分类任务中,使用注意力机制来捕获上下文文本中与给定方面最为相关的信息是近年来研究者们的普遍做法。然而,注意力机制容易过多的关注数据中少部分有强烈情感极性的高频词汇,而忽略那些频率较低的词。本文提出了一种渐进的自监督注意力学习算法,能够自动的,渐进的挖掘文本中重要的监督信息,从而在模型训练过程中约束注意力机制的学习。具体的,我们迭代的在训练实例上擦除对情感极性“积极”/“消极”的词汇。这些词在下一轮学习过程中将会被一个特殊标记替代,并记录下来。最终,我们针对不同情况,设计不同的监督信号,在最终模型训练目标函数中作为正则化项约束注意力机制的学习。在SemEval 14 REST,LAPTOP以及口语化数据集TWITTER上的实验结果表明,我们提出的渐进注意力机制能够在多个前沿模型的基础之上取得显著性的性能提升。 该论文作者分别为:唐家龙(中科院软件所),陆紫耀(厦门大学),苏劲松(厦门大学),葛毓斌(UIUC),宋霖峰(罗切斯特大学),孙乐(中科院软件所), 罗杰波(罗切斯特大学)。 (4)Cost-sensitive Regularization for Label Confusion-aware Event Detection 事件检测是信息抽取中的一个重要任务。近年来,神经网络在事件检测上取得了重大的进展。然而,我们的研究发现,神经网络模型在事件检测上的错误通常出现在某些特定的类别对之间。针对上述问题,我们提出了一种代价敏感的正则化约束优化目标。该约束目标使得神经网络在训练的过程中能够更加关注某些特定的易混淆类别对。除此之外,我们还提出了两种实例级别以及语料库级别的用于估计类别间混淆度的方法。在ACE2005以及KBP2017数据集上实验结果表明,我们提出的代价敏感的正则化约束能够显著提升多种不同架构的神经网络事件检测模型的性能。 该论文作者分别为:林鸿宇(中科院软件所),陆垚杰(中科院软件所),韩先培(中科院软件所),孙乐(中科院软件所) 论文全文和源代码稍后将在中科院软件所中文信息处理实验室网站(www.icip.org.cn)开放,欢迎大家关注!

实验室四项成果被自然语言处理顶级会议ACL 2019接收 2019-06-17T15:44:16+00:00

天津大学张鹏副教授应邀做学术报告

2019-06-17T14:58:50+00:00

天津大学张鹏副教授应邀做学术报告 2019年5月17日,应实验室孙乐研究员,韩先培研究员和何苯研究员的邀请,天津大学计算机系张鹏副教授访问实验室,并做了一场题为“A quantum many-body wave function inspired language modeling approach”的学术报告。 语言模型是自然语言处理相关领域研究工作的重要基础。近年来,人们基于量子力学概率理论提出量子语言模型。张鹏老师的报告首先概要介绍了量子理论的基础知识;随后回顾量子信息检索的发展历史,综述量子语言模型的研究动机和研究脉络,分析各种量子语言模型的优缺点;根据量子多体问题、神经网络、语言模型三者之间的关系,介绍基于量子多体波函数的语言模型,以及基于张量网络的语言模型;最后做了总结,和对未来工作的展望。 报告结束后,张鹏老师同与会的师生积极互动,解答大家对量子理论的困惑以及量子理论应用到自然语言处理领域中的问题。

天津大学张鹏副教授应邀做学术报告 2019-06-17T14:58:50+00:00