未分类

/未分类

自动化所曾祥荣博士应邀做学术报告

2019-06-17T15:02:46+00:00

自动化所曾祥荣博士应邀做学术报告 2019年5月31日,应实验室孙乐研究员和韩先培研究员的邀请,中科院自动化所博士毕业生曾祥荣访问实验室,并做了一场题为“面向非结构化文本的关系抽取”的学术报告。 曾祥荣博士首先介绍了关系抽取任务的意义和任务分类,讲解了非结构化文本的关系抽取任务中的难点。随后介绍了在关系抽取任务上的三个工作:第一个工作介绍了如何使用强化学习的思想减轻关系抽取中远距离监督的噪音。第二个和第三个工作利用序列生成模型解决多关系抽取中的实体重叠问题。 报告结束后,曾祥荣博士同与会的师生积极互动,解答大家的学术问题并进行了学术研究方法的交流,会场气氛热烈。    

自动化所曾祥荣博士应邀做学术报告 2019-06-17T15:02:46+00:00

祝贺实验室林鸿宇、陆垚杰、吴杉3位同学荣获软件所2019年度三好学生

2019-06-17T15:54:44+00:00

祝贺实验室林鸿宇、陆垚杰、吴杉3位同学荣获软件所2019年度三好学生 根据《中国科学院大学“中国科学院院长奖”评审实施办法》和《中国科学院软件研究所优秀学生评选办法》,经个人申请,实验室培养小组初评和推荐,所评审小组评审,我实验室2017级博士林鸿宇、2018级博士陆垚杰和2017级硕士吴杉获得软件所2019年度“三好学生”荣誉称号。          

祝贺实验室林鸿宇、陆垚杰、吴杉3位同学荣获软件所2019年度三好学生 2019-06-17T15:54:44+00:00

实验室四项成果被自然语言处理顶级会议ACL 2019接收

2019-06-17T15:44:16+00:00

实验室四项成果被自然语言处理顶级会议ACL 2019接收 ACL(Annual Meeting of the Association for Computational Linguistics)是自然语言处理领域的顶级国际会议。ACL2019将于2019年7月28日至8月2日在意大利佛罗伦萨举行。 在国家自然科学基金重点项目“汉语认知加工机制与计算模型”和国家重点研发计划 “基于大数据的面向开放域的智能问答技术”项目支持下,中科院软件所中文信息处理实验室3篇长文《Sequence-to-Nuggets: Nested Entity Mention Detection via Anchor-Region Networks》、《Distilling Discrimination and Generalization Knowledge for Event Detection via ∆-Representation Learning》、《Progressively Self-Supervised Attention Learning for Aspect-Level Sentiment Analysis》和1篇短文《Cost-sensitive Regularization for Label Confusion-aware Event Detection》被ACL 2019接收。 (1) Sequence-to-Nuggets: Nested Entity Mention Detection via Anchor-Region Networks 命名实体识别是自然语言处理中一个根本性的任务。然而,现有的命名实体识别模型通常假定一个字符仅属于一个实体提及,这就使得这些模型无法被用于带有嵌套命名实体提及的情况。然而,嵌套命名实体提及在自然语言中分布非常广泛,这就使得忽视这类嵌套实体会对后续自然语言处理任务产生巨大影响。针对这一问题,我们提出了一种全新的神经网络结构:锚点-区域网络。该网络充分地利用了自然语言词组以头词为中心的结构特性,提出了通过检测不同头词来检测不同嵌套实体的方案。同时,为了能够在没有实体头词标注数据的情况下训练上述网络结构,我们还提出了一种新的包损失函数。该损失函数能够自动挖掘无头词标注数据中的头词信息,从而对锚点-区域网络进行端到端训练。实验结果表明我们所提出的模型在ACE2005、GENIA以及KBP2017等多个不同领域的命名实体识别标准数据集上都取得了当前最好的性能。 该论文作者分别为:林鸿宇(中科院软件所),陆垚杰(中科院软件所),韩先培(中科院软件所),孙乐(中科院软件所) (2) Distilling Discrimination and Generalization Knowledge for Event Detection via ∆-Representation Learning 事件检测是信息抽取的重要任务,近年来在知识图谱构建、信息检索和文本理解中扮演着重要的角色。事件检测系统不仅依赖判别性知识来区分存在歧义的事件触发词,还依赖泛化性知识来检测未见的、稀疏的事件触发词。现有的神经网络方法通常聚焦于获取一个以触发词为中文的特征表示用于事件检测,这样的方法可以有效的蒸馏出判别性的知识,但是难以学习到泛化性知识,致使模型难以检测未见的、稀疏的事件触发词。为解决这一问题,本文提出了一种表示学习框架,通过有效分离、增量学习,最后自适应合成不同的事件特征表示,来有效地蒸馏判别性和泛化性知识。实验结果证明了本文的方法在未见的、稀疏的事件触发词上超过了之前的方法,同时在ACE2005和KBP2017两个数据集取得了当前最好的性能。 该论文作者分别为:陆垚杰(中科院软件所),林鸿宇(中科院软件所),韩先培(中科院软件所),孙乐(中科院软件所) (3) Progressively Self-Supervised Attention Learning for Aspect-Level Sentiment Analysis 在方面层次的情感分类任务中,使用注意力机制来捕获上下文文本中与给定方面最为相关的信息是近年来研究者们的普遍做法。然而,注意力机制容易过多的关注数据中少部分有强烈情感极性的高频词汇,而忽略那些频率较低的词。本文提出了一种渐进的自监督注意力学习算法,能够自动的,渐进的挖掘文本中重要的监督信息,从而在模型训练过程中约束注意力机制的学习。具体的,我们迭代的在训练实例上擦除对情感极性“积极”/“消极”的词汇。这些词在下一轮学习过程中将会被一个特殊标记替代,并记录下来。最终,我们针对不同情况,设计不同的监督信号,在最终模型训练目标函数中作为正则化项约束注意力机制的学习。在SemEval 14 REST,LAPTOP以及口语化数据集TWITTER上的实验结果表明,我们提出的渐进注意力机制能够在多个前沿模型的基础之上取得显著性的性能提升。 该论文作者分别为:唐家龙(中科院软件所),陆紫耀(厦门大学),苏劲松(厦门大学),葛毓斌(UIUC),宋霖峰(罗切斯特大学),孙乐(中科院软件所), 罗杰波(罗切斯特大学)。 (4)Cost-sensitive Regularization for Label Confusion-aware Event Detection 事件检测是信息抽取中的一个重要任务。近年来,神经网络在事件检测上取得了重大的进展。然而,我们的研究发现,神经网络模型在事件检测上的错误通常出现在某些特定的类别对之间。针对上述问题,我们提出了一种代价敏感的正则化约束优化目标。该约束目标使得神经网络在训练的过程中能够更加关注某些特定的易混淆类别对。除此之外,我们还提出了两种实例级别以及语料库级别的用于估计类别间混淆度的方法。在ACE2005以及KBP2017数据集上实验结果表明,我们提出的代价敏感的正则化约束能够显著提升多种不同架构的神经网络事件检测模型的性能。 该论文作者分别为:林鸿宇(中科院软件所),陆垚杰(中科院软件所),韩先培(中科院软件所),孙乐(中科院软件所) 论文全文和源代码稍后将在中科院软件所中文信息处理实验室网站(www.icip.org.cn)开放,欢迎大家关注!

实验室四项成果被自然语言处理顶级会议ACL 2019接收 2019-06-17T15:44:16+00:00

天津大学张鹏副教授应邀做学术报告

2019-06-17T14:58:50+00:00

天津大学张鹏副教授应邀做学术报告 2019年5月17日,应实验室孙乐研究员,韩先培研究员和何苯研究员的邀请,天津大学计算机系张鹏副教授访问实验室,并做了一场题为“A quantum many-body wave function inspired language modeling approach”的学术报告。 语言模型是自然语言处理相关领域研究工作的重要基础。近年来,人们基于量子力学概率理论提出量子语言模型。张鹏老师的报告首先概要介绍了量子理论的基础知识;随后回顾量子信息检索的发展历史,综述量子语言模型的研究动机和研究脉络,分析各种量子语言模型的优缺点;根据量子多体问题、神经网络、语言模型三者之间的关系,介绍基于量子多体波函数的语言模型,以及基于张量网络的语言模型;最后做了总结,和对未来工作的展望。 报告结束后,张鹏老师同与会的师生积极互动,解答大家对量子理论的困惑以及量子理论应用到自然语言处理领域中的问题。

天津大学张鹏副教授应邀做学术报告 2019-06-17T14:58:50+00:00

清华大学刘知远副教授应邀做学术报告

2019-04-23T08:56:17+00:00

清华大学刘知远副教授应邀做学术报告 2019年4月19日,应实验室孙乐研究员和韩先培研究员的邀请,清华大学计算机系刘知远副教授访问实验室,并做了一场题为“知识指导的自然语言处理”的学术报告。 刘知远老师的报告首先概要介绍了自然语言的不同层次理解需要诸如语言知识、常识知识、世界知识等复杂知识的支撑,随后介绍了如何将知网 (Hownet)中的语言知识融入到语义分布式表示学习中;如何利用现有的大规模知识图谱进行知识表示学习,如何利用学习到的知识表示来指导现有的自然语言处理任务;以及如何利用深度学习技术进行知识获取的相关工作。 报告结束后,刘知远老师同与会的师生积极互动,解答大家的学术问题并进行了学术研究方法的交流,会场气氛热烈。  

清华大学刘知远副教授应邀做学术报告 2019-04-23T08:56:17+00:00

中文信息处理分工会组织春游活动

2019-04-01T11:47:49+00:00

春意融融,长城怀古 阳春三月,草长莺飞,正是万物复苏的好时节。3月31日,中文信息处理实验室组织职工及学生40余人共同来到黄花城水长城景区,欣赏美景,放松心情。 黄花城水长城位于北京市怀柔区九渡河镇境内,因三段长城入水而得名,是北京唯一一处长城与水相连的长城。此处融青山、碧水、长城、古树为一体,有“塞外景,江南风,尽在水长城”的美誉。 拾级而上,水长城悠然而立,古朴自然。身处长城之上,漫山野桃花灿烂缤纷,灏明湖碧波粼粼,不时有小船掠过。大家通力合作,一起登上了长城的最高点,在这个过程中既感受到长城承载的厚重历史,也欣赏了自然的美丽风光。微风吹拂中,所有的疲惫都一扫而光。 除了雄伟的长城,归途上形态万千的板栗林,依山蜿蜒的盘山栈道,风景亦是美不胜收。在这样的美景中,大家心情愉悦,一路上欢声笑语,其乐融融。暮色四合,在农家小院的饭菜香味中,大家结束了一天的旅程。 欢乐不觉时光过。通过此次活动,大家放松心情,也将春天的生机与活力带回了实验室中。作为一个团体,中文信息处理实验室将继续奋进,一同前行! (供稿:陈晓阳)  

中文信息处理分工会组织春游活动 2019-04-01T11:47:49+00:00

北京大学冯岩松副教授应邀做学术报告

2019-03-25T09:19:17+00:00

北京大学冯岩松副教授应邀做学术报告 2019年3月22日下午14:00,应实验室孙乐研究员与韩先培研究员的邀请,北京大学冯岩松副教授来访实验室,为大家带来一场题为“Combining Human Knowledge with Neural Network Models: A Case Study for SLU and Beyond”的学术讲座。 冯岩松老师的报告主要关注点在于如何将人类预先获得的知识融入到现有的深度神经网络架构之中,从而提升网络在少样本学习上的能力。具体来说,冯岩松老师围绕着意图识别和关系抽取两大任务,向大家介绍了多种将正则表达式以及预定义规则融入到神经网络学习过程中的方法,并详细比较了多种不同方法的优劣以及适用范围。最后,冯老师同大家分享了自己在信息抽取领域的丰富实践经验,并详细地解答了同学们提出的各种相关问题。

北京大学冯岩松副教授应邀做学术报告 2019-03-25T09:19:17+00:00

新浪微博张俊林博士应邀来实验室做学术报告

2019-03-04T10:52:44+00:00

新浪微博张俊林博士应邀来实验室做学术报告 2019年3月1日,应实验室主任孙乐研究员的邀请,新浪微博AI Lab资深算法专家张俊林博士来访实验室,为师生带来一场题为“自然语言预训练技术及RNN/CNN/Transformer比较”的精彩学术报告。现场座无虚席,反响热烈。 张俊林博士首先介绍了NLP中的一些主要预训练技术的技术演进历程,从基础的word embedding技术到近一年来兴起的ELMO、GPT、BERT等语言模型。这些预训练语言模型采用无监督的学习算法,得以利用大规模的自然语言语料进行训练,在各类自然语言处理任务上均取得巨大突破。而作为BERT基础组件的Transformer近年来也得到广泛应用,在各项任务中均取得不少进展。然后,张俊林博士对自然语言处理中的三大特征抽取器Transformer、RNN和CNN的各自优缺点进行了对比分析。最后,张俊林博士又同大家分享了自己对近些年预训练语言模型发展趋势的展望,并详细解答了同学们提出的相关问题。  

新浪微博张俊林博士应邀来实验室做学术报告 2019-03-04T10:52:44+00:00

中国科学院自动化研究所刘康副研究员应邀做学术报告

2019-03-25T09:20:34+00:00

中国科学院自动化研究所刘康副研究员应邀做学术报告 2019年1月11日下午14:00,应实验室孙乐研究员与韩先培研究员的邀请,中国科学院自动化研究所刘康副研究员走进中文信息处理实验室,为实验室师生做了关于事件抽取的学术讲座。 刘康博士结合课题组近年来的工作进展, 向大家介绍了从非结构化文本中抽取结构化事件知识的基本方法, 以及应对开放域事件抽取标记数据稀缺的新思路。此外,刘康博士还和大家分享了深度学习方法在金融事件抽取应用项目中的经验和体会。 报告结束后,刘康老师与参会的师生进行互动,探讨了金融事件抽取相关的若干问题,现场气氛活跃。

中国科学院自动化研究所刘康副研究员应邀做学术报告 2019-03-25T09:20:34+00:00

复旦大学邱锡鹏老师访问实验室

2019-03-25T09:21:02+00:00

复旦大学邱锡鹏老师访问实验室 2018年11月9日,应实验室韩先培研究员邀请,复旦大学计算机科学技术学院邱锡鹏老师走进中文信息处理实验室,为师生带来精彩学术报告,中科院软件所和自动化所的同学前来听讲座,现场座无虚席,反响热烈。 邱锡鹏老师以“如何端到端地写科研论文”为题,介绍了如何做科研和写出好的科研论文。老师先讲解了几大顶会的评审制度和审稿标准,然后又从同行评议的数据集出发,通过几种可解释性强的模型,分析了对于论文录用概率有影响的不同的写作方法和写作细节。邱老师又以自己组内ACL-2017的文章《Adversarial Multi-Criteria Learning for Chinese WordSegmentation》为例,详细讲解了文章的摘要、介绍、背景、方法、试验、相关工作和结论的写作中的注意事项。 报告结束,同学们获益匪浅,反响热烈,并和邱锡鹏老师一同合照。    

复旦大学邱锡鹏老师访问实验室 2019-03-25T09:21:02+00:00