root

/root

About root

This author has not yet filled in any details.
So far root has created 178 blog entries.

孙乐研究员参与翻译的《自然语言处理综论》出版

2019-08-26T18:54:29+00:00

     孙乐研究员参与翻译的《自然语言处理综论》出版 孙乐研究员与冯志伟教程合作翻译的《自然语言处理综论》第二版于2018年3月份正式出版。 从本书第一版出版以来,一直好评如潮,被国外许多大学选作自然语言处理或计算语言学的教材,被认为该领域教材的“黄金标准”。本书第一版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书四大特色: 覆盖全面 强调实用 注重评测 语料为本内容简介本书全面论述了自然语言处理技术。本书在第一版的基础上增加了自然语言处理的最新成就,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书共分五个部分。第一部分“词汇的计算机处理”,讲述单词的计算机处理,包括单词切分、单词的形态学、最小编辑距离、词类,以及单词计算机处理的各种算法,包括正则表达式、有限状态自动机、有限状态转录机、N元语法模型、隐马尔可夫模型、最大熵模型等。第二部分“语音的计算机处理”,介绍语音学、语音合成、语音自动识别以及计算音系学。第三部分“句法的计算机处理”,介绍英语的形式语法,讲述句法剖析的主要算法,包括CKY剖析算法、Earley剖析算法、统计剖析,并介绍合一与类型特征结构、Chomsky层级分类、抽吸引理等分析工具。第四部分“语义和语用的计算机处理”,介绍语义的各种表示方法、计算语义学、词汇语义学、计算词汇语义学,并介绍同指、连贯等计算机话语分析问题。第五部分“应用”,讲述信息抽取、问答系统、自动文摘、对话和会话智能代理、机器翻译等自然语言处理的应用技术。本书写作风格深入浅出,实例丰富,引人入胜。本书可作为高等学校自然语言处理或计算语言学的本科生和研究生的教材,也可以作为从事人工智能、自然语言处理等领域的研究人员和技术人员的必备参考。   [...]

孙乐研究员参与翻译的《自然语言处理综论》出版 2019-08-26T18:54:29+00:00

中文信息处理分工会组织春游活动

2019-04-01T11:48:26+00:00

春意融融,长城怀古 阳春三月,草长莺飞,正是万物复苏的好时节。3月31日,中文信息处理实验室组织职工及学生40余人共同来到黄花城水长城景区,欣赏美景,放松心情。 黄花城水长城位于北京市怀柔区九渡河镇境内,因三段长城入水而得名,是北京唯一一处长城与水相连的长城。此处融青山、碧水、长城、古树为一体,有“塞外景,江南风,尽在水长城”的美誉。 拾级而上,水长城悠然而立,古朴自然。身处长城之上,漫山野桃花灿烂缤纷,灏明湖碧波粼粼,不时有小船掠过。大家通力合作,一起登上了长城的最高点,在这个过程中既感受到长城承载的厚重历史,也欣赏了自然的美丽风光。微风吹拂中,所有的疲惫都一扫而光。 除了雄伟的长城,归途上形态万千的板栗林,依山蜿蜒的盘山栈道,风景亦是美不胜收。在这样的美景中,大家心情愉悦,一路上欢声笑语,其乐融融。暮色四合,在农家小院的饭菜香味中,大家结束了一天的旅程。 欢乐不觉时光过。通过此次活动,大家放松心情,也将春天的生机与活力带回了实验室中。作为一个团体,中文信息处理实验室将继续奋进,一同前行! (供稿:陈晓阳)  

中文信息处理分工会组织春游活动 2019-04-01T11:48:26+00:00

北京大学冯岩松副教授应邀做学术报告

2019-03-25T09:16:54+00:00

北京大学冯岩松副教授应邀做学术报告 2019年3月22日下午14:00,应实验室孙乐研究员与韩先培研究员的邀请,北京大学冯岩松副教授来访实验室,为大家带来一场题为“Combining Human Knowledge with Neural Network Models: A Case [...]

北京大学冯岩松副教授应邀做学术报告 2019-03-25T09:16:54+00:00

新浪微博张俊林博士应邀来实验室做学术报告

2019-03-07T16:35:00+00:00

新浪微博张俊林博士应邀来实验室做学术报告 2019年3月1日,应实验室主任孙乐研究员的邀请,新浪微博AI Lab资深算法专家张俊林博士来访实验室,为师生带来一场题为“自然语言预训练技术及RNN/CNN/Transformer比较”的精彩学术报告。现场座无虚席,反响热烈。 张俊林博士首先介绍了NLP中的一些主要预训练技术的技术演进历程,从基础的word embedding技术到近一年来兴起的ELMO、GPT、BERT等语言模型。这些预训练语言模型采用无监督的学习算法,得以利用大规模的自然语言语料进行训练,在各类自然语言处理任务上均取得巨大突破。而作为BERT基础组件的Transformer近年来也得到广泛应用,在各项任务中均取得不少进展。然后,张俊林博士对自然语言处理中的三大特征抽取器Transformer、RNN和CNN的各自优缺点进行了对比分析。最后,张俊林博士又同大家分享了自己对近些年预训练语言模型发展趋势的展望,并详细解答了同学们提出的相关问题。  

新浪微博张俊林博士应邀来实验室做学术报告 2019-03-07T16:35:00+00:00

中国科学院自动化研究所刘康副研究员应邀做学术报告

2019-03-08T16:48:17+00:00

中国科学院自动化研究所刘康副研究员应邀做学术报告 2019年1月11日下午14:00,应实验室孙乐研究员与韩先培研究员的邀请,中国科学院自动化研究所刘康副研究员走进中文信息处理实验室,为实验室师生做了关于事件抽取的学术讲座。 刘康博士结合课题组近年来的工作进展, 向大家介绍了从非结构化文本中抽取结构化事件知识的基本方法, 以及应对开放域事件抽取标记数据稀缺的新思路。此外,刘康博士还和大家分享了深度学习方法在金融事件抽取应用项目中的经验和体会。 报告结束后,刘康老师与参会的师生进行互动,探讨了金融事件抽取相关的若干问题,现场气氛活跃。

中国科学院自动化研究所刘康副研究员应邀做学术报告 2019-03-08T16:48:17+00:00

复旦大学邱锡鹏老师访问实验室

2019-03-07T16:36:09+00:00

复旦大学邱锡鹏老师访问实验室 2018年11月9日,应实验室韩先培研究员邀请,复旦大学计算机科学技术学院邱锡鹏老师走进中文信息处理实验室,为师生带来精彩学术报告,中科院软件所和自动化所的同学前来听讲座,现场座无虚席,反响热烈。 邱锡鹏老师以“如何端到端地写科研论文”为题,介绍了如何做科研和写出好的科研论文。老师先讲解了几大顶会的评审制度和审稿标准,然后又从同行评议的数据集出发,通过几种可解释性强的模型,分析了对于论文录用概率有影响的不同的写作方法和写作细节。邱老师又以自己组内ACL-2017的文章《Adversarial Multi-Criteria Learning for Chinese WordSegmentation》为例,详细讲解了文章的摘要、介绍、背景、方法、试验、相关工作和结论的写作中的注意事项。 报告结束,同学们获益匪浅,反响热烈,并和邱锡鹏老师一同合照。   [...]

复旦大学邱锡鹏老师访问实验室 2019-03-07T16:36:09+00:00

中国中文信息学会承办的第53届国际计算语言学年会在北京成功举办

2019-08-26T18:55:09+00:00

中国中文信息学会承办的第53届国际计算语言学年会在北京成功举办 2015年7月26-31日,由中国中文信息学会承办的第53届国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,ACL)首次在中国大陆召开。本次会议在北京国家会议中心举行,汇集了1200多名自然语言处理领域的国内外知名学者,是一次学术前沿和技术前沿交流研讨的国际学术盛会。 国际计算语言学协会主席Christopher [...]

中国中文信息学会承办的第53届国际计算语言学年会在北京成功举办 2019-08-26T18:55:09+00:00

2018年实验室代表性论文介绍

2018-12-25T10:31:41+00:00

2018年实验室代表性论文介绍 一、基于区块提议网络的中文事件检测 事件检测则是事件抽取中的一个关键步骤。近年来,随着基于神经网络方法的发展,人们常常将事件检测转化为一个词级别的分类问题来对待。然而,基于词级别分类的事件检测方法没有考虑到事件触发词块与词的不匹配问题。特别是在中文当中,有许多的事件触发词块并不是一个特定的词。 针对上述问题,我们提出了一种基于区块提议网络的中文事件检测方法。具体地,我们的方法首先使用动态多池化卷积神经网络抽取字符级别和词级别的混合特征。之后基于混合特征的触发词块生成器可以在字符级别上直接给出整个触发词块的检测结果,从而避免了事件触发词块与词的不匹配问题。实验结果表明我们的方法在事件检测标准数据集TAC-KBP2017以及ACE2005上取得了State-of-the-Art性能。 上述成果长文发表在自然语言处理顶级国际会议ACL 2018会议上: Hongyu Lin, Yaojie Lu, [...]

2018年实验室代表性论文介绍 2018-12-25T10:31:41+00:00

韩先培获得中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”一等奖

2019-08-26T18:54:58+00:00

韩先培获得中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”一等奖 2016年12月23日,中国中文信息学会第八次全国会员代表大会暨学会成立35周年学术会议在北京隆重举行,会上颁发了“钱伟长中文信息处理科学技术奖”、中国中文信息学会“终身成就奖”、“汉王青年创新奖”以及中国中文信息学会优秀博士学位论文“拓尔思优秀博士学位论文奖”。软件所中文信息处理研究室韩先培副研究员获得“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。 韩先培多年来一直致力于自然语言理解和知识图谱相关的研究工作。自然语言理解是人工智能和自然语言处理的核心科学问题,在研究和应用领域都具有重要的作用。围绕自然语言理解,韩先培在开放域语义知识获取和知识驱动文本语义分析方面取得了多项研究成果。在国际顶级学术会议如ACL、SIGIR、AAAI、EMNLP、CIKM上发表重要论文30余篇,其中在自然语言处理顶级会议ACL上发表论文7篇,相关系统在国际权威评测SIGHAN 2012中文实体链接任务取得第一名的成绩。 韩先培的论文被同行广泛引用,其论文共获得国内外700余次引用,其中引用数超过100次的论文有三篇。特别是,SIGIR 2011论文在五年内被引用216次,在信息检索领域顶级学术会议SIGIR 近五年来发表的493篇论文中排在第2位,同时Google Scholar将SIGIR 2011和ACL 2011论文分别列在实体链接搜索结果的第1位和第5位。 此外,韩先培积极参与学术服务工作,曾参与北京国际计算语言学协会ACL [...]

韩先培获得中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”一等奖 2019-08-26T18:54:58+00:00

自然语言处理国际著名学者Mark Steedman教授应邀到实验室访问并做学术报告

2019-02-20T09:30:45+00:00

自然语言处理国际著名学者Mark Steedman教授应邀到实验室访问并做学术报告 2018年11月13日上午,爱丁堡大学Mark Steedman教授应孙乐研究员邀请,在中科院软件所3层会议室做了题为“Towards a Form-Independent Semantics for NLP”的公开学术报告,中科院软件所的孙乐研究员、韩先培研究员,中科院自动化所的刘康副研究员,等参加了报告,参加报告的还有以及来自软件所和自动化所的学者和学生。 报告中,Steedman教授介绍了他们组提出来的一种form-independent的语义表示,该语义表示基于一个知识图谱(knowledge [...]

自然语言处理国际著名学者Mark Steedman教授应邀到实验室访问并做学术报告 2019-02-20T09:30:45+00:00