天津大学张鹏副教授应邀做学术报告
root 2019-08-26T18:50:04+00:00天津大学张鹏副教授应邀做学术报告 2019年5月17日,应实验室孙乐研究员,韩先培研究员和何苯研究员的邀请,天津大学计算机系张鹏副教授访问实验室,并做了一场题为“A quantum many-body wave function inspired language modeling approach”的学术报告。 [...]
天津大学张鹏副教授应邀做学术报告 2019年5月17日,应实验室孙乐研究员,韩先培研究员和何苯研究员的邀请,天津大学计算机系张鹏副教授访问实验室,并做了一场题为“A quantum many-body wave function inspired language modeling approach”的学术报告。 [...]
清华大学刘知远副教授应邀做学术报告 2019年4月19日,应实验室孙乐研究员和韩先培研究员的邀请,清华大学计算机系刘知远副教授访问实验室,并做了一场题为“知识指导的自然语言处理”的学术报告。 刘知远老师的报告首先概要介绍了自然语言的不同层次理解需要诸如语言知识、常识知识、世界知识等复杂知识的支撑,随后介绍了如何将知网 (Hownet)中的语言知识融入到语义分布式表示学习中;如何利用现有的大规模知识图谱进行知识表示学习,如何利用学习到的知识表示来指导现有的自然语言处理任务;以及如何利用深度学习技术进行知识获取的相关工作。 报告结束后,刘知远老师同与会的师生积极互动,解答大家的学术问题并进行了学术研究方法的交流,会场气氛热烈。
孙乐研究员参与翻译的《自然语言处理综论》出版 孙乐研究员与冯志伟教程合作翻译的《自然语言处理综论》第二版于2018年3月份正式出版。 从本书第一版出版以来,一直好评如潮,被国外许多大学选作自然语言处理或计算语言学的教材,被认为该领域教材的“黄金标准”。本书第一版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书四大特色: 覆盖全面 强调实用 注重评测 语料为本内容简介本书全面论述了自然语言处理技术。本书在第一版的基础上增加了自然语言处理的最新成就,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书共分五个部分。第一部分“词汇的计算机处理”,讲述单词的计算机处理,包括单词切分、单词的形态学、最小编辑距离、词类,以及单词计算机处理的各种算法,包括正则表达式、有限状态自动机、有限状态转录机、N元语法模型、隐马尔可夫模型、最大熵模型等。第二部分“语音的计算机处理”,介绍语音学、语音合成、语音自动识别以及计算音系学。第三部分“句法的计算机处理”,介绍英语的形式语法,讲述句法剖析的主要算法,包括CKY剖析算法、Earley剖析算法、统计剖析,并介绍合一与类型特征结构、Chomsky层级分类、抽吸引理等分析工具。第四部分“语义和语用的计算机处理”,介绍语义的各种表示方法、计算语义学、词汇语义学、计算词汇语义学,并介绍同指、连贯等计算机话语分析问题。第五部分“应用”,讲述信息抽取、问答系统、自动文摘、对话和会话智能代理、机器翻译等自然语言处理的应用技术。本书写作风格深入浅出,实例丰富,引人入胜。本书可作为高等学校自然语言处理或计算语言学的本科生和研究生的教材,也可以作为从事人工智能、自然语言处理等领域的研究人员和技术人员的必备参考。 [...]
春意融融,长城怀古 阳春三月,草长莺飞,正是万物复苏的好时节。3月31日,中文信息处理实验室组织职工及学生40余人共同来到黄花城水长城景区,欣赏美景,放松心情。 黄花城水长城位于北京市怀柔区九渡河镇境内,因三段长城入水而得名,是北京唯一一处长城与水相连的长城。此处融青山、碧水、长城、古树为一体,有“塞外景,江南风,尽在水长城”的美誉。 拾级而上,水长城悠然而立,古朴自然。身处长城之上,漫山野桃花灿烂缤纷,灏明湖碧波粼粼,不时有小船掠过。大家通力合作,一起登上了长城的最高点,在这个过程中既感受到长城承载的厚重历史,也欣赏了自然的美丽风光。微风吹拂中,所有的疲惫都一扫而光。 除了雄伟的长城,归途上形态万千的板栗林,依山蜿蜒的盘山栈道,风景亦是美不胜收。在这样的美景中,大家心情愉悦,一路上欢声笑语,其乐融融。暮色四合,在农家小院的饭菜香味中,大家结束了一天的旅程。 欢乐不觉时光过。通过此次活动,大家放松心情,也将春天的生机与活力带回了实验室中。作为一个团体,中文信息处理实验室将继续奋进,一同前行! (供稿:陈晓阳)
北京大学冯岩松副教授应邀做学术报告 2019年3月22日下午14:00,应实验室孙乐研究员与韩先培研究员的邀请,北京大学冯岩松副教授来访实验室,为大家带来一场题为“Combining Human Knowledge with Neural Network Models: A Case [...]
新浪微博张俊林博士应邀来实验室做学术报告 2019年3月1日,应实验室主任孙乐研究员的邀请,新浪微博AI Lab资深算法专家张俊林博士来访实验室,为师生带来一场题为“自然语言预训练技术及RNN/CNN/Transformer比较”的精彩学术报告。现场座无虚席,反响热烈。 张俊林博士首先介绍了NLP中的一些主要预训练技术的技术演进历程,从基础的word embedding技术到近一年来兴起的ELMO、GPT、BERT等语言模型。这些预训练语言模型采用无监督的学习算法,得以利用大规模的自然语言语料进行训练,在各类自然语言处理任务上均取得巨大突破。而作为BERT基础组件的Transformer近年来也得到广泛应用,在各项任务中均取得不少进展。然后,张俊林博士对自然语言处理中的三大特征抽取器Transformer、RNN和CNN的各自优缺点进行了对比分析。最后,张俊林博士又同大家分享了自己对近些年预训练语言模型发展趋势的展望,并详细解答了同学们提出的相关问题。
中国科学院自动化研究所刘康副研究员应邀做学术报告 2019年1月11日下午14:00,应实验室孙乐研究员与韩先培研究员的邀请,中国科学院自动化研究所刘康副研究员走进中文信息处理实验室,为实验室师生做了关于事件抽取的学术讲座。 刘康博士结合课题组近年来的工作进展, 向大家介绍了从非结构化文本中抽取结构化事件知识的基本方法, 以及应对开放域事件抽取标记数据稀缺的新思路。此外,刘康博士还和大家分享了深度学习方法在金融事件抽取应用项目中的经验和体会。 报告结束后,刘康老师与参会的师生进行互动,探讨了金融事件抽取相关的若干问题,现场气氛活跃。
复旦大学邱锡鹏老师访问实验室 2018年11月9日,应实验室韩先培研究员邀请,复旦大学计算机科学技术学院邱锡鹏老师走进中文信息处理实验室,为师生带来精彩学术报告,中科院软件所和自动化所的同学前来听讲座,现场座无虚席,反响热烈。 邱锡鹏老师以“如何端到端地写科研论文”为题,介绍了如何做科研和写出好的科研论文。老师先讲解了几大顶会的评审制度和审稿标准,然后又从同行评议的数据集出发,通过几种可解释性强的模型,分析了对于论文录用概率有影响的不同的写作方法和写作细节。邱老师又以自己组内ACL-2017的文章《Adversarial Multi-Criteria Learning for Chinese WordSegmentation》为例,详细讲解了文章的摘要、介绍、背景、方法、试验、相关工作和结论的写作中的注意事项。 报告结束,同学们获益匪浅,反响热烈,并和邱锡鹏老师一同合照。 [...]
中国中文信息学会承办的第53届国际计算语言学年会在北京成功举办 2015年7月26-31日,由中国中文信息学会承办的第53届国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,ACL)首次在中国大陆召开。本次会议在北京国家会议中心举行,汇集了1200多名自然语言处理领域的国内外知名学者,是一次学术前沿和技术前沿交流研讨的国际学术盛会。 国际计算语言学协会主席Christopher [...]
2018年实验室代表性论文介绍 一、基于区块提议网络的中文事件检测 事件检测则是事件抽取中的一个关键步骤。近年来,随着基于神经网络方法的发展,人们常常将事件检测转化为一个词级别的分类问题来对待。然而,基于词级别分类的事件检测方法没有考虑到事件触发词块与词的不匹配问题。特别是在中文当中,有许多的事件触发词块并不是一个特定的词。 针对上述问题,我们提出了一种基于区块提议网络的中文事件检测方法。具体地,我们的方法首先使用动态多池化卷积神经网络抽取字符级别和词级别的混合特征。之后基于混合特征的触发词块生成器可以在字符级别上直接给出整个触发词块的检测结果,从而避免了事件触发词块与词的不匹配问题。实验结果表明我们的方法在事件检测标准数据集TAC-KBP2017以及ACE2005上取得了State-of-the-Art性能。 上述成果长文发表在自然语言处理顶级国际会议ACL 2018会议上: Hongyu Lin, Yaojie Lu, [...]