研究室动态

3010, 2020

中国科学院自动化研究所何世柱副研究员应邀作学术报告

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020年10月30日下午，应实验室孙乐研究员和韩先培研究员的邀请，中国科学院自动化研究所何世柱副研究员到访实验室，为实验室师生做了题为“融合知识的生成式对话研究”的学术报告。何世柱老师博士毕业于中科院自动化所，现任模式识别国家重点实验室副研究员、硕士生导师，主要研究方向为知识推理和问答系统。近年来，从大规模原始对话数据中学习生成式的对话模型受到越来越多的关注，主要方法大都基于深度学习模型，使用多层神经网络记忆对话中涉及的知识。但是，一方面，对话中涉及到的知识非常多，并且时常更新，深度学习模型仅依赖神经网络中的若干参数不可能对它们完全表示和存储；另一方面，事实上目前大部分知识常以形式化的知识图谱形式表示。因此，如何在基于深度学习模型的对话模型中利用知识图谱是一个重要研究课题，它不仅能够提升深度模型生成答复的多样性，也能够给用户提供富有内容的回复。何老师从语言知识、主题知识和世界知识三类知识的应用，介绍相关的研究工作和课题组的研究进展，并对融合知识的生成式对话研究进行总结和展望。报告结束后，何世柱老师与实验室师生就文本生成方面的技术进行了互动。 [...]

2610, 2020

九九重阳，登高赏秋

九九重阳，登高赏秋九月九日望遥空，秋水秋天生夕风。10月25日，正值重阳佳节，中文信息处理实验室组织教职工和学生40余人前往慕田峪长城登高望远，共赏红叶。慕田峪长城位于北京市怀柔境内，距北京城区73公里，历史悠久，文化灿烂。景区内山峦叠嶂，树木葱郁，在中外享有“万里长城，慕田峪独秀”的美誉。金秋十月，阳光灿烂，遍山红叶开得正欢。在攀登途中，大家观赏美妙秋景，眺望长城景观，感到心旷神怡。离开了雄伟壮观的慕田峪长城，大家又前往果园进行采摘活动。果园里瓜果飘香，芬芳迷人，大家精心挑选果实，收获了亲近自然的美妙体验。 [...]

2110, 2020

卓盛云科技有限公司创始人金友兵博士应邀访问实验室

卓盛云科技有限公司创始人金友兵博士应邀访问实验室 2020年10月20日下午，应实验室主任孙乐研究员的邀请，卓盛云科技有限公司创始人金友兵博士应邀访问实验室，为实验室师生做了题为“软件开发管理和架构设计”的报告。金友兵博士拥有多年Linux操作系统、办公软件、文档管理和文档安全等领域的研发经历，曾主持过大型软件系统开发，具备400+人规模的团队管理经验。曾主持863重大专项和10多项国家级/北京市重大项目，历年共申请发明专利20多项。曾获得2010年国务院特殊津贴、北京市科技进步一等奖/新世纪百千万北京市级人才称号等荣誉。金博士曾任红旗中文贰仟公司 CTO、书生集团CTO。他于2017年创立卓盛云科技有限公司（南京/天津），主持开发容器化存储软件、云平台软件等相关产品。在报告中，金博士主要围绕软件项目管理、软件架构设计、敏捷开发、持续集成-DevOps四个方面的内容展开介绍，并与实验室职工和学生就软件开发和项目管理中的问题进行了讨论。

2110, 2020

阿里巴巴达摩院罗福莉老师到访实验室

阿里巴巴达摩院罗福莉老师到访实验室 2020年10月16日下午，应实验室博士后林鸿宇的邀请，阿里巴巴的罗福莉老师到访实验室，为实验室师生做了题为“阿里深度语言模型体系ALICE”的讲座分享。报告的开始，罗福莉老师首先对她所在的阿里巴巴达摩院语言技术实验室进行了整体介绍，进而描述了阿里巴巴语言模型体系ALICE的架构。来自ALICE的六大语言模型一举拿下了英文GLUE、多语言XTREME、多模态VQA、阅读理解和生成MS MARCO在内的多项国际赛事和榜单的第一名。本次分享将详解参赛榜单的语言模型（包括通用语言模型StructBERT、多语言预训练模型、生成式PALM、多模态预训练模型StructVBERT等）背后的技术创新、平台建设以及对内外的应用落地。罗老师首先介绍了团队提出了通用预训练模型StructBERT，通过设计基于语言结构的预训练任务，使得模型能够学习到词级别和句子级别的结构信息。 [...]

1510, 2020

孙乐研究员应邀在软件所学术年会做特邀报告

孙乐研究员应邀在软件所学术年会做特邀报告，其中实验室2个海报评为优秀海报奖 9月21日，中国科学院软件研究所2020年度学术年会在软件所举办。本次会议采用了现场和线上直播相结合的方式进行，软件所所长赵琛、学术委员会主任林惠民院士以及所内外专家学者共240余人参加了会议。大会开幕式由田丰研究员主持。赵琛所长首先对软件所学术委员会、大会组委会的辛勤付出以及特邀报告人为年会带来的精彩报告表示感谢；随后的报告环节包括上午的两场特邀报告和下午的三场学术报告。实验室孙乐研究员应邀为此次大会作了题为“认知启发的自然语言理解”的特邀报告。本次大会共征集到来自研究所科研成果87份，由大会组委会及各实验室/中心择优选出74份成果以海报形式公开展出、8份成果作大会学术报告。同时，大会选出35份代表性论文进行视频介绍，经过组委会及公众两轮投票最终选出了10份学术年会优秀海报。其中实验室的2份海报评为优秀海报奖，具体的获奖信息如下： [...]

1510, 2020

实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖

中文信息处理实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖近日，中国科学院公布了2020年度中国科学院院长奖评审结果,中国科学院软件研究所中文信息处理实验室2015级硕博连读生林鸿宇荣获“中国科学院院长特别奖”，其指导教师孙乐研究员荣获 “中国科学院优秀导师奖”。林鸿宇，2015年进入软件所学习，2017年转为博士生，主要从事自然语言处理方向的研究。曾参与国家自然科学基金重点项目、国家重点研发计划等重大国家科研任务以及阿里、百度、腾讯等国内外知名企业科技研发任务。该生与合作者一起，在自然语言处理领域国际顶级会议ACL以及EMNLP上发表学术论文十余篇，论文被美国华盛顿大学、德国达姆施塔特工业大学、谷歌、MSRA等国内外知名高校企业学者引用。在信息抽取领域，该生提出了一套全新的序列到组块信息抽取框架，并在多个信息抽取任务上给出了当前国际上最好的结果。在知识抽取领域，该生提出的异构知识推理方法作为该领域的基本方法之一，被该领域相关综述以及国际知名课程多次引用。在学期间,该生还获得了研究生国家奖学金（2017年度和2018年度）、朱李月华奖学金（2019年度）、中国科学院大学三好学生标兵等荣誉称号。中国科学院院长奖学金设立于1989年，每年评选一次，旨在激励研究生勤奋学习，创新进取，发现和奖励优秀年轻人才，促进我国科学事业的发展。中国科学院院长奖学金分为特别奖和优秀奖，是中科院研究生奖学金中含金量最高的奖项之一，今年的特别奖全院仅评选出80名。

2407, 2020

实验室多名研究生获2020年度中科院嘉奖

实验室多名研究生获2020年度中科院嘉奖根据《中国科学院软件研究所优秀学生评选办法》，经个人申请，各研究生培养小组初评和推荐，所评审小组评审，实验室多名研究生获2020年度中科院嘉奖。 2017级博士林鸿宇荣获“优秀毕业生”荣誉称号（全所5人） 2015级博士付成荣获“三好学生标兵”荣誉称号（全所5人） 2017级博士聂浩和2018级博士唐家龙荣获“三好学生”荣誉称号 [...]

1301, 2020

中文信息处理实验室学术指导委员会正式成立

中文信息处理实验室学术指导委员会正式成立 2020年1月12日，中国科学院软件研究所中文信息处理实验室学术指导委员会成立会议在北京成功召开。中国科学院软件研究所所长赵琛研究员致欢迎辞，并为学术指导委员会委员颁发聘书。实验室学术指导委员由三位专家组成：中国科学院计算技术研究所研究员、中国中文信息学会前理事长倪光南院士，中国电子信息产业集团有限公司首席科学家、中国中文信息学会理事长方滨兴院士，哈尔滨工业大学前党委书记、中国中文信息学会名誉理事长李生教授。实验室主任孙乐研究员向各位专家汇报了实验室学术方向。孙乐研究员首先介绍了实验室目前的科研项目和人才团队，重点阐述了实验室围绕知识驱动的自然语言理解（K-NLU）这一学术方向，特别是在知识获取、知识融合及语义理解等方面面临的挑战和研究进展，最后就实验室发展向各位专家提出了一系列请教的问题。韩先培研究员演示了实验室研发的知识图谱资源、诗词平台和冬奥项目问答系统。在听取了实验室学术方向汇报后，三位资深专家分别发言，从实验室学术方向规划、科研项目选择、人才队伍持续发展、成果落地及学生培养等多个方面对实验室工作进行了悉心指导，提出了许多宝贵意见和建议，为实验室今后发展指明了方向。 [...]

1301, 2020

南京理工大学夏睿教授应邀做学术报告

南京理工大学夏睿教授应邀做学术报告 2020年01月10日上午，应实验室孙乐研究员和韩先培研究员的邀请，南京理工大学计算机学院夏睿教授到访实验室，为实验室师生做了题为“文本情绪检测与原因抽取”的学术报告。夏睿老师的报告聚焦于文本情绪分析研究中情绪原因抽取任务，其目标是抽取文本中某些情绪表达背后的潜在原因。学术界目前采用了包括规则方法，传统机器学习方法和深度神经网络在内的技术来解决这些任务。针对当前研究中存在的问题，夏睿老师首先介绍了两种新的情绪原因抽取模型，并在此基础上提出了一项新的任务——<情绪-原因>对抽取，进行同步的情绪预测与原因挖掘，在情绪原因分析基准语料库上的实验证明了任务的可行性和方法的有效性。首先，夏睿老师简单为实验室的老师和同学们介绍了情绪原因抽取任务是一个子句级的分类任务，并通过一个简单易懂的例子为大家说明了现有方法存在的问题：没有充分考虑情绪原因在文档中的分布规律。通过对数据的仔细分析以及任务的深入理解，夏睿老师的团队提出：1）子句与情感描述句的相对位置是一个很强的先验知识，离情感描述句越近的子句包含情感原因的概率越高；2）在一篇短文档中，情感原因往往只有1个或者两个。根据以上发现，夏老师为实验室师生介绍了他们发表在AAAI2019和IJCAI2019的两篇工作：From Independent [...]

2512, 2019

大阪大学褚晨翚博士应邀做学术报告

大阪大学褚晨翚博士应邀做学术报告 2019年12月24日下午，应实验室孙乐研究员和韩先培研究员邀请，大阪大学褚晨翚博士到访实验室，为实验室师生作了题为“从多语言到多模态处理”的学术报告。褚晨翚博士的报告主要聚焦于近年来极为热门的跨语言及跨模态相关的研究。在报告中，褚博士主要介绍了其课题组近期发表在顶级刊物上的三个科研成果，内容涉及多语言机器翻译、视觉问答复述以及基于知识的视觉问答等重要方向。在多语言机器翻译上，褚博士提出了一种全新的三步骤微调学习方案，大幅度地提升了多语言机器翻译模型的性能。在视觉问答复述上，褚博士的课题组率先提出了在视觉问答中需要考虑训练以及测试中的复述现象，提出了一个全新的视觉复述识别任务，并对该任务进行了系统性的研究。 [...]

1212, 2019

浙江大学丁鼐研究员应邀做学术报告

浙江大学丁鼐研究员应邀做学术报告 2019年12月12日下午，应实验室孙乐研究员和韩先培研究员邀请，浙江大学生物医学工程与仪器科学学院丁鼐研究员，为实验室师生作了题为“层级语言结构的认知神经加工”的学术报告。丁鼐老师首先通过一系列实验向大家介绍了大脑如何编码语音中不同层级的语言单元——比如音节、词、短语和语句。这些实验主要建模语言特征与脑信号之间的关系，实验结果显示不同时间尺度的神经振荡表征不同大小的语言单元，这也说明了大脑构建了多层级的语言表征。随后丁鼐老师介绍了注意力如何影响大脑对不同大小语言单元的编码。实验发现高级语言结构加工更依赖于注意力，而且句子聆听过程中的注意焦点可以调节大脑响应。报告结束后，实验室老师和多位同学与丁鼐老师针对人与计算机进行阅读理解时注意力的差异、大脑中词汇表征形式等问题进行了深入交流。 [...]

212, 2019

阿里达摩院陈博兴博士应邀做学术报告

阿里达摩院陈博兴博士应邀做学术报告 2019年11月29日下午，应实验室孙乐研究员和韩先培研究员邀请，阿里巴巴达摩院机器智能技术实验室陈博兴博士到访实验室，为实验室师生作了题为“语音翻译的技术及其应用”的学术报告。陈老师的报告主要介绍了阿里巴巴集团近年来在语音翻译方面的相关工作。从主要挑战、技术策略以及实际应用等多个方面介绍了阿里巴巴公司在语音翻译方面的研究及落地情况。首先，陈老师简单回顾了在语音翻译方面的两个主要的技术路线：级联式以及端到端的方法。虽然近年来端到端的方法得到的广泛的关注，但因其对于数据量的要求较高，阿里巴巴公司目前仍然采用级联式的语音翻译方案。接下来，陈老师总结了在级联式语音翻译中的主要挑战：糟糕的翻译输入（主要来自于语音错误、断句错误、不通顺、非正式语言），缺少相关的标注语料（缺少非正式语言的平行语料等）以及在MT任务上的一些传统挑战。 [...]

1811, 2019

复旦大学张奇教授应邀做学术报告

复旦大学张奇教授应邀做学术报告 2019年11月18日下午，应实验室孙乐研究员和韩先培研究员邀请，复旦大学计算机学院张奇教授到访实验室，为实验室师生作了题为“搜索引擎中的智能问答”的学术报告。张老师的报告聚焦于近些年在学术界和工业界都备受关注的智能问答方向。张老师首先介绍了近些年搜索引擎发展的趋势，指出了智能问答技术在移动互联网时代的重要性。随即，张老师比较了近些年在学术界火热的SQuAD数据集和工业界实际应用场景下的区别，相比于SQuAD评测，工业界实际场景中存在文档种类更多，质量差异大，文档更长，且不一定存在正确答案等问题，使得真实场景中的智能问答难度更大，更具挑战性。为了解决智能问答中存在的这些问题，张老师将解决方案分为三大类：1）基于社区的问题回答；2）基于知识图谱的问题回答；3）机器阅读理解。张老师着重介绍了第一和第三这两大类方案的主要方法和最新工作。基于社区的问题回答，可以当成语义匹配问题来建模。现阶段互联网的问答平台如百度知道、搜狗问问、知乎等都已积累了丰富的问题和答案资源。当用户有新的问题咨询时，可以直接在已有问题中匹配到相似问题，返回对应的已有答案。现有的语义匹配模型可以分为两大类：一是基于句子表示的方法；二是基于交互关系的方法。 [...]

1411, 2019

中文信息处理实验室师生参加EMNLP-IJCNLP2019

中文信息处理实验室师生参加EMNLP-IJCNLP2019 2019年11月3日至7日，由ACL SIGDAT（语言学数据特殊兴趣小组）主办的EMNLP-IJCNLP 2019（2019 Conference [...]

811, 2019

祝贺实验室唐家龙和吴杉荣获2019年国家奖学金

祝贺实验室唐家龙和吴杉荣获2019年国家奖学金所研究生国家奖学金评审委员会于2019年11月6日组织了公开答辩、评议，最后通过无记名投票表决，我实验室2018级直博生唐家龙同学、2017级硕士吴杉同学获得2019年硕士研究生国家奖学金。特向两位同学表示祝贺！

2910, 2019

中文信息处理分工会组织秋游活动

天朗气清，金海赏秋一年好景君须记，最是橙黄橘绿时，金海赏秋正当时。10月27日，中文信息处理实验室组织职工及学生20余人奔赴北京市金海湖，一赏秋日美景。金海湖风景区，地处京城东北85公里京津唐交界的三角地带，三面环山，峰峦叠翠、风景秀丽，有千岛湖的湖观山色，又有兔耳岭的怪石嶙峋，有湖光塔、金花公主墓、望海亭、锯齿崖等自然景观、人文景观数十处。金海湖水域宽阔、碧波万顷，是开展水上娱乐项目的理想之所。待到暖阳染红苍穹，湖面泛起点点金芒，荡起轻舸，泛舟湖上，微风吹皱粼粼涟漪，人在其中静静欣赏着青峰翠嶂，仿佛置身水墨山水之中，令人忘返。 [...]

2910, 2019

中科院计算所冯洋副研究员应邀做学术报告

中科院计算所冯洋副研究员应邀做学术报告 2019年10月29日下午，应实验室孙乐研究员和韩先培研究员的邀请，中科院计算技术研究所冯洋副研究员到访实验室，为实验室师生做了题为“机器翻译的训练改进和解码提速”的学术报告。冯老师的报告聚焦于机器翻译训练和测试阶段的四个困难，分别介绍了四个相对应的工作。首先，冯老师简要阐述了当前机器翻译使用的序列到序列模型架构：RnnSearch和Transformer，并指出在现有机器翻译模型训练阶段存在的：1）曝光偏差；2）词级匹配的问题以及测试阶段存在的：3）Beam Search搜索空间过大；4）顺序解码时效性差的问题。曝光偏差是指机器翻译模型训练阶段将上一时刻准确的词作为输入以预测这一时刻的词，而测试阶段没有标准的目标端输出词只能将上一时刻预测的词作为输入。而这就导致了训练阶段与测试阶段的不一致。冯老师针对该问题介绍了他们在ACL2019的Best [...]

2910, 2019

中科院软件所中文信息处理实验室招聘启事——特别研究助理（博士后） | 工程师

中国科学院软件研究所中文信息处理实验室招聘启事——特别研究助理（博士后） | 工程师因科研工作需要，中国科学院软件研究所中文信息处理实验室现公开招聘以下岗位，即日起受理报名，竭诚欢迎符合条件的人士申请。岗位一：特别研究助理/博士后（2-3人） [...]

2210, 2019

中文信息处理实验室多名师生参加CCL2019

中文信息处理实验室多名师生参加CCL2019 “第十八届中国计算语言学大会”（The Eighteenth China National [...]

2709, 2019

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布

中文信息处理实验室研发的“北京冬奥项目知识图谱资源及问答系统”正式发布 9月26日上午，由中国科学院软件研究所中文信息处理实验室负责研发的“北京冬奥项目知识图谱资源及问答系统”在北京语言大学正式发布。教育部、国家语委、北京冬奥组委、中国科学院软件研究所和北京语言大学相关领导及专家出席发布会。会上，项目负责人、中国科学院软件研究所孙乐研究员详细介绍了“基于知识图谱的北京冬奥项目智能问答系统”的研发进展及成果特色。项目构建了大规模知识图谱，完整覆盖5类冬奥核心实体，设计多种类型的知识展示服务，研发了语音和文字两种输入方式的“智能问答平台”，提供实时便捷的冬奥会问答服务，为普及冬奥知识、宣传冬奥文化提供了全方位、立体化手段。孙乐研究员介绍项目情况中科院软件研究所副所长肖作敏研究员代表软件所发表致辞，首先感谢了教育部、国家语委和北京冬奥组委的指导，感谢项目合作单位北京语言大学的提供的大力支持。他表示，项目立项之初，软件所高度重视，深感在普及冬奥知识、宣扬冬奥文化方面的责任重大。未来将继续在人、财、物方面给予项目研发团队大力支持，持续钻研技术、锻造品牌，研发更多的智能语言服务成果，全力以赴地服务好北京冬奥会，共同谱写“智能”新篇章。 [...]

Previous 234 Next

20,058