root

/root

About root

This author has not yet filled in any details.
So far root has created 182 blog entries.

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛

2020-11-06T19:03:43+00:00

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020年11月6日,第五届语言与智能高峰论坛举行,实验室孙乐研究员和韩先培研究员应邀参加论坛。孙乐研究员主持了上午的由微软亚洲研究院副院长周明博士特邀报告。韩先培研究员应邀在下午的青年科学家论坛上做了题为“开放知识获取:从启发式规则到端到端Bootstrapping网络”的报告。实验室师生以在线的方式参加了本届论坛。 本届论坛邀请了微软亚洲研究院、复旦大学、华为、百度研究院、俄勒冈州立大学等单位的特邀嘉宾做报告。 让机器理解人类语言是人工智能长期以来的梦想,经过几十年的发展,语言与智能技术发展到了什么程度,如何评价语言理解的智能水平,未来发展趋势如何?为了深入探讨这些重要问题,中国中文信息学会和中国计算机学会联合创办了“语言与智能高峰论坛”,首届论坛于2016年在北京举行,每年举行一次,之前已成功举办四届,旨在向社会公众介绍语言与智能的前沿动态和创新成果,推动我国相关领域快速发展。 撰稿:刘汇丹 责任编辑:刘汇丹

孙乐研究员和韩先培研究员参加第五届语言与智能高峰论坛 2020-11-06T19:03:43+00:00

中国科学院自动化研究所何世柱副研究员应邀作学术报告

2020-10-30T17:59:22+00:00

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020年10月30日下午,应实验室孙乐研究员和韩先培研究员的邀请,中国科学院自动化研究所何世柱副研究员到访实验室,为实验室师生做了题为“融合知识的生成式对话研究”的学术报告。 何世柱老师博士毕业于中科院自动化所,现任模式识别国家重点实验室副研究员、硕士生导师,主要研究方向为知识推理和问答系统。 近年来,从大规模原始对话数据中学习生成式的对话模型受到越来越多的关注,主要方法大都基于深度学习模型,使用多层神经网络记忆对话中涉及的知识。但是,一方面,对话中涉及到的知识非常多,并且时常更新,深度学习模型仅依赖神经网络中的若干参数不可能对它们完全表示和存储;另一方面,事实上目前大部分知识常以形式化的知识图谱形式表示。因此,如何在基于深度学习模型的对话模型中利用知识图谱是一个重要研究课题,它不仅能够提升深度模型生成答复的多样性,也能够给用户提供富有内容的回复。何老师从语言知识、主题知识和世界知识三类知识的应用,介绍相关的研究工作和课题组的研究进展,并对融合知识的生成式对话研究进行总结和展望。 报告结束后,何世柱老师与实验室师生就文本生成方面的技术进行了互动。 撰稿:刘汇丹 责任编辑:刘汇丹

中国科学院自动化研究所何世柱副研究员应邀作学术报告 2020-10-30T17:59:22+00:00

九九重阳,登高赏秋

2020-10-26T12:06:08+00:00

九九重阳,登高赏秋 九月九日望遥空,秋水秋天生夕风。10月25日,正值重阳佳节,中文信息处理实验室组织教职工和学生40余人前往慕田峪长城登高望远,共赏红叶。 慕田峪长城位于北京市怀柔境内,距北京城区73公里,历史悠久,文化灿烂。景区内山峦叠嶂,树木葱郁,在中外享有“万里长城,慕田峪独秀”的美誉。 金秋十月,阳光灿烂,遍山红叶开得正欢。在攀登途中,大家观赏美妙秋景,眺望长城景观,感到心旷神怡。 离开了雄伟壮观的慕田峪长城,大家又前往果园进行采摘活动。果园里瓜果飘香,芬芳迷人,大家精心挑选果实,收获了亲近自然的美妙体验。 太阳没入山丘,夕阳余晖洒落。伴随着欢声笑语,大家踏上归程之路。休闲放松之后,实验室各位将以饱满的精神投入到科研工作中。相信在大家的辛勤地耕耘下,中文信息实验室将收获沉甸甸的果实!

九九重阳,登高赏秋 2020-10-26T12:06:08+00:00

卓盛云科技有限公司创始人金友兵博士应邀访问实验室

2020-10-22T10:04:11+00:00

卓盛云科技有限公司创始人金友兵博士应邀访问实验室 2020年10月20日下午,应实验室主任孙乐研究员的邀请,卓盛云科技有限公司创始人金友兵博士应邀访问实验室,为实验室师生做了题为“软件开发管理和架构设计”的报告。 金友兵博士拥有多年Linux操作系统、办公软件、文档管理和文档安全等领域的研发经历,曾主持过大型软件系统开发,具备400+人规模的团队管理经验。曾主持863重大专项和10多项国家级/北京市重大项目,历年共申请发明专利20多项。曾获得2010年国务院特殊津贴、北京市科技进步一等奖/新世纪百千万北京市级人才称号等荣誉。金博士曾任红旗中文贰仟公司 CTO、书生集团CTO。他于2017年创立卓盛云科技有限公司(南京/天津),主持开发容器化存储软件、云平台软件等相关产品。 在报告中,金博士主要围绕软件项目管理、软件架构设计、敏捷开发、持续集成-DevOps四个方面的内容展开介绍,并与实验室职工和学生就软件开发和项目管理中的问题进行了讨论。

卓盛云科技有限公司创始人金友兵博士应邀访问实验室 2020-10-22T10:04:11+00:00

阿里巴巴达摩院罗福莉老师到访实验室

2020-10-21T09:57:52+00:00

阿里巴巴达摩院罗福莉老师到访实验室 2020年10月16日下午,应实验室博士后林鸿宇的邀请,阿里巴巴的罗福莉老师到访实验室,为实验室师生做了题为“阿里深度语言模型体系ALICE”的讲座分享。 报告的开始,罗福莉老师首先对她所在的阿里巴巴达摩院语言技术实验室进行了整体介绍,进而描述了阿里巴巴语言模型体系ALICE的架构。来自ALICE的六大语言模型一举拿下了英文GLUE、多语言XTREME、多模态VQA、阅读理解和生成MS MARCO在内的多项国际赛事和榜单的第一名。本次分享将详解参赛榜单的语言模型(包括通用语言模型StructBERT、多语言预训练模型、生成式PALM、多模态预训练模型StructVBERT等)背后的技术创新、平台建设以及对内外的应用落地。 罗老师首先介绍了团队提出了通用预训练模型StructBERT,通过设计基于语言结构的预训练任务,使得模型能够学习到词级别和句子级别的结构信息。 罗老师第二个介绍的是跨语言预训练模型。首先梳理了现有的工作,大体分为两类:第一类是Encoder-based模型,例如XLM及其一系列的扩展工作,其缺陷在于预训练阶段无法对Decoder的Cross-attention模块进行初始化,由此带来预训练和微调阶段的gap。第二类为Encoder-Decoder模型,例如mBART和XNLG模型,主要缺点在于在自然语言理解任务上表现欠佳。基于上述分析,罗老师团队提出了能够同时支持自然语言理解和自然语言生成任务的跨语言预训练模型,在多个任务上取得了SOTA的性能。罗老师还结合多语言预训练任务的上游模型、下游场景和落地任务,对阿里巴巴多语言训练技术大图进行了详细介绍。该工作引发了同学们的积极思考和提问,在模型的训练问题,数据获取问题,以及设计细节等方面展开了热烈的讨论。 之后罗老师结合具体的应用场景剖析了多模态预训练模型的发展方向,例如阿里小蜜中的多模态问答技术,淘宝中的多模态语义匹配技术。现有的多模态预训练模型主要分为两类,双流模型对文本和视觉信息进行独立编码,再通过注意力机制等技术实现模态融合。单流模型则在一开始就对文本信息和视觉信息进行建模,将其编码到相同的向量空间。为了综合两类模型的优势,阿里巴巴团队提出了单双流融合的多模态预训练模型,并取得了不错的性能表现。 最后是生成式的预训练模型PALM,该模型采用了与之前的生成模型不同的训练方式,预训练目标并非重构输入文本,而是预测后续文本。PALM使用自编码方式编码输入文本,同时使用自回归方式解码输出文本。这种预训练方式促使该模型提高对输入文本的理解能力,使其在下游的各个语言生成任务上取得更好的效果。 罗老师的报告内容充实,信息量非常大,包括实验室师生的互动都值得反复思考和品味。实验室师生获益良多。 供稿:曹博希

阿里巴巴达摩院罗福莉老师到访实验室 2020-10-21T09:57:52+00:00

孙乐研究员应邀在软件所学术年会做特邀报告

2020-10-15T12:08:54+00:00

孙乐研究员应邀在软件所学术年会做特邀报告,其中实验室2个海报评为优秀海报奖 9月21日,中国科学院软件研究所2020年度学术年会在软件所举办。本次会议采用了现场和线上直播相结合的方式进行,软件所所长赵琛、学术委员会主任林惠民院士以及所内外专家学者共240余人参加了会议。大会开幕式由田丰研究员主持。 赵琛所长首先对软件所学术委员会、大会组委会的辛勤付出以及特邀报告人为年会带来的精彩报告表示感谢;随后的报告环节包括上午的两场特邀报告和下午的三场学术报告。实验室孙乐研究员应邀为此次大会作了题为“认知启发的自然语言理解”的特邀报告。 本次大会共征集到来自研究所科研成果87份,由大会组委会及各实验室/中心择优选出74份成果以海报形式公开展出、8份成果作大会学术报告。同时,大会选出35份代表性论文进行视频介绍,经过组委会及公众两轮投票最终选出了10份学术年会优秀海报。 其中实验室的2份海报评为优秀海报奖,具体的获奖信息如下: (1)一种简单易用的语义解析平台,完成人:安波,陈波,韩先培,孙乐 (2)用于实体集合拓展的端到端自举网络,完成人:颜令勇,韩先培,何苯,孙乐    

孙乐研究员应邀在软件所学术年会做特邀报告 2020-10-15T12:08:54+00:00

实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖

2020-10-15T10:15:48+00:00

中文信息处理实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖 近日,中国科学院公布了2020年度中国科学院院长奖评审结果,中国科学院软件研究所中文信息处理实验室2015级硕博连读生林鸿宇荣获“中国科学院院长特别奖”,其指导教师孙乐研究员荣获 “中国科学院优秀导师奖”。 林鸿宇,2015年进入软件所学习,2017年转为博士生,主要从事自然语言处理方向的研究。曾参与国家自然科学基金重点项目、国家重点研发计划等重大国家科研任务以及阿里、百度、腾讯等国内外知名企业科技研发任务。该生与合作者一起,在自然语言处理领域国际顶级会议ACL以及EMNLP上发表学术论文十余篇,论文被美国华盛顿大学、德国达姆施塔特工业大学、谷歌、MSRA等国内外知名高校企业学者引用。在信息抽取领域,该生提出了一套全新的序列到组块信息抽取框架,并在多个信息抽取任务上给出了当前国际上最好的结果。在知识抽取领域,该生提出的异构知识推理方法作为该领域的基本方法之一,被该领域相关综述以及国际知名课程多次引用。在学期间,该生还获得了研究生国家奖学金(2017年度和2018年度)、朱李月华奖学金(2019年度)、中国科学院大学三好学生标兵等荣誉称号。 中国科学院院长奖学金设立于1989年,每年评选一次,旨在激励研究生勤奋学习,创新进取,发现和奖励优秀年轻人才,促进我国科学事业的发展。中国科学院院长奖学金分为特别奖和优秀奖,是中科院研究生奖学金中含金量最高的奖项之一,今年的特别奖全院仅评选出80名。

实验室林鸿宇博士、孙乐研究员分别荣获中国科学院院长特别奖、优秀导师奖 2020-10-15T10:15:48+00:00

实验室多名研究生获2020年度中科院嘉奖

2020-07-24T10:06:27+00:00

实验室多名研究生获2020年度中科院嘉奖 根据《中国科学院软件研究所优秀学生评选办法》,经个人申请,各研究生培养小组初评和推荐,所评审小组评审,实验室多名研究生获2020年度中科院嘉奖。 2017级博士林鸿宇荣获“优秀毕业生”荣誉称号(全所5人) 2015级博士付成荣获“三好学生标兵”荣誉称号(全所5人) 2017级博士聂浩和2018级博士唐家龙荣获“三好学生”荣誉称号    

实验室多名研究生获2020年度中科院嘉奖 2020-07-24T10:06:27+00:00

中文信息处理实验室学术指导委员会正式成立

2020-01-13T15:24:46+00:00

中文信息处理实验室学术指导委员会正式成立 2020年1月12日,中国科学院软件研究所中文信息处理实验室学术指导委员会成立会议在北京成功召开。中国科学院软件研究所所长赵琛研究员致欢迎辞,并为学术指导委员会委员颁发聘书。实验室学术指导委员由三位专家组成:中国科学院计算技术研究所研究员、中国中文信息学会前理事长倪光南院士,中国电子信息产业集团有限公司首席科学家、中国中文信息学会理事长方滨兴院士,哈尔滨工业大学前党委书记、中国中文信息学会名誉理事长李生教授。 实验室主任孙乐研究员向各位专家汇报了实验室学术方向。孙乐研究员首先介绍了实验室目前的科研项目和人才团队,重点阐述了实验室围绕知识驱动的自然语言理解(K-NLU)这一学术方向,特别是在知识获取、知识融合及语义理解等方面面临的挑战和研究进展,最后就实验室发展向各位专家提出了一系列请教的问题。韩先培研究员演示了实验室研发的知识图谱资源、诗词平台和冬奥项目问答系统。 在听取了实验室学术方向汇报后,三位资深专家分别发言,从实验室学术方向规划、科研项目选择、人才队伍持续发展、成果落地及学生培养等多个方面对实验室工作进行了悉心指导,提出了许多宝贵意见和建议,为实验室今后发展指明了方向。        

中文信息处理实验室学术指导委员会正式成立 2020-01-13T15:24:46+00:00

南京理工大学夏睿教授应邀做学术报告

2020-01-13T14:03:09+00:00

南京理工大学夏睿教授应邀做学术报告 2020年01月10日上午,应实验室孙乐研究员和韩先培研究员的邀请,南京理工大学计算机学院夏睿教授到访实验室,为实验室师生做了题为“文本情绪检测与原因抽取”的学术报告。 夏睿老师的报告聚焦于文本情绪分析研究中情绪原因抽取任务,其目标是抽取文本中某些情绪表达背后的潜在原因。学术界目前采用了包括规则方法,传统机器学习方法和深度神经网络在内的技术来解决这些任务。针对当前研究中存在的问题,夏睿老师首先介绍了两种新的情绪原因抽取模型,并在此基础上提出了一项新的任务——<情绪-原因>对抽取,进行同步的情绪预测与原因挖掘,在情绪原因分析基准语料库上的实验证明了任务的可行性和方法的有效性。 首先,夏睿老师简单为实验室的老师和同学们介绍了情绪原因抽取任务是一个子句级的分类任务,并通过一个简单易懂的例子为大家说明了现有方法存在的问题:没有充分考虑情绪原因在文档中的分布规律。通过对数据的仔细分析以及任务的深入理解,夏睿老师的团队提出:1)子句与情感描述句的相对位置是一个很强的先验知识,离情感描述句越近的子句包含情感原因的概率越高;2)在一篇短文档中,情感原因往往只有1个或者两个。根据以上发现,夏老师为实验室师生介绍了他们发表在AAAI2019和IJCAI2019的两篇工作:From Independent Prediction to Reordered Prediction: Integrating [...]

南京理工大学夏睿教授应邀做学术报告 2020-01-13T14:03:09+00:00