Monthly Archives: July 2021

//July

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告

2021-07-29T09:51:49+00:00

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021年7月28日下午,应实验室林鸿宇博士后的邀请,哈尔滨工业大学的覃立波博士到访实验室,并为实验室师生作了题为“任务型对话系统中口语语言理解综述——前沿与挑战”的学术报告。 覃立波博士是哈尔滨工业大学SCIR在读博士生,导师车万翔教授,博士期间以第一作者或者共同第一作者发表CCF A/B会议/期刊14篇。研究方向为任务型对话系统与自然语言处理,曾获三年国家奖学金,春晖创新一等奖学金,之江实验室奖学金,字节跳动奖学金(中国10人),百度奖学金(全球10人),以及入选全球首份AI华人新星百强榜单,IJCAI-SAIA YES学术新星等榜单。同时,他热衷于开源分享和社区建设,促进NLPer在国内的交流,创办了机器学习算法与自然语言处理社区,突破50w+订阅人数和超过2千万阅读量。 报告开始,覃立波博士首先介绍了任务型对话系统的整体结构,接着对其中的自然语言理解模块进行了深入的讲解,然后对口语语言理解(SLU)领域近10年的发展进行一个回顾和总结,最后根据当前发展现状给出了一些研究问题和挑战。 口语语言理解是任务型对话系统中最核心的组件,近些年来的发展也是非常迅速的。根据对意图识别(intent detection)和槽位填充(slot filling)两个子任务的建模方式和交互关系,口语语言理解模型大致可以分为以下几个发展阶段:独立模型(2013-2015),隐式联合建模(2016-2017),显式联合建模—单向信息流动(2018-2019),显式联合建模—双向信息流动(2019-2021)。 从独立建模到隐式联合建模,再从显式单向信息流动到显式双向信息流动的发展趋势,反映了在口语语言理解中意图识别和槽位填充的两个子任务的密切关系,两者的联合交互建模在口语语言理解中起到了非常关键的作用。 经过最近10年的发展,SLU从之前的单独建模已经发展到目前的双向显式联合建模;在单轮、单领域、单意图的SLU已经取得了显著的进步并得到了基本解决,继续在ATIS、SNIPS等经典benchmark上刷分反而会阻碍SLU模型在真实场景下的应用。此外,人机对话方向也越来越受到工业界和学术界的关注。因而,诸如上下文SLU、多意图SLU、跨语言SLU、鲁棒的SLU和基于用户信息的SLU等将会是新的发展前沿,并且如何将SLU模型在真实场景下得到很好的应用将会是未来的研究趋势。 覃立波博士立足于任务型对话系统中的口语语言理解模块,介绍了近些年相关研究工作的发展脉络,并根据目前的发展现状对未来的发展趋势给出了一些探索性问题。报告结束后,覃立波博士与实验室师生就相关工作细节和科研经验展开了热烈讨论。     撰稿:陈轩昂 责任编辑:刘汇丹

哈工大覃立波博士应邀到访中文信息处理实验室并作学术报告 2021-07-29T09:51:49+00:00

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告

2021-07-20T16:36:43+00:00

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告 2021年7月20日上午,应实验室孙乐研究员和韩先培研究员的邀请,西湖大学特聘研究员张岳老师到访实验室,为实验室师生做了题为“Challenges in Machine Learning in NLP”的学术报告。在本次报告中,张岳老师向中文信息的师生们分享了一些自然语言处理瓶颈的思考,并从模型学习到的特征、解决问题的过程等方面分享一些探索工作。  近年来,自然语言处理的范式从统计模型发展到神经网络模型,并逐步形成了大规模预训练(pretraining)-任务微调(finetuning)的新范式。张老师首先为大家梳理了近年自然语言处理范式的发展过程,并分析了现有预训练加微调范式的几个不足:1)跨领域鲁棒性低、2)对输入扰动敏感、3)缺乏常识知识,以及4)对逻辑与数值理解能力有限。 现有不少研究认为预训练语言模型可以存储知识,但是预训练语言模型是否可以作为下游任务的知识库仍是亟待回答的问题。为回答这一问题,张老师介绍了他们在ACL2021的最新工作:Can Generative Pre-trained Language Models Serve as Knowledge Bases for Closed-book QA? 该工作探究了生成式语言模型在经典的微调范式下进行闭卷式问答(Closed-book QA)的能力。张老师首先向大家介绍了针对预训练模型从文本中获取及应用知识的能力所设计的一系列实验。通过大量的实验分析,张老师认为:1)现有预训练语言模型通过预训练过程记忆知识的能力较弱,2)即使预训练语言模型模型记住了一部分知识,也难以利用这些内在知识来回答问题。 近年来,尽管预训练模型在许多任务中取得了优异的性能,但是人们对这类模型的鲁棒性及原始数据中存在的Spurious Patterns依赖提出了重要的问题。针对这些泛化性挑战,目前的解决方案是通过人工反馈及众包工作来构建反事实数据进行数据增强,并以此减少模型对原始数据中的Spurious Patterns的依赖。但是,这些方法通常成本高昂且耗时。针对以上不足,张老师团队提出了一种自动生成反事实数据的方法。该方法首先使用基于上下文的采样敏感性的解耦合方法来自动识别因果词,并使用掩码语言模型来提高自动生成反事实数据的可读性和语法正确性,最后使用编辑距离自动评估器评估生成过程中的最小编辑及流利性,保证自动生成反事实数据的质量。最终实验证明,该方法生成的数据可以提高神经网络分类器的鲁棒性,并优于现有最优的人工反馈(Human-in-the-loop)系统。 报告结束后,张岳老师与实验室师生就预训练语言模型记忆能力和学习范式等问题展开了热烈的讨论。张老师的报告内容充实,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生在此次报告及与张老师的讨论过程中获益良多。     撰稿:陆垚杰 责任编辑:刘汇丹

西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告 2021-07-20T16:36:43+00:00

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖

2021-07-17T18:33:02+00:00

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖 近期,第44届国际计算机学会信息检索大会(The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2021)于2021年7月11日-7月15日以线上会议形式顺利召开。ACM SIGIR是人工智能领域智能信息检索(Information Retrieval,IR)方向最权威的国际会议,会议专注于文本推荐、检索、语义计算等领域的最新研究成果。此次SIGIR 2021大会共收到了720篇长论文和526篇短论文,其中有151篇长论文和145篇短论文被录用,录用率分别约为21%和27%。 在14日凌晨,本次SIGIR 2021大会公布了最佳论文、最佳短论文、时间检验奖等多个奖项。其中,最佳短论文奖由中文信息处理实验室研究生获得。获奖论文题为《Contextualized Offline Relevance Weighting for Efficient and Effective Neural Retrieval》,作者依次为博士生陈轩昂、何苯教授、回恺博士、博士生王怡然、孙乐研究员、孙应飞教授。 图1:SIGIR 2021最佳短论文获奖证书 论文简介:在线搜索延迟(online search latency)是在检索应用中部署大规模预训练语言模型(如BERT)的一个主要瓶颈。我们受到文档扩展技术(基于transformer模型)最新成果的启发,提出了一种以大量伪查询(pseudo-query)和近邻文档(neighbour document)的离线相关性评分换取在线效率的神经检索框架。具体而言,我们利用强大的BERT排序模型对语料中每个文档生成的伪查询与其对应收集的近邻文档之间进行了离线相关性评分,并且在线检索时只需进行输入查询和种子文档(seed document)的伪查询之间的匹配,以此提高检索的效率。那么,在在线检索阶段,传统的查询-文档匹配(query-document matching)将被简化为成本更低的查询-伪查询匹配(query to pseudo-query matching),并根据预先计算好的近邻文档快速召回出相应的文档排序列表并返回给用户。在MS MARCO检索数据集上的实验结果表明,我们的方法在在线效率和有效性方面都获得了很好的效果。 论文地址:https://dl.acm.org/doi/10.1145/3404835.3463073   撰稿:何苯 责任编辑:刘汇丹

中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖 2021-07-17T18:33:02+00:00