西湖大学特聘研究员张岳应邀到访中文信息处理实验室并作学术报告

2021年7月20日上午,应实验室孙乐研究员和韩先培研究员的邀请,西湖大学特聘研究员张岳老师到访实验室,为实验室师生做了题为“Challenges in Machine Learning in NLP”的学术报告。在本次报告中,张岳老师向中文信息的师生们分享了一些自然语言处理瓶颈的思考,并从模型学习到的特征、解决问题的过程等方面分享一些探索工作。

 近年来,自然语言处理的范式从统计模型发展到神经网络模型,并逐步形成了大规模预训练(pretraining)-任务微调(finetuning)的新范式。张老师首先为大家梳理了近年自然语言处理范式的发展过程,并分析了现有预训练加微调范式的几个不足:1)跨领域鲁棒性低、2)对输入扰动敏感、3)缺乏常识知识,以及4)对逻辑与数值理解能力有限。

现有不少研究认为预训练语言模型可以存储知识,但是预训练语言模型是否可以作为下游任务的知识库仍是亟待回答的问题。为回答这一问题,张老师介绍了他们在ACL2021的最新工作:Can Generative Pre-trained Language Models Serve as Knowledge Bases for Closed-book QA? 该工作探究了生成式语言模型在经典的微调范式下进行闭卷式问答(Closed-book QA)的能力。张老师首先向大家介绍了针对预训练模型从文本中获取及应用知识的能力所设计的一系列实验。通过大量的实验分析,张老师认为:1)现有预训练语言模型通过预训练过程记忆知识的能力较弱,2)即使预训练语言模型模型记住了一部分知识,也难以利用这些内在知识来回答问题。

近年来,尽管预训练模型在许多任务中取得了优异的性能,但是人们对这类模型的鲁棒性及原始数据中存在的Spurious Patterns依赖提出了重要的问题。针对这些泛化性挑战,目前的解决方案是通过人工反馈及众包工作来构建反事实数据进行数据增强,并以此减少模型对原始数据中的Spurious Patterns的依赖。但是,这些方法通常成本高昂且耗时。针对以上不足,张老师团队提出了一种自动生成反事实数据的方法。该方法首先使用基于上下文的采样敏感性的解耦合方法来自动识别因果词,并使用掩码语言模型来提高自动生成反事实数据的可读性和语法正确性,最后使用编辑距离自动评估器评估生成过程中的最小编辑及流利性,保证自动生成反事实数据的质量。最终实验证明,该方法生成的数据可以提高神经网络分类器的鲁棒性,并优于现有最优的人工反馈(Human-in-the-loop)系统。

报告结束后,张岳老师与实验室师生就预训练语言模型记忆能力和学习范式等问题展开了热烈的讨论。张老师的报告内容充实,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生在此次报告及与张老师的讨论过程中获益良多。

 

 

撰稿:陆垚杰

责任编辑:刘汇丹

2021-07-20T16:36:43+00:00