南京理工大学夏睿教授应邀做学术报告
2020年01月10日上午,应实验室孙乐研究员和韩先培研究员的邀请,南京理工大学计算机学院夏睿教授到访实验室,为实验室师生做了题为“文本情绪检测与原因抽取”的学术报告。
夏睿老师的报告聚焦于文本情绪分析研究中情绪原因抽取任务,其目标是抽取文本中某些情绪表达背后的潜在原因。学术界目前采用了包括规则方法,传统机器学习方法和深度神经网络在内的技术来解决这些任务。针对当前研究中存在的问题,夏睿老师首先介绍了两种新的情绪原因抽取模型,并在此基础上提出了一项新的任务——<情绪-原因>对抽取,进行同步的情绪预测与原因挖掘,在情绪原因分析基准语料库上的实验证明了任务的可行性和方法的有效性。
首先,夏睿老师简单为实验室的老师和同学们介绍了情绪原因抽取任务是一个子句级的分类任务,并通过一个简单易懂的例子为大家说明了现有方法存在的问题:没有充分考虑情绪原因在文档中的分布规律。通过对数据的仔细分析以及任务的深入理解,夏睿老师的团队提出:1)子句与情感描述句的相对位置是一个很强的先验知识,离情感描述句越近的子句包含情感原因的概率越高;2)在一篇短文档中,情感原因往往只有1个或者两个。根据以上发现,夏老师为实验室师生介绍了他们发表在AAAI2019和IJCAI2019的两篇工作:From Independent Prediction to Reordered Prediction: Integrating Relative Position and Global Label Information to Emotion Cause Identification和RTHN: A RNN-Transformer Hierarchical Network for Emotion Cause Extraction。前者通过对句子的重排序让模型从最有可能的子句开始考虑(也即从相对位置最小的子句开始)是否为原因子句,并通过一个预测向量记录当前所有已经考虑过的子句的预测结果。在每一次子句预测的过程中都需要考虑到现在已有的预测结果。该方法充分利用了情绪原因抽取任务的特点,最终实验证明该方法大大提升了模型性能。后者则是对前者工作的进一步探究,得益于Transformer的提出,self-attention的架构很好的满足了情绪原因预测不同子句之间需要充分交互的需求。该方法利用Transformer架构,在编码层引入相对位置编码,并用self-attention充分融合不同子句的信息,再通过预测层的一个全局再预测层进一步提升了抽取性能。
随后,夏睿老师深入分析了情绪原因检测任务存在的几个不足:1)需要提前给定情绪表达子句,这意味着应用时需要先进行情绪检测,大大限制了原因检测任务的适用范围;2)只能够检测一个文档中的一个情绪及其相关的原因,拓展到多情绪表达时需要拆解为多个实例。针对以上不足,夏睿老师介绍了他们团队在ACL2019上的Outstanding Paper:Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts。该文章提出了一个新的任务范式:即给定一个文档,直接抽取出其中蕴含的所有情绪-原因二元组。该范式很好的解决了原任务定义中存在的几个不足。随后,该文章还提出了一个抽取-过滤的两阶段抽取框架。在提出的框架下,文章还尝试了多种不同的模型抽取模型,并用大量的实验证明了该任务与该方法的可行性和有效性。
报告结束后,夏睿老师与实验室师生进行了热烈的互动,和大家探讨了情绪检测以及情绪原因检测方向未来的工作和心理学上对情绪的一些研究。夏老师的报告内容充实,信息量非常大,包括最后与实验室师生的互动都值得反复思考和品味。实验室师生获益良多。
责任编辑:马龙龙
编辑:唐家龙