中文信息处理实验室三篇论文被EMNLP 2021主会录用

 

日前,自然语言处理领域的顶级会议 EMNLP 2021陆续向作者发送录用通知,中国科学院软件研究所中文信息处理实验室三篇论文被EMNLP 2021主会录用。

下面是论文列表及介绍:

论文一

标题:Progressively Adversarial Learning for Bootstrapping: A Case Study on Entity Set Expansion

作者:Lingyong Yan, Xianpei Han and Le Sun

录用类型:长文

简介:自举(Bootstrapping)是一种迭代地利用已抽取信息拓展出新信息的信息抽取技术。然而,由于新信息缺少监督信号,自举模型容易拓展出错误的信息,造成语义漂移。为此,本文提出了一种基于渐进式对抗的自举模型训练方法。具体的,(1)本文将自举模型建模为生成器,并使用额外的判别器判定抽取信息是否正确;(2)本文将自举模型和判别器进行联合的渐进式对抗学习,以相互增强,使得自举模型抽取出的新信息是和已抽取信息难以区分的高质量信息,提高抽取性能。在实体集合拓展数据集上的实验结果表明,基于该方法训练的自举模型能够取得显著的性能优势。

论文二

标题:Fine-grained Entity Typing via Label Reasoning

作者:Qing Liu, Hongyu Lin, Xinyan Xiao, Xianpei Han, Le Sun and Hua Wu

录用类型:长文

简介:大规模标签集合给超细粒度实体识别任务带来两个主要挑战:建模标签依存关系以及预测长尾标签。本文将传统的多标签分类问题转化为标签集合生成问题,并针对以上两个挑战提出了标签推理网络。该标签推理网络包含了两种标签推理机制:(1)基于序列到集合生成的标签演绎推理(Deductive Reasoning)。(2)基于二部属性图的标签归纳推理(Inductive Reasoning)。标签演绎推理机制使得模型能够自动学习和建模标签之间的显式依存关系,标签归纳推理机制使得模型能够自动学习和建模标签之间的隐式依存关系。两种推理机制相结合让模型能够不借助外部知识,端到端地学习标签依存关系并利用该依存关系进行标签预测,同时能够有效缓解长尾标签预测问题。

论文三

标题:Honey or Poison? Solving the Trigger Curse in Few-shot Event Detection via Causal Intervention

作者:Jiawei Chen, Hongyu Lin, Xianpei Han and Le Sun

录用类型:短文

简介:事件检测遭受“触发词诅咒”:对触发词进行过拟合会损害模型的泛化能力,但欠拟合却会损害模型的性能。这一问题在小样本(few-shot)场景下更为严重。为此,本文提出利用因果干预方法解决这一问题。首先,本文将少样本事件检测构建结构因果模型,从中,我们发现,触发词是上下文和预测结果的混杂因子(confounder),这导致过去的模型倾向于过拟合触发词。为了解决这一问题,我们提出对上下文进行因果干预,利用后门调整方法消除触发词对上下文的影响。实验结果表明,本文提出的方法能够有效提升少样本事件检测的性能。

据悉,EMNLP 2021(The 2021 Conference on Empirical Methods in Natural Language Processing)将于2021年11月7日至11日以在线会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,是CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。

 

撰稿:刘汇丹、颜令勇、刘庆、陈家慰

责任编辑:刘汇丹

2021-08-31T15:34:39+00:00