中文信息处理实验室5篇长文被ACL 2022录用

近日,自然语言处理领域顶级会议ACL2022录用结果出炉,中国科学院软件研究所中文信息处理实验室五篇长文被ACL 2022录用,其中主会论文4篇,Findings论文1篇。以下是论文列表及介绍:

论文一

标题:Unified Structure Generation for Universal Information Extraction

作者:Yaojie Lu, Qing Liu, Dai Dai, Xinyan Xiao, Hongyu Lin, Xianpei Han, Le Sun, Hua Wu

简介: 本文提出了一个面向信息抽取的统一文本到结构生成框架UIE,它可以统一地建模不同的IE任务,自适应地生成目标结构,并从不同的知识来源统一学习通用的信息抽取能力。具体来说,UIE通过结构化抽取语言对不同的信息抽取目标结构进行统一编码,通过结构化模式提示器自适应生成目标结构,并通过大规模结构化/非结构化数据进行模型预训练捕获常见的IE能力。实验结果表明,本文提出的统一生成框架在实体、关系、事件和情感等4个信息抽取任务、13个数据集取得了最先进性能。

论文二

标题:Pre-training to Match for Unified Low-shot Relation Extraction

作者:Fangchao Liu, Hongyu Lin, Xianpei Han, Boxi Cao, Le Sun

简介:低样本关系抽取旨在少样本甚至零样本场景下的关系抽取。由于低样本关系抽取所包含任务形式多样,传统方法难以统一处理。本文针对这一问题,提出了一种统一的低样本匹配网络:(1)基于语义提示(prompt)范式,我们构造了从关系描述到句子实例的匹配网络模型;(2)针对匹配网络模型学习,我们设计了三元组-复述的预训练方法,以增强模型对关系描述与实例之间语义匹配的泛化性。在零样本、小样本以及带负例的小样本关系抽取评测基准上的实验结果表明,该方法能有效提升低样本场景下关系抽取的性能,并且具备了较好的任务自适应能力。

论文三

标题: The Invisible Hand: Understanding the Risks of Prompt-based Probing from a Causal View

作者:Boxi Cao, Hongyu Lin, Xianpei Han, Fangchao Liu, Le Sun

简介:基于提示符的探针(prompt-based probing)已经被广泛用于评估预训练模型的能力。然而,已经有诸多研究发现这样的评测范式会存在不准确、不稳定和不可靠等问题。这些探针过程中存在的偏差会使得预训练模型真正的能力无法得到准确的评估,误导我们对预训练模型的理解,甚至产生错误的结论。因此,为了准确评测预训练模型任务的能力,亟需回答三个核心问题:(1)现有基于提示符的探针范式中存在哪些偏差?(2)这些偏差来源于何处?(3)如何消除这些偏差?基于这三个问题,本文:(1)探究和量化了基于提示符的探针中的三种主要偏差,包括提示符偏好偏差(prompt preference bias)、实例语言化偏差(instance verbalization bias)、以及采样差异偏差(sample disparity bias)。(2)提出了一个因果分析框架,可以有效地识别,解释和消除基于提示符探针过程中的偏差。本文为设计无偏的数据集,更好的探针框架,可靠的评估范式,以及推动偏差分析从经验化到理论化(from empirical to theoretical)提供了宝贵的参考价值。

论文四

标题: Few-shot Named Entity Recognition with Self-describing Networks

作者: Jiawei Chen, Qing Liu, Hongyu Lin, Xianpei Han, Le Sun

简介:由于标注数据稀缺,少样本命名实体识别不仅需要充分利用有限的数据,还需要能够准确迁移外部资源中的知识。本文提出了一种自描述机制,将实体提及和类型映射到通用的概念集合,从而有效地利用标注数据并精确地迁移外部资源中的知识。具体的,我们设计了自描述网络,该网络基于序列到序列的生成框架,可以实现:(1)使用通用概念统一描述实体提及;(2)自动将实体类型映射到概念集合;(3)自适应地按需抽取实体。更进一步,我们利用大规模网络数据对自描述网络进行了预训练。实验表明,自描述网络可以满足不同领域的实体抽取需求,能够为命名实体识别任务提供通用知识。

论文五

标题:Towards Event-Centric Opinion Mining

作者:Ruoxi Xu, Hongyu Lin, Meng Liao, Xianpei Han, Jin Xu, Wei Tan, Yingfei Sun, Le Sun

简介:观点挖掘领域集中于对实体情感和看法的提取,而针对事件的研究较少。然而,以事件为中心的观点挖掘任务与以实体为中心的观点挖掘任务在定义、结构和表达上都有较大区别。为此,本文基于事件论元结构提出并定义了以事件为中心的观点挖掘新任务,并构建了一个新的数据集。同时设计了两阶段基准框架,并以此为基础实现了四个基线系统。实验结果表明以事件为中心的观点挖掘任务是可行并且有挑战性的,提出的任务、数据集和基线系统对未来的研究是有益的。

国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)是计算语言学领域历史最悠久和最具权威的学术组织国际计算语言学协会(ACL)主办和发起的系列会议,是计算语言学/然语言处理领域顶级的国际学术会议。会议涵盖包括语言分析、信息抽取、机器翻译与自动问答等在内的研究领域,旨在促进全球计算语言学领域的发展与学术交流。据悉,ACL 2022 (60th Annual Meeting of the Association for Computational Linguistics)将于2022年5月22-27日在爱尔兰首都都柏林以线上线下混合的形式举办。

撰稿:曹博希、陆垚杰、刘方超、陈家慰、徐若曦

责任编辑:刘汇丹

 

2022-02-25T19:02:30+00:00