中文信息处理实验室6篇论文被ACL及SIGIR录用

近日，自然语言处理国际顶级会议ACL2023和信息检索领域国际顶级会议SIGIR 2023录用结果出炉，中国科学院软件研究所中文信息处理实验室有多篇论文被录用：

ACL 论文一

标题：Learning In-context Learning for Named Entity Recognition

作者：Jiawei Chen, Yaojie Lu, Hongyu Lin, Jie Lou, Wei Jia, Dai Dai, Hua Wu, Boxi Cao, Xianpei Han, Le Sun

简介：针对目前语言模型在小样本命名实体识别实际应用中的相关问题：语言模型的大规模化使得微调成本高昂；上下文学习能够使语言模型直接完成特定任务，但难以应对信息抽取这类与语言模型预训练相差较大的任务。本文提出将语言模型建模成一个元函数，通过输入抽取说明和标注范例，语言模型可以快速构建为为一个新的命名实体抽取器。为此，本文提出一种上下文学习的元函数预训练方法，在预训练过程中将由上下文学习获得的命名实体抽取器与一个经由微调获得代理命名实体抽取器的进行对齐，从而使语言模型具备元函数的能力。在4个少样本NER数据集上的实验结果表明，我们的方法可以有效地将上下文NER能力注入到PLMs中。

ACL 论文二

标题：Ambiguous Learning from Retrieval: Towards Zero-shot Semantic Parsing

作者： Shan Wu, Chunlei Xin, Hongyu Lin, Xianpei Han, Cao Liu, Jiansong Chen, Fan Yang, Guanglu Wan, Le Sun

简介：传统的语义解析器通常需要大量的标注数据进行监督学习，而语义解析数据的标注难度大、成本高，这阻碍了语义解析任务的大规模应用。本文提出了一种“以检索结果作为模糊监督”（Retrieval as Ambiguous Supervision, RaAS）的新的语义解析框架，通过检索收集高覆盖率的监督信号，将零样本语义解析转化为模糊监督任务，从而减少对标注数据的依赖。本文先是提出了一种基于预训练语言模型的检索系统，可以有效地收集高召回率的语义解析候选项作为有判别力的监督信号。然后，为了提高模糊监督信号的覆盖率和精确度，本文还提出了一种置信度驱动的自训练算法以迭代地扩展候选以及消除候选项的歧义。实验结果表明，本文提出的语义解析框架有助于减少语义解析对标注数据的依赖，并取得了目前最先进的零样本语义解析性能。

ACL 论文三

标题：Understanding Differential Search Index for Text Retrieval

作者：Xiaoyang Chen, Yanjiang Liu, Ben He, Le Sun, Yingfei Sun

简介：Differentiable Search Index（DSI）是一种新颖的信息检索（IR）框架，它利用可微函数根据给定的查询生成一个文档标识符的排序列表。然而，由于端到端神经架构的黑盒特性，DSI的基本索引和检索能力仍需进一步了解。为填补这一空白，本研究定义并检验了一个有效IR框架应具备的三个重要能力，即排他性、完整性和相关性排序。本文的分析实验表明，尽管DSI在记忆伪查询到文档标识符的单向映射方面表现出熟练度，但在区分相关文档和随机文档方面表现不足，从而对其检索效果产生负面影响。为了解决这个问题，本文提出了一种多任务蒸馏方法来增强检索质量，而无需改变模型结构，并成功改进其索引能力。通过在各数据集上的实验，本文证明了所提出的方法相对此前的DSI基线的优越性。

ACL 论文四

标题：Towards Imperceptible Document Manipulations against Neural Ranking Models

作者：Xuanang Chen, Ben He, Zheng Ye, Le Sun, Yingfei Sun

简介：通过对抗性攻击识别神经排序模型的潜在漏洞已经引起了关注，但目前的攻击方法往往会引入语法错误、荒谬的表达或不连贯的文本片段等，并且攻击效果往往严重依赖于模仿良好的代理模型。因此，本文提出了一种对算法和人类来说都不太明显的对抗性文档生成框架IDEM。IDEM通过指导一个成熟的生成式语言模型（如BART等）生成查询和文档之间的连接句，而不引入易于检测的错误，并采用独立的位置合并策略来平衡扰动文本的相关性和连贯性。在MS MARCO上的实验结果表明，IDEM可以在保持目标文档的流畅性和正确性的同时，达到强于基线方法的攻击效果，并且更不易受到代理模型质量的影响。

ACL 论文五

标题：WebDP: Understanding Discourse Structures in Semi-Structured WebDocuments

作者：Peilin Liu, Hongyu Lin, Meng Liao, Hao Xiang, Xianpei Han, Le Sun

简介：传统NLP任务大多以单独句子为处理对象，而语篇分析旨在通过对各种类型文档的语篇结构进行解析来理解其内容，具有更丰富的应用场景。进入信息时代，互联网上产生着大量的网页文档数据，由于其编写的相对自由性，网页文档具备语篇结构高度自由化的特点；另一方面，以超文本标记语言为载体的网页文档是半结构化的，天然带有的布局和视觉信息属性，但是这些表层结构信息并不总是忠实地反映内在语篇结构。高度自由化的语篇结构和半结构化的数据类型，对分析网页文档数据的语篇结构带来了机遇和挑战。本文通过集中案例分析，识别了“多主题”和“多层级”作为网页文档数据在语篇结构上的两大特点。以此为动机，通过以语料为中心的实证性研究，基于经典语篇语言学中的修辞关系理论RR和分段语篇表示理论SDRT，本文提出了一种新的网页文档语篇结构表示方案，将其应用于面向半结构化网页文档的语篇分析新任务WebDP。进一步地，我们爬取了公众号领域的网页文档，并基于提出的语篇结构表示方案进行数据的人工标注，得到网页文档语篇结构数据集。最后，在该数据集上对现有的多种神经网络模型进行了实验，细致分析了提出的语篇分析任务WebDP在多个维度的特性和挑战，为未来的相关研究提供了基础。

SIGIR 论文一

标题：Offline Pseudo Relevance Feedback for Efficient and Effective Single-pass Dense Retrieval

作者：Xueru Wen, Xiaoyang Chen, Xuanang Chen, Ben He, Le Sun

简介：稠密检索是近期信息检索领域取得重大进展的一项技术。它只在单次检索过程中就实现了结果的高有效性，并且能保持较高的在线查询效率。然而，为了进一步提高检索效率而在稠密检索技术中应用伪相关反馈，会导致在线延迟的成倍增长。为了应对这一困难，本文提出了单趟稠密检索算法框架，通过预先生成的伪查询，提前完成伪相关反馈，实现离线的伪相关反馈过程。因此，在线检索只需完成查询与伪查询的匹配，从而提供更快的在线检索，同时能够获得伪相关反馈提供的效果收益。我们在广泛使用的TREC DL和TREC HARD数据集上评估了被本文提出的方法的有效性，结果证明了其效果。

国际计算语言学年会（Annual Meeting of the Association for Computational Linguistics，简称ACL）是计算语言学领域历史最悠久和最具权威的学术组织国际计算语言学协会（ACL）主办和发起的系列会议，是计算语言学/然语言处理领域顶级的国际学术会议。会议涵盖包括语言分析、信息抽取、机器翻译与自动问答等在内的研究领域，旨在促进全球计算语言学领域的发展与学术交流。据悉，ACL 2023 (61th Annual Meeting of the Association for Computational Linguistics)将于2023年7月9日-14日在加拿大多伦多举办。

国际计算机学会信息检索大会（International ACM SIGIR Conference on Research and Development in Information Retrieval，简称SIGIR）是人工智能领域智能信息检索（Information Retrieval，IR）方向最权威的国际会议，会议专注于收录文本推荐、检索、语义计算等领域的最新研究成果。据悉，此次SIGIR 2023大会将于2023年7月23日-27日在中国台北举办。

550

中文信息处理实验室6篇论文被ACL及SIGIR录用

Contact Info

Recent Posts