中文信息处理实验室多篇论文被NeurIPS 与 EMNLP 录用

近日,中文信息处理实验室多项大模型领域研究成果被国际顶级会议 NeurIPS 2024 与 EMNLP 2024 录用,相关成果涉及大模型位置向量机制、大模型检索、大模型应用等方向。以下是相关被录用成果的简要介绍。

 

成果一 自检索:基于单一大语言模型的端到端信息检索

论文标题:Self-Retrieval: End-to-End Information Retrieval with One Large Language Model
论文作者:Qiaoyu Tang*, Jiawei Chen*, Zhuoqun Li, Bowen Yu, Yaojie Lu, Cheng Fu, Haiyang Yu, Hongyu Lin, Fei Huang, Ben He, Xianpei Han, Le Sun, Yongbin Li
合作单位:阿里巴巴
发表会议:NeurIPS 2024
录用类型:主会长文
论文简介:大语言模型(LLM)极大地改变了信息检索(IR)系统的构建和应用。然而,当前信息检索系统与大语言模型仅存在有限的交互,大模型通常作为信息检索系统组件的一部分,且信息检索系统通常与大模型分开构建。这种相互独立的架构限制了大模型和信息检索系统之间的知识共享和深度协作。我们提出了一种端到端的大模型驱动的信息检索架构–“自检索”(Self-Retrieval)。自检索将信息检索系统的所有基本功能整合到一个大模型中,在整个检索过程中充分利用大模型的固有功能。具体来说,自检索通过自监督学习内化检索语料库,并将检索过程转化为生成段落的序列,并自评估相关性以重排序。实验结果表明,自检索不仅大大超越了以往的检索方法,而且还能显著提高 大模型驱动的下游应用(如检索增强生成)的性能。

成果二 RoPE 的基数是大模型窗口长度的约束

论文标题:Base of RoPE Bounds Context Length
论文作者:Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Xianpei Han, Weipeng Chen
合作单位:百川智能
发表会议:NeurIPS 2024
录用类型:主会长文
论文简介:基于RoPE(Rotary Position Embedding)的相对位置编码几乎成为大语言模型中标准的组件。以往,RoPE中唯一的超参数base的设置大多依赖启发式方法。我们最新的研究发现,模型能处理的最大窗口长度实际上是由这个base参数所决定的:要实现一个理想的长窗口模型,base必须大于某个特定阈值。我们通过理论分析和实践验证双重途径,证实了这个base下界的存在。同时,这项研究也揭示了基于旋转角度外推(OOD, Out-of-Distribution)理论进行长窗口外推的局限性。

成果三 Seg2Act: 面向文档逻辑结构的全局上下文感知动作生成

论文标题:Seg2Act: Global Context-aware Action Generation for Document Logical Structuring
论文作者:Zichao Li, Shaojie He, Meng Liao, Xuanang Chen, Yaojie Lu, Hongyu Lin, Yanxiong Lu, Xianpei Han, Le Sun
合作单位:腾讯
发表会议:EMNLP 2024
录用类型:主会长文
论文简介:文档逻辑结构化旨在提取文档的层次结构,这对文档智能至关重要。传统方法在处理冗长文档的复杂性和可变性方面常常存在不足。为了解决这些问题,我们提出了Seg2Act,一种用于文档逻辑结构化的端到端生成式方法,将逻辑结构提取重新视为动作生成任务。具体而言,给定文档的文本片段,Seg2Act通过全局上下文感知的生成式模型迭代地生成动作序列,并同时基于生成的动作更新其全局上下文和当前逻辑结构。实验结果表明,Seg2Act在有监督和迁移学习设置下都表现出优异的性能。

成果四 上下文有别:可信度感知的大模型内容生成

论文标题:Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation
论文作者:Ruotong Pan, Boxi Cao, Hongyu Lin, Xianpei Han, Jia Zheng, Sirui Wang, Xunliang Cai, Le Sun
合作单位:美团
发表会议:EMNLP 2024
录用类型:主会长文
论文简介:随着大型语言模型的快速发展,检索增强生成(RAG)被广泛应用,它通过整合外部知识以缓解知识瓶颈并减轻幻觉。然而,现有的 RAG 范式不可避免地受到检索过程中引入的错误信息的影响,从而降低了生成结果的可靠性和正确性。本研究提出了可信度感知生成(CAG),一个普遍适用的框架,旨在减轻 RAG 中引入的错误信息的影响。CAG 的核心目标是使模型具备根据可信度辨别和处理信息的能力。为此,本研究提出了一个数据转换框架,基于现有的QA数据集转换为基于可信度的训练数据,从而有效地赋予模型 CAG 的能力。此外,为了准确评估模型的 CAG 能力,研究构建了一个涵盖三个现实世界场景的综合基准,包括开放域问答、时间敏感性问答、虚假信息污染问答。实验结果表明,CAG模型能够有效地理解并利用可信度来生成数据,生成的准确性明显优于其他模型,并且在上下文噪声不断增加的情况下仍表现出鲁棒性。

成果五 链式重写: 用于开放域问答的问题与文档对齐技术

论文标题:Chain-of-Rewrite: Aligning Question and Documents for Open-Domain Question Answering
论文作者:Chunlei Xin, Yaojie Lu, Hongyu Lin, Shuheng Zhou, Huijia Zhu, Weiqiang Wang, Zhongyi Liu, Xianpei Han, Le Sun
合作单位:蚂蚁集团
发表会议:Findings of EMNLP 2024
录用类型:长文
论文简介:尽管在开放域问答任务中,”检索-阅读 “系统能够取得不错的性能,但目前的方法仍然面临着表述不匹配以及信息检索系统与大规模语言模型之间交互有限等挑战。为了缓解这些问题,我们提出了 “链式重写”(Chain-of-Rewrite)方法,利用从分析中获得的指导和反馈,提供忠实且一致的语义扩展。通过由语义分析和语义增强组成的两步重写流程,链式重写方法有效地缩小了用户问题和相关文档之间的差距。通过结合重写过程中获得的反馈,我们的方法可以对检索和阅读过程进行自我修正,从而进一步提高性能。在四个开放域问答数据集上进行的实验证明了我们的系统在零样本设置下的有效性。
2024-10-08T15:09:06+00:00