中文信息处理实验室多篇论文被 AAAI 与 COLING 录用

近日，中文信息处理实验室多项大模型领域研究成果被国际顶级会议 AAAI 2025 与 COLING 2025 录用，相关成果涉及大模型代码生成评测基准、大模型检索增强、大模型指令微调和大模型应用等方向。以下是相关被录用成果的简要介绍。

成果一：DomainEval: 一个自动构建的多领域代码生成基准

论文标题：DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation

论文作者：Qiming Zhu*, Jialun Cao*, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Shing-Chi Cheung

合作单位：香港科技大学

发表会议：AAAI 2025

录用类型：主会长文

论文简介：代码基准例如 HumanEval 被广泛用于评估大语言模型（LLM）的代码能力，揭示模型的优势与不足。然而，现有的基准主要在常见代码任务（例如冒泡排序、求最大公约数）上进行测试，而未探索特定领域的代码任务（例如计算、系统、密码学）。本文提出了一个多领域代码基准，DOMAINEVAL，旨在全面评估 LLM 的代码能力。基准构建流程以全自动方式运行，能够将代码仓库一键式转化为结构化的评测数据。通过 DOMAINEVAL 对 12 个代表性 LLM 的评估，发现 LLM 通常擅长计算任务，但在密码学和系统领域的代码任务上表现不佳。我们还观察到，更多次的采样可以提高 LLM 的整体性能，但领域之间的性能差距也可能随之增加。本研究的贡献包括覆盖六个流行领域的代码生成任务基准数据集 DOMAINEVAL，一个用于构建代码生成任务基准的全自动流程，以及根据 LLM 在 DOMAINEVAL 上的表现发现模型在代码生成任务方面的局限性，为未来的研究提供改进方向。排行榜链接 https://domaineval.github.io/。

成果二：匹配，比较还是选择？大模型实体匹配探究

论文标题：Match, Compare, or Select? An Investigation of Large Language Models for Entity Matching

论文作者：Tianshu Wang, Xiaoyang Chen, Hongyu Lin, Xuanang Chen, Xianpei Han, Hao Wang, Zhenyu Zeng, Le Sun

合作单位：阿里云

发表会议：COLING 2025

录用类型：主会长文

论文简介：实体匹配是实体消解中的关键环节。近期，基于大模型（LLMs）的实体匹配展现出显著潜力。然而，现有基于大模型的实体匹配方法通常采用二分类匹配范式，忽视了记录关系之间的全局一致性。本文系统性探究了融合记录交互的多种大模型实体匹配方法。具体而言，我们全面比较了匹配、比较和选择三种代表性策略，并分析了它们在不同场景下的优势和局限。基于研究发现，我们进一步提出了复合式实体匹配框架（ComEM），该框架有效整合多种策略和大模型的各自优势。在 8 个实体消解数据集和 10 个大模型上的实验结果充分验证了提出策略的有效性，以及 ComEM 框架带来的进一步成本效益。

成果三：R-CPS：与问答模型需求对齐的检索文档选择方法

论文标题：Aligning Retrieval with Reader Needs: Reader-Centered Passage Selection for Open-Domain Question Answering

论文作者：Chunlei Xin, Shuheng Zhou, Xuanang Chen, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Zhongyi Liu, Xianpei Han, Le Sun

合作单位：蚂蚁集团

发表会议：COLING 2025

录用类型：主会长文

论文简介：现有的检索方法主要侧重于收集与问题相关的文档，但往往忽略了根据问答模型的需求优先考虑上下文一致且对问答有帮助的信息。本文提出了一种以问答模型为中心的检索文档选择方法（R-CPS），通过从问答模型的角度对检索文档进行重新排序和聚类，减少信息冲突的干扰，提升了“先检索后阅读”流程的性能。在三个开放域问答数据集上的实验结果表明，我们的方法在零样本设置下有效缓解了信息冲突和偏好差异等问题，显著提高了检索文档的质量。

成果四：针对指令微调的大模型优化稀疏升级方法

论文标题：Improved Sparse Upcycling for Instruction Tuning

论文作者：Wangyi Jiang, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

发表会议：COLING 2025

录用类型：主会长文

论文简介：在大语言模型的指令微调任务中，稀疏激活的专家模型展现了优秀的扩展能力和计算效率。然而，稀疏模型的训练稳定性与路由行为一致性仍是难题，尤其是在有限高质量数据场景下。本文提出了一种基于表示的稀疏重构方法，将已有的密集模型转化为稀疏模型，利用模型的中间表示初始化路由权重，使专家能更高效地专注于特定任务或语义相关的输入，从而缓解随机初始化带来的不稳定性。实验结果表明，该方法在多项下游任务中显著提升了模型性能。这项研究为稀疏模型的高效构建和优化提供了新思路。

成果五：大规模语言模型能否阐明论点？对大语言模型在论点优化任务中的研究与提升

论文标题：Can LLMs Clarify? Investigation and Enhancement of Large Language Models on Argument Claim Optimization

论文作者：Yiran Wang，Xuanang Chen，Ben He，Le Sun

发表会议：COLING 2025

录用类型：主会长文

论文简介：在论辩中，论点是支撑整个论辩的基础，是构建论辩的核心。它引导了后续举证、推理和分析的展开，从而帮助受众理解核心问题。因此，确保论点的表述精准且明确，对于构建有说服力的论辩至关重要。尽管大语言模型已在风格迁移、查询改写等文本重写任务中展现了卓越能力，但其在论点优化中的应用有待研究。为填补这一空白，本文评估了大规模语言模型在不同设置下执行论点优化任务的表现。针对流行的基于精确词匹配的评估方法（如BLEU和ROUGE）的局限性，本文提出了一种基于滑动窗口机制的新型语义评估方法。此外，本文提出了一种基于强化学习的论点优化方法，在保留原有语意与阐明论点之间实现平衡，从而提升LLMs在论点优化任务上的表现。