中文信息处理实验室一篇论文获SIGIR 2021最佳短论文奖
近期,第44届国际计算机学会信息检索大会(The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2021)于2021年7月11日-7月15日以线上会议形式顺利召开。ACM SIGIR是人工智能领域智能信息检索(Information Retrieval,IR)方向最权威的国际会议,会议专注于文本推荐、检索、语义计算等领域的最新研究成果。此次SIGIR 2021大会共收到了720篇长论文和526篇短论文,其中有151篇长论文和145篇短论文被录用,录用率分别约为21%和27%。
在14日凌晨,本次SIGIR 2021大会公布了最佳论文、最佳短论文、时间检验奖等多个奖项。其中,最佳短论文奖由中文信息处理实验室研究生获得。获奖论文题为《Contextualized Offline Relevance Weighting for Efficient and Effective Neural Retrieval》,作者依次为博士生陈轩昂、何苯教授、回恺博士、博士生王怡然、孙乐研究员、孙应飞教授。
图1:SIGIR 2021最佳短论文获奖证书
论文简介:在线搜索延迟(online search latency)是在检索应用中部署大规模预训练语言模型(如BERT)的一个主要瓶颈。我们受到文档扩展技术(基于transformer模型)最新成果的启发,提出了一种以大量伪查询(pseudo-query)和近邻文档(neighbour document)的离线相关性评分换取在线效率的神经检索框架。具体而言,我们利用强大的BERT排序模型对语料中每个文档生成的伪查询与其对应收集的近邻文档之间进行了离线相关性评分,并且在线检索时只需进行输入查询和种子文档(seed document)的伪查询之间的匹配,以此提高检索的效率。那么,在在线检索阶段,传统的查询-文档匹配(query-document matching)将被简化为成本更低的查询-伪查询匹配(query to pseudo-query matching),并根据预先计算好的近邻文档快速召回出相应的文档排序列表并返回给用户。在MS MARCO检索数据集上的实验结果表明,我们的方法在在线效率和有效性方面都获得了很好的效果。
论文地址:https://dl.acm.org/doi/10.1145/3404835.3463073
撰稿:何苯
责任编辑:刘汇丹