中科院软件所中文信息处理实验室获EDBT最佳论文奖亚军

近日,数据库领域重要国际学术会议 EDBT 2025(The 28th International Conference on Extending Database Technology,CORE A & CCF-B类会议)在西班牙巴塞罗那圆满落幕。中国科学院软件研究所中文信息处理实验室论文《DBCopilot: Natural Language Querying over Massive Databases via Schema Routing》荣获最佳研究论文奖亚军(Runner-Up for Best Research Paper Award)。该论文第一作者为博士生王天舒,通讯作者为林鸿宇副研究员和韩先培研究员。

EDBT评奖委员会评价该论文道:“在大型机构和组织中使用自然语言查询关系型数据库面临数据库模式(database schema)的海量、复杂和多样化挑战。针对上述挑战,论文创新性的将任务分为两部分:模式路由(schema routing),用于识别合适的数据库和表格;以及SQL 生成(SQL generation),用于将自然语言问题转换为SQL查询语句。论文为这两个步骤都提出了创新性解决方案,并验证了这些方法在各项基准上带来的持续改进。”

成果介绍:论文提出了大小模型协同合作的 DBCopilot 框架,将自然语言查询扩展从单一受限数据库到海量数据库规模。具体地,论文首先将海量数据库自然语言查询问题解耦合为数据库路由任务(Schema Routing)和自然语言转结构化查询任务(NL2SQL),并针对性的提出了大小模型协同架构–DBCopilot。在DBCopilot架构中,可快速低成本微调的小模型用于解决领域特定、语义相关的Schema Routing任务,而大模型则用于SQL 生成任务。通过互补和协调两者的快速适应和通用生成的能力,DBCopilot可以有效利用模式之间的复杂结构关系从而实现更精准的海量数据库模式路由。同时针对训练数据稀缺的问题,论文提出了基于反向模式生成的数据合成方法,无需人工标注即可自动适配到海量数据库。论文通过广泛实验验证了所提模式路由方法的有效性,以及大小模型协作框架的可扩展性。研究成果表明,DBCopilot 能够有效地实现多源查询扩展,从而提升数据的可访问性。

会议简介:EDBT 是数据库领域的重要学术会议(CORE A 类 & CCF- B类国际会议)。自 1988年创办以来,EDBT 每两年召开一次,2008 年起改为每年举办,并于 2009 年开始与数据库理论研究会议 ICDT(International Conference on Database Theory)联合召开。作为数据库及信息系统技术与应用领域的重要学术交流平台,会议为研究人员、从业者、开发者和用户提供了探索新理念、新技术和新工具以及交流经验的重要平台。之前的EDBT活动分别在威尼斯、维也纳、剑桥、阿维尼翁、瓦伦西亚、康斯坦茨、布拉格、伊拉克利翁、慕尼黑、南特、圣彼得堡、洛桑、乌普萨拉、柏林、热那亚、雅典、布鲁塞尔、波尔多、威尼斯、维也纳,里斯本、哥本哈根(虚拟)、尼科西亚(虚拟),爱丁堡(虚拟)等地方召开。

2025-04-03T23:18:56+00:00