复旦大学张奇教授应邀做学术报告

2019年11月18日下午,应实验室孙乐研究员和韩先培研究员邀请,复旦大学计算机学院张奇教授到访实验室,为实验室师生作了题为“搜索引擎中的智能问答”的学术报告。

张老师的报告聚焦于近些年在学术界和工业界都备受关注的智能问答方向。张老师首先介绍了近些年搜索引擎发展的趋势,指出了智能问答技术在移动互联网时代的重要性。随即,张老师比较了近些年在学术界火热的SQuAD数据集和工业界实际应用场景下的区别,相比于SQuAD评测,工业界实际场景中存在文档种类更多,质量差异大,文档更长,且不一定存在正确答案等问题,使得真实场景中的智能问答难度更大,更具挑战性。

为了解决智能问答中存在的这些问题,张老师将解决方案分为三大类:1)基于社区的问题回答;2)基于知识图谱的问题回答;3)机器阅读理解。张老师着重介绍了第一和第三这两大类方案的主要方法和最新工作。

基于社区的问题回答,可以当成语义匹配问题来建模。现阶段互联网的问答平台如百度知道、搜狗问问、知乎等都已积累了丰富的问题和答案资源。当用户有新的问题咨询时,可以直接在已有问题中匹配到相似问题,返回对应的已有答案。现有的语义匹配模型可以分为两大类:一是基于句子表示的方法;二是基于交互关系的方法。

在实际问答场景中,许多问题所包含信息较少,但其对应答案中却包含可以解释和区分问题的信息。因此,张老师等在SIGIR2019发表的工作利用自适应多注意力机制,融合答案和问题信息,提高了语义匹配的性能。

尽管基于社区的问题问答在近些年取得了极大的进展,但是依然存在各种精度和召回损失,难以应对社区问答文本中存在的各种情况。因此,引入基于阅读理解的问题问答是十分必要的。

基于阅读理解的问题问答,主要思路是根据所提问题,在文档集中选取相关候选文档,再从候选文档集中抽取出能够回答问题的短语。近些年许多阅读理解模型被提出,如BiDAF、DrQA等。在介绍了阅读理解模型基本框架后,张老师又介绍了近些年的研究进展,如为解决文档中长距离依赖问题,引入了多层级的attention机制的HM-QRNN模型。同时,针对深度学习难解释的问题,张老师等在AAAI2020提出了大规模的中文阅读理解数据集,数据中包含给出答案的依据信息,使得模型在给出答案的同时能够提供对应的依据。除此之外,张老师也介绍了组内最近的开源工具包SMRCToolkit。

最后,张老师总结了智能问答当前面临的一些重要挑战:如何利用知识和常识,如何进行推理,如何快速低成本进行领域切换,如何构造有效的置信度机制等。

报告结束后,张老师与实验室师生进行了热烈的互动,探讨了智能问答的现状,以及工业界当前实际面临的问题。张老师凭借多年来在学术界和工业界的深厚学识和经验,为大家带来了一场生动,具有启发意义的报告,使得大家获益良多。

责任编辑:马龙龙

编辑:刘方超

 

 

 

 

2019-11-19T18:01:29+00:00