北京理工大学毛先领副教授应邀到访中文信息处理实验室并作学术报告
2021年6月11日上午,应实验室孙乐研究员和韩先培研究员的邀请,北京理工大学毛先领副教授到访实验室,为实验室师生做了题为“Similarity-preserved Hashing: Diffusing from Images Retrieval to Other Scenarios”的学术报告。
毛先领老师现任北京理工大学计算机学院副教授、博士生导师。主要研究深度学习、机器学习与网络数据挖掘,具体研究领域涉及Information Extraction、 Question Answering and Dialogue和Learn to Hashing等方向。目前担任中国计算机学会中文信息技术专委会委员,中文信息学会青工委委员以及语言与知识专委会委员;已在SIGIR、AAAI、IJCAI、TOIS、 TKDE、CIKM、EMNLP、COLING等国际期刊会议上发表30余篇论文;分别获NLPCC 2019和ICKG 2020最佳论文奖;部分成果获中国电子学会科技进步一等奖(2018)和浙江省科技进步三等奖(2018);正在承担或参与国家重点研发计划子课题、国家自然科学基金重点项目和面上项目等多项;主持开发了首个多模态学术搜索引擎HammerScholar(www.hammerscholar.net)。
近年来,互联网的数据总量呈现爆炸式增长态势。极大的数据规模对数据的存储效率和检索速度提出了更高的要求,给针对中小规模数据集构建的传统机器学习算法带来了挑战和机遇。最近邻搜索(NN)是许多大规模机器学习和数据检索任务的基础组成部分。在许多任务中,近似最近邻(ANN)已经足够获得令人满意的性能,例如搜索引擎中的图像检索任务等。
相似度保持的哈希算法存储成本低、检索速度快,是大规模检索系统中比较流行的方法之一。相似度保持指的是将数据点转换为哈希码之后,哈希码之间的相似度能够代替原始数据点的相似度计算,从而提高检索速度。
目前的相似度保持哈希算法可分为数据依赖的和数据独立的算法,数据独立的算法具有更强的可扩展性,而数据依赖的算法可以获得更高的性能。数据独立的相似度保持哈希算法的核心是随机映射(Random Projection)。通过对数据在向量空间进行多次的线性划分,确定各数据点的哈希码,从而保证了相似的数据点具有相似的哈希码(LSH算法)。数据依赖的相似度保持哈希算法的核心是寻找监督信息,包括数据本身的标签信息和数据点之间隐含的语义结构信息。相似度保持哈希算法可以用于在超大分类空间中对分类器进行加速、跨模态检索和文本语义表示等领域。
毛先领老师首先回顾了哈希算法的基础,然后分别针对数据独立的和数据依赖的相似度保持哈希算法进行了介绍,并介绍了相似性保持哈希在图像检索等领域中的应用,最后总结了哈希算法潜在的应用方向。报告结束后,毛先领老师与实验室师生就算法的应用等问题展开了热烈讨论。
撰稿:边宁
责任编辑:刘汇丹