研究组基于三重矩阵分解的跨媒体检索成果论文和代码公开!

随着互联网和媒体技术快速发展,人们可以轻易地获取海量的、多样的媒体信息,如何在海量的数据中检索有用的信息成为了至关重要的问题。在过去的十几年间,基传统搜索引擎的本质是单一模态检索,仅能文本检索文本,或文本检索包含标签(tag)或文字描述的多媒体数据,无法利用互联网上大量的图像、音频、视频等多媒体数据的内在信息进行跨模态检索.跨模态检索是指利用某一模态的数据(如文本)去检索其他模态的数据(如图片、视频等)。近年来,由于哈希方法能够提供更小的存贮代价和更高的检索效率,跨模态哈希方法受到了研究者的广泛关注。跨模态哈希旨在将异构高维数据转化成共同的哈希索引,从而实现了检索数据在不同模态之间基于汉明距的相似性度量,同时降低了索引存储开销、提升了检索效率,且不容易出现‘维度灾难’问题。此外跨模态哈希还可应用于对多媒体标注标签、分类等方向,正是因为上述现实需求和优势,近几年来跨模态哈希成为学术界广泛关注热点之一。
针对传统跨模态哈希方法常常采取统一的哈希码表示不同模态样本的限制,本文提出了可以采取具有不同长度的哈希码来分别表示各自模态样本,更具有一般性。

论文题目:MTFH: A Matrix Tri-Factorization Hashing Framework for Efficient Cross-Modal Retrieval

论文公开地址:https://arxiv.org/abs/1805.01963
代码公开地址:https://github.com/starxliu/MTFH


本论文自公开后,受到了AI最前线网站的广泛关注。