关键词:
Web信息检索
半监督流形学习
降维
流形排序
Web图像检索
网页摘要
人脸检索
摘要:
在Web 2.0时代,万维网逐渐由一个海量信息存储库发展成为全球用户参与、分享和交互的平台。这一方面促使万维网上各种复杂类型数据(图像、音频、视频等)急剧增加;另一方面,用户在Web信息检索方面的个性化需求也不断增长。有效支持复杂类型数据检索和检索结果的个性化成为当前Web信息检索技术所面临的两大挑战。
本文对基于半监督流形学习的Web信息检索技术进行了探索和研究。半监督流形学习技术基于流形数据假设,利用由已标注数据和未标注数据所共同体现的内在流形结构,来构建更有效的学习模型。在各种Web信息检索应用中,各类相关数据通常分布在高维外部空间中的子流形结构上,这为半监督流形学习技术提供了广阔的用武之地。
在Web 2.0时代,各类Web 2.0应用将产生大量的用户自主创造内容(UGC)。这些UGC数据包含了很多用户个性化信息,有效利用这些数据是实现Web信息检索个性化的关键。但是,相比于万维网上的海量信息,能有效辅助个性化检索的用户反馈信息显得非常稀缺。半监督流形学习技术利用数据的流形分布特征,让我们在Web信息检索中更加充分的利用用户反馈,实现各类数据的有效检索,更好的实现检索内容个性化。
在本文中,我们在对半监督流形学习技术在以下Web信息检索相关领域中的应用进行了研究和探索:
1.基于内容的图像检索(CBIR):引入用户反馈是解决CBIR中“语义鸿沟”问题的有效手段,但这又给图像检索带来“维度灾难”问题。为了解决这个问题,本文使用核技术对最大边缘投影算法(MMP)进行非线性扩展,提出了基于核的最大边缘投影算法(KMMP)。KMMP将图像子流形映射到一个低维子空间,更好的实现高度非线性流形数据的降维,有效提高图像检索的精确度。
***新闻人脸检索:大部分新闻都是和人相关的一些故事,因此根据特定的人物对相关的新闻文本和图片进行检索是一种很自然的需求。在新闻人脸检索中,人工标注的代价往往较高;因此,现有的方法都是在文本检索的基础上,使用无监督学习技术对人脸数据聚类来检索新闻人脸。如果属于同一个人的负样例图片比较多,无监督的方法会返回大量的错误结果。本文提出了一种基于半监督流形排序的新闻人脸检索方法,利用人脸数据分布的流形几何特征,在检索过程中引入用户相关反馈,实现更加精确的新闻人脸检索。同时,用户相关反馈的引入,也有效解决了无监督方法在属于同一个人的负样例图片较多的情况下检索精度差的问题。
3.网页文档摘要:在社交网络中,用户在网页上标注的标签既是对相关内容的高度概括,也是用户对感兴趣内容的标注。这使网页标签成为网页摘要的良好素材。本文通过使用网页标签,提出一种以抽取用户感兴趣内容为主的社会化摘要方法。首先,我们在三核协同标签模型(Tripartite Collaborative Tagging Model)的基础上,通过分析用户标签行为,构建一个体现数据流形分布特征的加权图。然后,我们使用线性近邻传递方法实现在加权图上的用户兴趣传播,使得产生的网页摘要有效聚焦于用户感兴趣的内容。
4.新闻网页标题识别:传统新闻网页标题识别方法都是基于模板的,必须为不同的模板开发不同的包装程序(Wrapper),而且容易受模板更新的影响。本文提出一种基于视觉效果的新闻网页标题识别方法,有效消除标题识别的模板依赖性。在使用VIPS算法对新闻网页分块的基础上,我们抽取新闻标题块的视觉特征和部分内容特征,构造了一个标题块数据的流形空间。我们通过在这个流形特征空间中应用半监督流形排序算法,实现了对新闻标题块较为精确的识别。