关键词:
机器学习
多标记学习
标记分布学习
标记流形
电影评分分布预测
人脸年龄估计
摘要:
为了更好地解决标记不确定性问题,人们提出了新的学习框架——标记分布学习。与传统多标记学习相比,标记分布学习能够解决不同标记对示例描述程度不同的问题,因此能够更好地利用标记之间的相关性。尽管标记分布学习已经成功运用到了多个领域并且取得了较好的应用效果(如人脸年龄估计、表情识别、多标记排序等),但目前的研究仍然存在一些问题。首先,在数据层面,标记分布学习要求输入数据的标记必须为分布形式,而当前机器学习领域研究更多的是分类问题,对于其中绝大部分应用来说,标记分布是难以获得的,这就极大地限制了标记分布学习的应用范围。其次,对于某些特定领域(如人脸年龄估计),由于存在先验知识,标记分布可以从原始分类数据中自适应地学习得到,但是这种方法对训练数据量的要求很高,当数据量不足时自适应过程就会失效以致于无法学习到合理的标记分布。最后,在方法层面,目前的标记分布学习算法仍然较少,很多机器学习领域成熟有效的算法(如支持向量机)没有能够很好地引入到标记分布学习中来。本文的目标是针对以上问题展开深入研究并提出相应的解决方法。本文的主要贡献包括:1.以多标记学习为例,对标记分布进行扩展并首次提出了“标记流形”的概念,同时提出了“多标记流形学习”(ML2)算法,降低了标记分布学习对输入数据的要求,使其能够直接应用在传统分类数据上;2.以人脸年龄估计问题为例,提出了“半监督自适应标记分布学习”(SALDL)算法,通过引入无标记数据,解决了标记自适应过程对数据量的要求,提高了标记分布学习在有标记数据不足情况下的性能;3.提出了“标记分布支持向量回归”(LDSVR)算法,该算法对经典的支持向量回归(SVR)算法进行扩展,通过引入核技巧,提高了标记分布学习的性能;4.以电影评分分布预测为例,提出将标记分布学习应用到评分类应用问题中,并收集公开了相应的数据集,极大地扩展了标记分布学习的应用范围。