关键词:
统计学习理论,核机器,支撑矢量机,再生核,再生核Hilbert空间,模式识别,回归估计,数学规划,复值样本,主分量分析,多用户检测,数字均衡,波束形成
摘要:
从上世纪60年代始,人们开始研究基于数据的机器学习问题理论,直至上世
纪九十年代,在Vapnik等人的努力下,基于数据的机器学习理论得到了长足的发
展,形成了一门比较完善的统计学习理论,并在此基础上创建了一类全新的通用
的有效的机器学习算法:支撑矢量机。统计学习理论的精髓在于引入了假设函数
集容量控制的概念,学习机为了获得好的推广能力,需在假设函数集容量控制和
最小化经验风险之间作一个好的折衷。在统计学习理论出现和完善之前,在机器
学习中引入核函数,更广义地说就是引入非线性映射和非线性函数技术早已有之。
但核函数真正在机器学习中获得成功应用始于支撑矢量机。其原因就是由于引入
了非线性函数,使得学习机假设函数集太大,容易导致学习机的过拟合而降低推
广能力。正是统计学习理论和核技术的结合,才触发了从上世纪九十年代中期开
始的核机器的出现和快速成功的发展。目前主要的核机器技术包括支撑矢量机、
核Fisher分类器和核主分量分析等。本论文的所有工作正是在上述结合点上展开,主要包括两大部份的内容:支撑矢量机算法分析和改进方面以及基于统计学习理
论的新核机器算法方面。
在支撑矢量机算法分析和改进方面,本论文主要作了以下四方面的工作:第一、分析了支撑矢量机的基本几何性质。我们针对模式识别和回归估计两
类支撑矢量机,分别分析和证明了它们的一些基本几何性质,基于这些性质讨论
了支撑矢量机对新增样本的推广能力,得到了一些非常有价值的结论。从这些结
论可以看出支撑矢量机对新增样本具有良好的推广能力,并且支撑矢量机是一种
可积累的学习模型。
第二、提出了线性规划支撑矢量机。我们通过对统计学习理论中一些重要结论,特别是线性假设函数集VC维数的分析,得到了一类线性规划支撑矢量机。在线性
规划支撑矢量机中,以对VC维数界作适当放宽为代价,从而降低支撑矢量机的求
解复杂度。在该章最后对人工和实际样本的实验结果说明了线性规划支撑矢量机
采用放宽VC界对学习机推广能力的影响是可以接受的,而在计算复杂度上明显优
于原支撑矢量机。
第三、提出了无约束规划回归估计支撑矢量机。当采用高斯损失函数时,我们
提出了一种无约束支撑矢量机回归估计算法,并证明了该算法具有严格的凸性,不存在局部极小解。该算法较标准支撑矢量机而言,由于不存在线性约束,可以
雷达信号处理重点实验室
II核机器学习方法研究
采用快速的多维搜索数值方法,如最陡下降法、Newton法和共轭梯度法等具有较
快的优化速度,而且能够直接推广到复数域中。
第四、提出了自适应支撑矢量机算法。通常无线通信信道具有时变性,要求多
用户检测算法具有自适应性。我们提出了一种自适应支撑矢量机方法,并把它用
于信道时变情况下的多用户检测。一方面由于支撑矢量机引入结构风险,使得支
撑矢量机多用户检测的推广能力较好且对训练要求的样本数也大大下降;另一方
面由于支撑矢量机的非线性特性可以比线性检测器更好地逼近最佳检测器。
在新的基于统计学习理论的核机器方面,本论文主要作了以下四方面的工作。
第一、提出了一种新的支撑矢量机模型选择准则。支撑矢量机模型选择由于
其高度的非线性一直是一个非常困难的公开问题。我们通过对支撑矢量机推广能
力的分析,提出了一种构造性的与样本分布有关的推广能力衡量准则。该准则与
统计学习理论中的推广能力准则具有几何上的一致性,由样本的二阶统计量构成,比已有的完全不依赖于样本分布的推广能力上界更能反映学习过程的收敛性和收
敛速率。较为重要的一点是该准则在学习过程之前是可处理的,所以它可以用作
所有分类器中数据预处理的准则,同时也可以为支撑矢量机模型的选择提供依据。
第二、提出了复值支撑矢量机算法。支撑矢量