机器学习十大算法之SVM
在样本空间中,划分超平面可通过如下线性方程来描述:
当然,有些时候,或者说大部分时候数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题
我们后面会讲),这里先从最简单的情形开始推导,就假设数据都是线性可分的,亦即这样的超平面是存在的。
样本空间中任意点x到划分超平面的距离可写为:
假设超平面能将训练样本正确分类,即若y=1,则有f(x)>0;若y=-1,则有f(x)<0。距离超平面最近的这几个训练样本点使f(x)=0,它们
被称为“支持向量”,两个异类支持向量到超平面的距离之和为:
欲找到具有“最大间隔”的划分超平面,也就是要找到参数w和b,使得γ最大,即
上式等价于:
这就是支持向量机的基本型。
对偶问题
我们希望求解上式来得到最大间隔划分超平面所对应的模型,注意到上式本身是一个凸二次规划问题,使用拉格朗日乘子法可得到其“对偶
问题”,对上式的每条约束添加拉格朗日乘子αi≥0,则该问题的拉格朗日函数可写为:
其中α=(α1;α2;…;αm)。令L(w,b,α)对w和b的偏导为零可得:
将上式代入拉格朗日函数中消去w和b,再考虑约束条件,就得到对偶问题:
其具体推导过程是比较复杂的,如下图所示:
最后得到:
约束条件为: