机器学习十大算法的思路与形式
C4.5 算法:
C4.5 算法核心思想是ID3 算法,是ID3 算法的改进。ID3 算法是以信息论为基础, 以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3 算法计算每个属性的信息增益, 并选取具有最高增益的属性作为给定的测试属性。C4.5 算法的改进方面有:
1) 用信息增益率来选择属性, 克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2)在树构造过程中进行剪枝
3)能处理非离散的数据
4)能处理不完整的数据
朴素贝叶斯:
贝叶斯定理是关于随机事件A和B的条件概率的一则定理:
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
属于生成式模型(关于生成模型和判别式模型,主要还是在于是否需要求联合分布)。算法的基础是概率问题,分类原理是通过某对象的先验概率, 利用贝叶斯公式计算出其后验概率, 即该对象属于某一类的概率, 选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯之所以是朴素的,是因为在贝叶斯定理上做了两点假设:
- 每个特征之间相互独立
- 每个特征同等重要
但朴素贝叶斯算法简单,快速,具有较小的出错率。
注:贝叶斯网络则是多个节点之间的关系表示。如
一个简单的贝叶斯网络:
因为a导致b,a和b导致c,所以有
K-means 算法:
是一个简单的聚类算法,把n 个对象根据他们的属性分为k 个分割, k < n。算法的核心就是要优化失真函数J,使其收敛到局部最小值但不是全局最小值。
(其中N 为样本数, K 是簇数, rij表示i 属于第j个簇, uj是第j 个中心点的值。)
K 最近邻分类算法( KNN):
近墨者黑,分类思想比较简单,从训练样本中找出K 个与其最相近的样本,然后看这k 个样本中哪个类别的样本多,则待判定的值(或说抽样)就属于这个类别。
EM 最大期望算法:
EM 算法是基于模型的聚类方法, 是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。E 步估计隐含变量, M 步估计其他参数,交替将极值推向最大。EM 算法比K-means 算法计算复杂,收敛也较慢,不适于大规模数据集和高维数据,但比K-means算法计算结果稳定、准确。EM 经常用在机器学习和计算机视觉的数据集聚( Data Clustering)领域。
PageRank 算法:
是google 的页面排序算法,是基于从许多优质的网页链接过来的网页,必定还是优质网页的回归关系, 来判定所有网页的重要性。(也就是说,一个人有着越多牛X 朋友的人,他是牛X 的概率就越大。)完全独立于查询,只依赖于网页链接结构,可以离线计算。
AdaBoost
Adaboost 是一种迭代算法, 其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确, 以及上次的总体分类的准确率, 来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练, 最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
整个过程如下所示:
1. 先通过对N 个训练样本的学习得到第一个弱分类器;
2. 将分错的样本和其他的新数据一起构成一个新的N 个的训练样本,通过对这个样本的学习得到第二个弱分类器;
3. 将和都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;
4. 如此反复,最终得到经过提升的强分类器。
目前AdaBoost 算法广泛的应用于人脸检测、目标识别等领域。
Apriori 算法
Apriori 算法是一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系, 其核心是基于两阶段频集思想的递推算法。
Apriori 算法分为两个阶段:
1)寻找频繁项集
2)由频繁项集找关联规则
SVM 支持向量机
支持向量机是一种基于分类边界的方法。
支持向量机的原理是将低维空间的点映射到高维空间,使它们成为线性可分, 再使用线性划分的原理来判断分类边界。在高维空间中是一种线性划分,而在原有的数据空间中,是一种非线性划分。
SVM 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
CART 分类与回归树
是一种决策树分类方法, 采用基于最小距离的基尼指数估计函数,用来决定由该子数据集生成的决策树的拓展形。
如果目标变量是标称的,称为分类树;
如果目标变量是连续的, 称为回归树。
分类树是使用树结构算法将数据分成离散类的方法。