量化投资学习笔记26——机器学习算法概览
之前一段时间学习了线性回归,逻辑回归,支持向量机和朴素贝叶斯几个机器学习的算法,并用kaggle的泰坦尼克号问题做了实操。
我很早就想学习机器学习了,因为是非专业人士,一直畏难没有开始学习。拜疫情“所赐”,终于开始动手了。几个算法学下来,感觉并没有我想象那么难,当然那些数学推导我很多都没有看懂,但关键是知道每种算法的应用场景,会根据问题和数据类型选择合适的算法。背后的数学原理很重要,尤其在需要自己改进模型的时候,但未必要一开始学习就掌握。
再听一门阿里云上的机器学习概览的课程吧。
网址:https://edu.aliyun.com/course/838?spm=5176.10731491.list.3.53f55de7g0aYF5
人工智能:会学习的计算机程序。
弱人工智能:在某一领域超过人类(alpha go)
强人工智能:在多个领域达到或超过人类。
超人工智能:全方位碾压人类。
机器学习:不直接针对问题编程而具有学习能力的计算机程序。
机器学习算法分类
按学习方式:有监督学习和无监督学习。
有监督学习:学习样本中有结果标记。
无监督学习:学习样本中无结果标记。如聚类。
半监督学习:学习样本中有部分结果标记。
有监督学习算法
特点:训练数据均有明确的结果标识。
①分类:通过对输入数据学习得到模型f,将每个样本数据x映射到目标属性y上,其中y是离散的。(若为连续的则使用回归。)
按原理分类:
基于统计的:贝叶斯分类。
基于规则的:决策树算法。
基于神经网络的:神经网络算法。
基于距离的:KNN(k最近邻)
KNN算法:其核心思想是如果离某一个样本最近的k个样本大多属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。可以预测分类,也可以做回归分析(预测值)。
决策树算法:准备-选择特征-创建分支-是否终止-生成结果。ID3算法:构建过程中用熵和最大增益来选择最佳特征。还有C4.5算法,C50算法,CART等算法。
朴素贝叶斯(NB)算法。
支持向量机(SVM)算法。
②回归
线性回归
逻辑回归
岭回归
拉索回归
无监督学习算法
输入数据不存在明显的标签或结论,常见为聚类。即发现隐藏的模式或者对数据进行分组。
①聚类:将相似的事物聚集在一起,将不相似的事物划分到不同类别的过程。使用的方法不同,结果往往不同。
层次聚类
划分聚类
基于密度的聚类
K-Means算法:根据初始化聚类中心信息,计算每个样本到这些中心的距离,可以判断每个样本均归属于某个类簇,更新聚簇中心信息,重新计算每个样本到聚类中心的距离,重新划分样本到每个聚类中心对应的类中,重复进行,直到达到终止条件。
DBScan
最大期望
降维:PCA(主成分分析),PLS(偏最小二乘回归),MDS(多维尺度分析)
②关联规则:事物之间存在关联或相关性,根据某个事物预测其他事物。
Apriori
Eclat
其它学习算法
①半监督学习:首先需要学习数据的内在结构。
有半监督分类,半监督回归,半监督聚类,半监督降维等。
②集成学习:针对同一数据集,训练不同的学习器来解决同一问题。有Bagging,Bosting,Stacking,随机树森林等
③深度学习
受限玻尔兹曼机(RBM)
深度信念网络(DBN)
卷积网络
栈式自编码
④增强学习:没有历史数据,自己找或制造数据(比如自己跟自己下棋)。
Q-Learning
时间差学习
⑤迁移学习
已训练好的模型参数迁移到新的模型中。
画个思维导图吧
接着,找一门完整的课程学习吧。
我发文章的四个地方,欢迎大家在朋友圈等地方分享,欢迎点“在看”。
我的个人博客地址:https://zwdnet.github.io
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的博客园博客地址: https://www.cnblogs.com/zwdnet/
我的微信个人订阅号:赵瑜敏的口腔医学学习园地