机器学习(1):常见术语 | 模型 | 样本 | 特征 | 标签
机器学习(1):常见术语 | 模型 | 样本 | 特征 | 标签
说到机器学习,或讨论这个事情时,什么训练、样本、模型或算法就会蹦出来,今时今日什么事情大家都知道一点点,很多代表就是这样来的。但是,对于真心想弄清楚一个事情的我们来说,应该要理解一些基本的术语,所以这里就说一些机器学习时遇到的基本术语,也不是全部,说全部还太早。至于为什么不说tf,因为tf是去到代码的级别了啊,这个他日再相逢。
(1)标签
对于机器学习,我们经常说,要训练机器,让它达到一个最佳的状态,然后用它来预测一些事情。所以,我们的目的,是预测一些信息。
预测的信息,叫作标签。不预测,通过人工建立的信息,也叫作标签。标签就是一个信息。
由于信息多种多样,所以标签也就多种多样。
标签可以表示一类物体,比如标签是“苹果”、“香蕉”,比如标签是“红色”、“橙色”。标签可以表示变化,比如标签是“明天的天气”、“下半年的房价”、“这个股票的趋势”。标签可以表示含义,比如标签是“01表示什么”、“这个动作是什么意思”。等等。
我们说某某人是什么性格,这个就是打标签,比如说某人很“风趣”、“稳重”,这些都是标签,根据这些标签就可以聚类,比如把“稳重”的人聚成一类。在数字时代,很多事物都可以打标签,标签也有意义。比如文章可以标签:“java”、“机器学习”等,比如视频可以标签:“温情”、“恐怖”等,音频可以标签:“民谣”、“慢节奏”、“男低音”等。
所以,标签几乎是你能想到的任何事物或事情。
(2)特征
标签是一个信息,至于是什么信息,跟特征有直接关系。
特征就是一系列的信息,用来表征事物,映射出标签。特征应该是具体可量化的信息,不包括主观感受。
说一个人“稳重”,是根据这个人的特征来评定的,比如TA再三确认问题、及时反馈进度、结束后回顾总结,等等,具备这些特征,我们就给TA打上“稳重”的标签。
(3)模型
模型,就是能训练与预测的程序。
模型的训练就是固化特征与标签的关系。
模型最终用于预测标签,也就是根据特征,判断出标签是什么。
从训练与预测的角度,模型的工作图是这样的:
从模型预测的信息来看,可以把模型分为回归模型跟分类模型。
回归模型,用于预测“未来”会发生的事情,比如“明天腾讯的股值是否会上涨”。
分类模型,用于预测事物是哪一类,比如“这个东西是苹果”。
(4)样本
样本是数据实例,是特征的封装。
样本可以带标签,或不带标签。
带标签的样本,可以用于模型的训练。
不带标签的样本,可用于模型的预测。
大量而特征良好的带标签样本,是机器学习的关键。
好了,就这么多了。简单来说,机器学习的概念可以从模型说起,模型就是具备预测能力的系统,可以预测末来(叫回归模型),可以分类事物(叫分类模型)。模型接受训练,而且一定要训练,不断训练不断进化,比如从一个正方形训练成一个圆,再训练成一个椭圆,而这个椭圆可能就是一个可用的预测状态,这个训练过程有可能是很漫长的。另一方面,要训练,就一定要用到样本,样本就是特征的集合,对于训练,这个样本必需要有标签。什么特征就有什么标签,就是这个关系,训练就是要强化模型对特征与标签的关系。所以,对于机器学习来说,有两个关键,一个是良好的模型,另一个就是大量良好的样本,而这两个关键,真要感谢无私共享的人。