k-meanas原理自实现
import numpy as np import matplotlib.pyplot as plt def build_data(): """ 准备数据 :return:准备好的数据 """ data_list = [] # 加载数据 with open("./test.txt") as f: # 将所有的元素读成一个列表 lines = f.readlines() # 循环对每一行元素进行单独处理 for line in lines: # print(line) # 去除line 前后的空白字符 line_obj = line.strip().split(\'\t\') # print(line_obj) # print(type(line_obj)) # print("*"*20) # 把 line_obj 里面的每一个元素 转化为float,追加到一列表中 data_list.append([float(line_obj[0]), float(line_obj[1])]) # 列表嵌套列表的数据 ,每一个列表元素是原来的每一行元素 # print(data_list) # 将列表嵌套列表转化为二维数组 data_array = np.array(data_list) # print(data_array) # 将二维数组 转化为矩阵 data = np.mat(data_array) # print(data) # print(type(data)) return data def center_init(data, k): """ 初始化聚类中心 :param data: 所有的样本数据 :param k: 聚类的类别数目 :return: 聚类中心 """ # 随机在 data中挑选4行 作为初始化的聚类中心 # 获取data 的列数 columns_num = data.shape[1] # 获取data 的行数 index_num = data.shape[0] # 先初始化一个全为0 的中心,然后,后续替换里面的值 center = np.zeros(shape=(k, columns_num)) # 每次初始化一个聚类中心,需要循环初始化k次 for i in range(k): # 随机在80行里面选一个下标 # np.random.uniform() --->默认生成【0,1) 小数,可以更改最小值与最大值 r = int(np.random.uniform(0, index_num)) center[i, :] = data[r, :] return center def distance(v1, v2): """ 计算点1 跟点2 的距离 :param v1: 点1 :param v2: 点2 :return: 距离 """ dist = np.sqrt(np.sum(np.power((v1 - v2), 2))) return dist def k_means_owns(data, k): """ 自实现聚类算法 :param data: 所有的样本数据 :param k: 聚类的类别数目 :return: 聚类中心 、每一个样本属于哪一类别 """ # 获取data 的 行数 index_num = data.shape[0] columns_num = data.shape[1] # 1、初始化聚类中心 center = center_init(data, k) # print(center) # 需要将这个样本属于哪一类,而且距离也要保存起来吧 new_data = np.zeros(shape=(index_num,columns_num)) # 2、计算距离 # 每一个样本 都与每一个聚类中心进行计算距离 # 设置开关 flag = True while flag: flag = False # 关闭开关 for i in range(index_num): min_dist = 10000000000 min_index = -1 # i 代表每一行的样本的下标 for j in range(k): # 每一个样本需要 与每一个聚类中心进行计算距离 # 样本点data[i,:] 聚类中心center[j,:] dist = distance(data[i,:],center[j,:]) if dist < min_dist : min_dist = dist min_index = j if new_data[i,1] != min_index: flag = True # 打开 new_data[i,:] = min_dist,min_index # 调整聚类中心 for p in range(k): # p 0 1 2 3 # 找出属于同一类别 p_clustor = data[new_data[:,1] == p,:] # 计算这一类别的中心 # 先找出 这一类的簇第0 列的均值,与第1列的均值分别作为center 的行、列 center[p,:] = p_clustor[:,0].mean(),p_clustor[:,1].mean() return new_data,center def show_res(data,new_data,center): """ 结果展示 :param data: 原始数据 :param new_data: 主要包含了聚类距离与最终类别的数据 :param center: 最终的聚类中心 :return: None """ # 1、创建画布 plt.figure() # 2、绘图 # 获取原始数据的行数 index_num = data.shape[0] # colors = [\'r\',\'g\',\'pink\',\'y\'] # 绘制散点图 # 一个点的绘制,需要给该点进行添加颜色 for i in range(index_num): plt.scatter(data[i,0],data[i,1],c=colors[int(new_data[i,1])]) # 绘制聚类中心 # plt.plot(center[:,0],center[:,1],\'bx\',markersize=12) # print(center[:,0]) # print(center[:,1]) # 3、展示 plt.show() def main(): """ 主函数 :return: """ # 1、构建数据 data = build_data() # 2、进行自实现k-means # 确定聚类的类别数目 k = 4 new_data, center = k_means_owns(data, k) print(new_data) print("*" * 80) print(center) # 3、结果展示 # 进行绘制结果图形展示 show_res(data,new_data,center) if __name__ == \'__main__\': main()
版权声明:本文为wutanghua原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。