摘要:K近邻算法是机器学习中的一个非常基础的算法 。本文通过自生成数据,通过绘图的方式演示KNN算法的思路,让你不看数学公式就看了解什么是KNN算法 。
关键词:KNN算法
1 生成一个二分类的数据集本文很多内容参考文献[1] 。
先生成一个两个类别的数据集,然后修改这个数据集中的一些数据(提高分类难度、或者有一些杂质数据),最后再剔除一些数据使得数据不那么均衡,但也不能差距太大(主要还是希望进一步接近现实数据) 。为了能够可视化我们的数据,这里生成的数据为二维的,也就是一条数据具有两个特征 。
from sklearn.datasets import make_blobsimport matplotlib.pyplot as pltimport numpy as npdef makeTwoClassData():X, y = make_blobs(centers=2, random_state=4, n_samples=30)y[np.array([7, 27])] = 0# 生成错误数据mask = np.ones(len(X), dtype=np.bool)# 得到一个与数据集大小同的全一矩阵mask[np.array([0, 1, 5, 26])] = 0# 剔除这些索引数据X, y = X[mask], y[mask]# 选出剔除数据后的数据return X, y
(其中涉及的模块,参数,如有不懂的百度或留言评论)
将生成的数据可视化:
X, y = makeTwoClassData()# 绘图plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50)plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50)plt.legend(['Class 0', 'Class 1'], loc=4)plt.xlabel("First feature")plt.ylabel("Second feature")plt.show()
文章插图
2 k近邻算法原理介绍k紧邻算法是一种监督学习算法,算法的思想是这样子的:我们已经有了一堆具有标记的数据DDD,例如我们生成的有两个特征的数据,我们的任务是利用这些已有的数据预测新的数据xxx属于哪个类别,这个新的数据类型也理所当然与已有的数据集是一致的,下一步要做的就是计算这一条需要预测类别数据与已有数据之间的距离(这里距离通常是欧氏距离,也不排除还有其他计算方法),然后选择距离最小的前k条已有的数据,根据这k条数据的类别判定(判定方式可使用哪个类别多选择哪个方式)数据xxx属于哪个类别 。(希望这些废话你能够理解)
下面让用代码和画图的方式辅助你了解 。
构建几个需要预测的数据
# 选取测试点X_test = np.array([[8.2, 3.66214339], [9.9, 3.2], [11.2, .5]])
绘制不同个邻居数据的分类图:from sklearn.metrics import euclidean_distancesfrom sklearn.neighbors import KNeighborsClassifierdef plot_knn_classification(X, y, X_test, n_neighbors):plt.figure()dist = euclidean_distances(X, X_test)# 计算训练数据与测试数据之间的距离closest = np.argsort(dist, axis=0)# 从dist计算结果根据值的进行排序,并返回索引# 绘制箭头for x, neighbors in zip(X_test, closest.T):for neighbor in neighbors[:n_neighbors]:plt.arrow(x[0], x[1], X[neighbor, 0] - x[0], X[neighbor, 1] - x[1], head_width=0, fc='k', ec='k')# 原始数据图形plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50, label="training class 0")plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50, label="training class 1")plt.xlabel("First feature")plt.ylabel("Second feature")# 预测值clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)# 训练得到模型y_pre = clf.predict(X_test)plt.scatter(X_test[y_pre==0][:, 0], X_test[y_pre==0][:, 1], marker='*', s=50, c='red', label="test_pre 0")plt.scatter(X_test[y_pre==1][:, 0], X_test[y_pre==1][:, 1], marker='*', s=50, c='black', label="test_pre 1")plt.legend()# 绘制相邻1个点的情况plot_knn_classification(X, y, X_test, 1)# 绘制相邻3个点的情况plot_knn_classification(X, y, X_test, 3)
文章插图
文章插图
上面的图分类已经很明了,无需多言 。下面我们使用sklearn来构建一个KNN分类器(上面已经构建了) 。
3 使用sklearn构建KNN分类器只需要几步就可以了,不过需要知道相关参数 。如下:
from sklearn.model_selection import train_test_split# 数据集划分X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)# 构建模型,并训练clf = KNeighborsClassifier(n_neighbors=3)clf.fit(X_train, y_train)# 预测print("Test set prediction:{}".format(clf.predict(X_test)))"""Test set prediction:[1 0 1 0 1 0 0]"""
查看模型分类正确率:print("Test set accuracy:{:.2f}%".format(clf.score(X_test,y_test)*100))"""Test set accuracy:85.71%"""
推荐阅读
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- 分类算法其实也可做回归分析——以knn为例
- 淘宝权重算法公式 淘宝搜索占比公式
- 今日头条算法原理—— 3分钟了解今日头条推荐算法原理
- 推荐算法的物以类聚人以群分
- 厉害了华为!开源自研算法Disout
- 常见加密算法 「asp.net core 系列」12 数据加密算法
- 用Python实现十大经典排序算法-插入、选择、快速、冒泡、归并等
- 基础通俗讲解集成学习算法
- 流行的机器学习算法总结,帮助你开启机器学习算法学习之旅
- 算法专家教你一致性算法:Paxos+Zab+Raft+NWR+Gossip+一致性Hash