knn K近邻算法是如何完成分类的？ _K近邻算法

摘要：K近邻算法是机器学习中的一个非常基础的算法。本文通过自生成数据，通过绘图的方式演示KNN算法的思路，让你不看数学公式就看了解什么是KNN算法。
关键词：KNN算法
1 生成一个二分类的数据集本文很多内容参考文献[1] 。
先生成一个两个类别的数据集，然后修改这个数据集中的一些数据（提高分类难度、或者有一些杂质数据），最后再剔除一些数据使得数据不那么均衡，但也不能差距太大（主要还是希望进一步接近现实数据）。为了能够可视化我们的数据，这里生成的数据为二维的，也就是一条数据具有两个特征。
from sklearn.datasets import make_blobsimport matplotlib.pyplot as pltimport numpy as npdef makeTwoClassData():X, y = make_blobs(centers=2, random_state=4, n_samples=30)y[np.array([7, 27])] = 0# 生成错误数据mask = np.ones(len(X), dtype=np.bool)# 得到一个与数据集大小同的全一矩阵mask[np.array([0, 1, 5, 26])] = 0# 剔除这些索引数据X, y = X[mask], y[mask]# 选出剔除数据后的数据return X, y（其中涉及的模块，参数，如有不懂的百度或留言评论）
将生成的数据可视化：
X, y = makeTwoClassData()# 绘图plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50)plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50)plt.legend(['Class 0', 'Class 1'], loc=4)plt.xlabel("First feature")plt.ylabel("Second feature")plt.show()

文章插图

2 k近邻算法原理介绍k紧邻算法是一种监督学习算法，算法的思想是这样子的：我们已经有了一堆具有标记的数据DDD，例如我们生成的有两个特征的数据，我们的任务是利用这些已有的数据预测新的数据xxx属于哪个类别，这个新的数据类型也理所当然与已有的数据集是一致的，下一步要做的就是计算这一条需要预测类别数据与已有数据之间的距离（这里距离通常是欧氏距离，也不排除还有其他计算方法），然后选择距离最小的前k条已有的数据，根据这k条数据的类别判定（判定方式可使用哪个类别多选择哪个方式）数据xxx属于哪个类别。（希望这些废话你能够理解）
下面让用代码和画图的方式辅助你了解。
构建几个需要预测的数据
# 选取测试点X_test = np.array([[8.2, 3.66214339], [9.9, 3.2], [11.2, .5]])绘制不同个邻居数据的分类图：

from sklearn.metrics import euclidean_distancesfrom sklearn.neighbors import KNeighborsClassifierdef plot_knn_classification(X, y, X_test, n_neighbors):plt.figure()dist = euclidean_distances(X, X_test)# 计算训练数据与测试数据之间的距离closest = np.argsort(dist, axis=0)# 从dist计算结果根据值的进行排序，并返回索引# 绘制箭头for x, neighbors in zip(X_test, closest.T):for neighbor in neighbors[:n_neighbors]:plt.arrow(x[0], x[1], X[neighbor, 0] - x[0], X[neighbor, 1] - x[1], head_width=0, fc='k', ec='k')# 原始数据图形plt.scatter(X[y==0][:,0], X[y==0][:,1], marker='o', s=50, label="training class 0")plt.scatter(X[y==1][:,0], X[y==1][:,1], marker='^', s=50, label="training class 1")plt.xlabel("First feature")plt.ylabel("Second feature")# 预测值clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)# 训练得到模型y_pre = clf.predict(X_test)plt.scatter(X_test[y_pre==0][:, 0], X_test[y_pre==0][:, 1], marker='*', s=50, c='red', label="test_pre 0")plt.scatter(X_test[y_pre==1][:, 0], X_test[y_pre==1][:, 1], marker='*', s=50, c='black', label="test_pre 1")plt.legend()# 绘制相邻1个点的情况plot_knn_classification(X, y, X_test, 1)# 绘制相邻3个点的情况plot_knn_classification(X, y, X_test, 3)

文章插图

文章插图

上面的图分类已经很明了，无需多言。下面我们使用sklearn来构建一个KNN分类器（上面已经构建了）。
3 使用sklearn构建KNN分类器只需要几步就可以了，不过需要知道相关参数。如下：

from sklearn.model_selection import train_test_split# 数据集划分X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)# 构建模型，并训练clf = KNeighborsClassifier(n_neighbors=3)clf.fit(X_train, y_train)# 预测print("Test set prediction:{}".format(clf.predict(X_test)))"""Test set prediction:[1 0 1 0 1 0 0]"""

查看模型分类正确率：

print("Test set accuracy:{:.2f}%".format(clf.score(X_test,y_test)*100))"""Test set accuracy:85.71%"""
上一页
1
2
下一页
		  	





























推荐阅读

           
                  
              
                  律师|那些有钱人一般都是干啥的？ 
                
                   
                
              
            

                  
              
                  国家|国家癌症中心将全面推广癌症的多学科诊疗模式 
                
                   
                
              
            

                  
              
                  生肖▲下月开始，红鸾星动，前缘未了，和前任甜蜜牵手的四大生肖 
                
                   
                
              
            

                  
              
                  王岳伦亲手为李湘画画像，当成品出来的那一刻，这技术没搞错吧？ 
                
                   
                
              
            

                  
              
                  「运势」5月3号运势如虹，财旺运旺，贵人如云，咸鱼翻身发大财的3生肖 
                
                   
                
              
            

                  
              
                  透过普通窗户玻璃的与玻璃外的阳光有啥区别 
                
                   
                
              
            

                  
              
                   开幕|“写不尽的世界”李名郎书法作品展，昨日在云栖小镇谷田美术馆开幕 
                
                   
                
              
            

                  
              
                  梦泪|梦泪和Fly多排，梦泪拿出马超，Fly拿出花木兰，这真是神仙组合！ 
                
                   
                
              
            

                  
              
                  影视剧中的哪个桥段曾经发生在你的真实生活当中 
                
                   
                
              
            

                  
              
                  「运输机」国外媒体称轰20为红色B2，准确消息称今年将首次飞行。军迷们蹲了三天三夜。 
                
                   
                
              
            

                  
              
                  福鼎白茶饼功效,福鼎白茶饼怎么保存 
                
                   
                
              
            

                  
              
                  央视新闻客户端|阿根廷确诊病例超125万 首都已取消隔离管控 
                
                   
                
              
            

                  
              
                  梦见梨树是什么意思,好不好,代表什么 梦见梨树是什么意思周公解梦 
                
                   
                
              
            

                  
              
                  母亲把高考女儿送错考点当场痛哭|母亲把高考女儿送错考点当场痛哭 究竟怎么回事？ 
                
                   
                
              
            

                  
              
                  安神补心丸治疗焦虑症 
                
                   
                
              
            

                  
              
                  隔年的橘子皮不就是“陈皮”，为啥能卖到5000一斤？专家说出实情 
                
                   
                
              
            

                  
              
                  梦见地面开裂塌陷发大水 梦见地面开裂预示什么 
                
                   
                
              
            

                  
              
                  食品|推动食品行业发展需促进区域合作 打通堵点 
                
                   
                
              
            

                  
              
                  东北酸菜有营养吗-,东北酸菜的营养成分- 
                
                   
                
              
            

                  
              
                  十大最好的菌菇排名是什么？ 
                
                   
                
              
            

          

分类算法其实也可做回归分析——以knn为例 

淘宝权重算法公式 淘宝搜索占比公式 

今日头条算法原理—— 3分钟了解今日头条推荐算法原理 

推荐算法的物以类聚人以群分 

厉害了华为！开源自研算法Disout 

常见加密算法 「asp.net core 系列」12 数据加密算法 

用Python实现十大经典排序算法-插入、选择、快速、冒泡、归并等 

基础通俗讲解集成学习算法 

流行的机器学习算法总结，帮助你开启机器学习算法学习之旅 

算法专家教你一致性算法：Paxos+Zab+Raft+NWR+Gossip+一致性Hash