分类算法其实也可做回归分析——以knn为例 _分类算法

摘要：本文以knn算法为例简要介绍如何使用分类算法来完成回归任务。
关键字： knn算法，回归任务。
之前的文章（K近邻(knn)算法是如何完成分类的？）已经介绍了knn算法的思想以及如何使用sklearn去实现这个算法了，其实大多的分类算法也是可以做回归的，特别是当训练数据比较多的时候效果就更加明显。下面让我们看看如何使用分类算法来做回归分析。
本文部分内容参考文献[1] 。
1 构建回归分析的数据为了仿真回归分析，我们也不得不自己构造能够满足回归分析的数据了。其构造如下：
import numpy as npdef makeRegressionData(n_samples=100):rnd = np.random.RandomState(42)# 设置伪随机状态x = rnd.uniform(-3, 3, size=n_samples)# 随机生成范围在[-3,3) n_samples个点的随机数y_no_noise = (np.sin(4 * x) + x)# 目标函数y = (y_no_noise + rnd.normal(size=len(x))) / 2# 加入满足标注正太分布的随机噪声return x.reshape(-1, 1), y数据可视化：
import matplotlib.pyplot as pltX, y = makeRegressionData(n_samples=40)plt.plot(X, y, 'o')plt.ylim(-3, 3)plt.xlabel('Feature')plt.ylabel('Target')plt.show()

文章插图

2 n邻居预测结果原理展示图代码：

from sklearn.metrics import euclidean_distancesfrom sklearn.neighbors import KNeighborsRegressordef plot_knn_regression(X, y, X_test, n_neighbors=1):dist = euclidean_distances(X, X_test)# 计算欧式距离closest = np.argsort(dist, axis=0)# 对距离进行排序plt.figure(figsize=(10, 6))# knn回归reg = KNeighborsRegressor(n_neighbors=n_neighbors).fit(X, y)# 预测值y_pred = reg.predict(X_test)# 找出预测值# 测试点与最近的n个点之间的连线for x, y_, neighbors in zip(X_test, y_pred, closest.T):for neighbor in neighbors[:n_neighbors]:plt.arrow(x[0], y_, X[neighbor, 0] - x[0], y[neighbor] - y_, head_width=0, fc='k', ec='k')# 各种数据绘制train, = plt.plot(X, y, 'o', c='#0000aa')test, = plt.plot(X_test, -3 * np.ones(len(X_test)), '*', c='#50ff50', markersize=20)pred, = plt.plot(X_test, y_pred, '*', c='#0000aa', markersize=20)# x, ymin, ymaxplt.vlines(X_test, -3.1, 3.1, linestyle="--")# 显示图例plt.legend([train, test, pred],["training data/target", "test data", "test prediction"],ncol=3, loc=(.1, 1.025))# 坐标轴设置plt.ylim(-3.1, 3.1)plt.xlabel("Feature")plt.ylabel("Target")X_test = np.array([[-1.5], [0.9], [1.5]])# 测试数据plot_knn_regression(X,y,X_test)# k=1plot_knn_regression(X,y,X_test, n_neighbors=3)# k=3

结果图：

文章插图

文章插图

注：特征只有一个，测试数据点与数据集之间的具体体现在x轴之间的距离
【分类算法其实也可做回归分析——以knn为例】从上图就可以很容易理解， k近邻算法回归分析的思路了，找到最近的几个点，计算均值即可。
3 模型使用有了之前的基础，构建一个模型就简单多了，如下：

from sklearn.model_selection import train_test_split# 划分数据集X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=40)# 构建模型并训练reg = KNeighborsRegressor(n_neighbors=3)reg.fit(X_train, y_train)"""KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',metric_params=None, n_jobs=None, n_neighbors=3, p=2,weights='uniform')"""# 模型预测print("Test set predictions:n{}".format(reg.predict(X_test)))"""Test set predictions:[ 0.82597372 -0.58568040.0836095-1.020404640.41271285 -0.23052151 -1.62784743 -1.627847430.82597372 -0.23052151]"""print("Test set R^2:{:.2f}".format(reg.score(X_test, y_test)))"""Test set R^2:0.71"""

需要说明的是：在sklearn中使用score来苹果模型，在回归问题上，返回的是R^2分数，也叫做决定系数，是回归模型预测的优度度量，位于0与1之间。R^2等于1对应完美预测。
4 KNeighborsRegressor分析

fig, axes = plt.subplots(1, 3, figsize=(15, 4))line = np.linspace(-3, 3, 1000).reshape(-1, 1)for n_neighbors, ax in zip([1, 3, 9], axes):reg = KNeighborsRegressor(n_neighbors=n_neighbors)# 根据参数构建模型reg.fit(X_train, y_train)ax.plot(line, reg.predict(line))# 绘制预测值# 绘制训练数据、测试数据ax.plot(X_train, y_train, '^', c='#0000aa', markersize=8)ax.plot(X_test, y_test, 'v', c='#ff5050', markersize=8)ax.set_title("{} neightbor(s)n train score:{:.2f} test score:{:.2f}".format(n_neighbors, reg.score(X_train, y_train), reg.score(X_test, y_test)))ax.set_xlabel('Feature')ax.set_ylabel('Target')axes[0].legend(["Model predictions", "Training data/target", "Test data/target"], loc='best')
上一页
1
2
下一页
		  	





























推荐阅读

           
                  
              
                  哪些人不宜食用牛肉干？牛肉干的副作用有哪些? 
                
                   
                
              
            

                  
              
                  糖尿病人血糖好，要会吃午餐和晚餐，健康的两餐怎么吃？ 
                
                   
                
              
            

                  
              
                  第五大道@难怪穿它的人都气质动人，从明星身上学穿搭！荷叶边简直太美了 
                
                   
                
              
            

                  
              
                  北京有哪些值得带的特产 
                
                   
                
              
            

                  
              
                  电脑报 NZXT恩杰DIY日双·11年终狂欢持续中 
                
                   
                
              
            

                  
              
                  举人力量|忧郁的小眼神简太神似，网友的评论亮了，杨丞琳晒“狗界”李荣浩 
                
                   
                
              
            

                  
              
                  失信人|失信人欠债不还却捐20万建宗祠？当事人：5年前就捐了，当时有钱 
                
                   
                
              
            

                  
              
                  梓原|“金鹰奖”今年会撕得很难看吗？ 
                
                   
                
              
            

                  
              
                  【】穗一公寓日本籍住户新冠初筛阳性 复检结果为阴性 
                
                   
                
              
            

                  
              
                   四本科幻小说，星际时代，龙争虎斗，获得潜能开发，坐拥美女芳心 
                
                   
                
              
            

                  
              
                  快了棒棒糖|不信神的中国人和神权美国的恐惧症！ 
                
                   
                
              
            

                  
              
                  应届毕业生IT去日本工作 
                
                   
                
              
            

                  
              
                  腿子韧带拉伤了怎么办,腿部韧带拉伤的症状及处理方法- 
                
                   
                
              
            

                  
              
                  天下军事秘闻绝密文件涂改失误，意外曝光涉“9.11”袭击细节，美国特工闯大祸 
                
                   
                
              
            

                  
              
                  【】北京允许低风险地区举办500人以下体育赛事活动 
                
                   
                
              
            

                  
              
                  嫁接桃树的时间和方法的细节 
                
                   
                
              
            

                  
              
                  路由器购买指南，和网络不稳定、断网说拜拜 
                
                   
                
              
            

                  
              
                  「红烧狮子头」红烧狮子头是哪个地方的菜 
                
                   
                
              
            

                  
              
                  原神：4.3水下尘歌壶实机，仆人立绘！留云加强，阿贝多砂糖新皮肤首爆！ 
                
                   
                
              
            

                  
              
                  最练气质的瑜伽 
                
                   
                
              
            

          

淘宝助理怎么使用教程 淘宝助理是什么 

淘宝权重算法公式 淘宝搜索占比公式 

茶叶的分类及泡法,三种方法让你泡出茶叶应有的味道来 

茶树品种的分类和鉴定,云南古茶山 

茶叶的发酵程度,茶叶按发酵程度不同的分类 

今日头条算法原理—— 3分钟了解今日头条推荐算法原理 

推荐算法的物以类聚人以群分 

厉害了华为！开源自研算法Disout 

大叶种乔木茶和灌木茶,茶知识茶树鲜叶的分类 

常见加密算法 「asp.net core 系列」12 数据加密算法