分类算法其实也可做回归分析——以knn为例

摘要: 本文以knn算法为例简要介绍如何使用分类算法来完成回归任务 。
关键字: knn算法 , 回归任务 。
之前的文章(K近邻(knn)算法是如何完成分类的?)已经介绍了knn算法的思想以及如何使用sklearn去实现这个算法了 , 其实大多的分类算法也是可以做回归的 , 特别是当训练数据比较多的时候效果就更加明显 。下面让我们看看如何使用分类算法来做回归分析 。
本文部分内容参考文献[1] 。
1 构建回归分析的数据为了仿真回归分析 , 我们也不得不自己构造能够满足回归分析的数据了 。其构造如下:
import numpy as npdef makeRegressionData(n_samples=100):rnd = np.random.RandomState(42)# 设置伪随机状态x = rnd.uniform(-3, 3, size=n_samples)# 随机生成范围在[-3,3) n_samples个点的随机数y_no_noise = (np.sin(4 * x) + x)# 目标函数y = (y_no_noise + rnd.normal(size=len(x))) / 2# 加入满足标注正太分布的随机噪声return x.reshape(-1, 1), y数据可视化:
import matplotlib.pyplot as pltX, y = makeRegressionData(n_samples=40)plt.plot(X, y, 'o')plt.ylim(-3, 3)plt.xlabel('Feature')plt.ylabel('Target')plt.show()

分类算法其实也可做回归分析——以knn为例

文章插图
 
2 n邻居预测结果原理展示图代码:
from sklearn.metrics import euclidean_distancesfrom sklearn.neighbors import KNeighborsRegressordef plot_knn_regression(X, y, X_test, n_neighbors=1):dist = euclidean_distances(X, X_test)# 计算欧式距离closest = np.argsort(dist, axis=0)# 对距离进行排序plt.figure(figsize=(10, 6))# knn回归reg = KNeighborsRegressor(n_neighbors=n_neighbors).fit(X, y)# 预测值y_pred = reg.predict(X_test)# 找出预测值# 测试点与最近的n个点之间的连线for x, y_, neighbors in zip(X_test, y_pred, closest.T):for neighbor in neighbors[:n_neighbors]:plt.arrow(x[0], y_, X[neighbor, 0] - x[0], y[neighbor] - y_, head_width=0, fc='k', ec='k')# 各种数据绘制train, = plt.plot(X, y, 'o', c='#0000aa')test, = plt.plot(X_test, -3 * np.ones(len(X_test)), '*', c='#50ff50', markersize=20)pred, = plt.plot(X_test, y_pred, '*', c='#0000aa', markersize=20)# x, ymin, ymaxplt.vlines(X_test, -3.1, 3.1, linestyle="--")# 显示图例plt.legend([train, test, pred],["training data/target", "test data", "test prediction"],ncol=3, loc=(.1, 1.025))# 坐标轴设置plt.ylim(-3.1, 3.1)plt.xlabel("Feature")plt.ylabel("Target")X_test = np.array([[-1.5], [0.9], [1.5]])# 测试数据plot_knn_regression(X,y,X_test)# k=1plot_knn_regression(X,y,X_test, n_neighbors=3)# k=3结果图:
分类算法其实也可做回归分析——以knn为例

文章插图
 

分类算法其实也可做回归分析——以knn为例

文章插图
 
注: 特征只有一个 , 测试数据点与数据集之间的具体体现在x轴之间的距离
【分类算法其实也可做回归分析——以knn为例】从上图就可以很容易理解 , k近邻算法回归分析的思路了 , 找到最近的几个点 , 计算均值即可 。
3 模型使用有了之前的基础 , 构建一个模型就简单多了 , 如下:
from sklearn.model_selection import train_test_split# 划分数据集X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=40)# 构建模型并训练reg = KNeighborsRegressor(n_neighbors=3)reg.fit(X_train, y_train)"""KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',metric_params=None, n_jobs=None, n_neighbors=3, p=2,weights='uniform')"""# 模型预测print("Test set predictions:n{}".format(reg.predict(X_test)))"""Test set predictions:[ 0.82597372 -0.58568040.0836095-1.020404640.41271285 -0.23052151 -1.62784743 -1.627847430.82597372 -0.23052151]"""print("Test set R^2:{:.2f}".format(reg.score(X_test, y_test)))"""Test set R^2:0.71"""需要说明的是:在sklearn中使用score来苹果模型 , 在回归问题上 , 返回的是R^2分数 , 也叫做决定系数 , 是回归模型预测的优度度量 , 位于0与1之间 。R^2等于1对应完美预测 。
4 KNeighborsRegressor分析fig, axes = plt.subplots(1, 3, figsize=(15, 4))line = np.linspace(-3, 3, 1000).reshape(-1, 1)for n_neighbors, ax in zip([1, 3, 9], axes):reg = KNeighborsRegressor(n_neighbors=n_neighbors)# 根据参数构建模型reg.fit(X_train, y_train)ax.plot(line, reg.predict(line))# 绘制预测值# 绘制训练数据、测试数据ax.plot(X_train, y_train, '^', c='#0000aa', markersize=8)ax.plot(X_test, y_test, 'v', c='#ff5050', markersize=8)ax.set_title("{} neightbor(s)n train score:{:.2f} test score:{:.2f}".format(n_neighbors, reg.score(X_train, y_train), reg.score(X_test, y_test)))ax.set_xlabel('Feature')ax.set_ylabel('Target')axes[0].legend(["Model predictions", "Training data/target", "Test data/target"], loc='best')


推荐阅读