你应该知道的十种机器学习算法


你应该知道的十种机器学习算法

文章插图
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科 。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能 。
毫无疑问 , 机器学习/人工智能领域在将来是越来越受欢迎 。由于大数据是目前科技行业最热门的趋势 , 机器学习非常强大 , 可以根据大量数据做出预测或计算建议 。使用大量数据训练的深度学习算法 , 构建出一个能够理解人类语言并自动生成语言的模型 。ChatGPT、文心一言等等,都是机器学习的伟大产物 。
机器学习中大模型那么智能当然离不开伟大的机器学习算法,下面主要讲一下常见机器学习算法的基础知识 。
机器学习算法可以分为三大类——监督学习、无监督学习和强化学习 。当某个属性(标签)可用于某个数据集(训练集),但属性(标签)缺失且需要针对其他实例进行预测时,监督学习非常有用 。当挑战是发现给定未标记数据集中的隐式关系(项目未预先分配)时,无监督学习非常有用 。强化学习介于这两个极端之间——每个预测步骤或动作都有某种形式的反馈,但没有精确的标签或错误消息 。
1、主成分分析(PCA)/SVDPCA 是一种无监督方法 , 用于了解由向量组成的数据集的全局属性 。此处分析数据点的协方差矩阵 , 以了解哪些维度(大多数)/数据点(有时)更重要(即它们之间的方差较高,但与其他维度的协方差较低) 。考虑矩阵的顶级 PC 的一种方法是考虑具有最高特征值的特征向量 。SVD 本质上也是一种计算有序分量的方法,但不需要获取点的协方差矩阵即可获得它 。
你应该知道的十种机器学习算法

文章插图
2、最小二乘法和多项式拟合大学时学习的数值分析,曾经将直线和曲线拟合到点来得到方程 。可以使用它们来拟合机器学习中低维度的小型数据集的曲线 。(对于大数据或具有多个维度的数据集,可能最终会严重过度拟合 , 所以不必担心) 。OLS 具有封闭式解决方案,因此无需使用复杂的优化技术 。
你应该知道的十种机器学习算法

文章插图
显而易见,使用该算法来拟合简单曲线/回归
约束线性回归最小二乘法可能会与数据中的异常值、杂散场和噪声混淆 。因此,我们需要约束来减少我们在数据集上拟合的线的方差 。正确的方法是拟合线性回归模型,这将确保权重不会出现异常行为 。模型可以具有 L1 范数 (LASSO) 或 L2(岭回归)或两者(弹性回归) 。均方损失已优化 。
你应该知道的十种机器学习算法

文章插图
使用这些算法来拟合带有约束的回归线,避免过度拟合并掩盖模型中的噪声维度 。
3、K表示聚类他是无监督聚类算法 。给定一组向量形式的数据点,我们可以根据它们之间的距离来形成点簇 。这是一种期望最大化算法,它迭代地移动聚类中心,然后将点与每个聚类中心结合在一起 。算法采用的输入是要生成的簇的数量以及它将尝试收敛簇的迭代次数 。
你应该知道的十种机器学习算法

文章插图
从名称中可以明显看出 , 可以使用该算法在数据集中创建 K 个簇
4、逻辑回归Logistic 回归是在应用权重后应用非线性(主要使用 sigmoid 函数,也可以使用 tanh)的约束线性回归,因此将输出限制为接近 +/- 类(在 sigmoid 情况下为 1 和 0) 。交叉熵损失函数使用梯度下降进行优化 。初学者注意:逻辑回归用于分类,而不是回归 。还可以将逻辑回归视为单层神经网络 。逻辑回归使用梯度下降或 L-BFGS 等优化方法进行训练 。NLP 人们经常将其与最大熵分类器的名称一起使用 。
这就是 Sigmoid 的样子:
你应该知道的十种机器学习算法

文章插图
使用 LR 训练简单但非常强大的分类器 。
5、SVM(支持向量机)SVM 是一种常用的监督学习算法 , 是像线性/逻辑回归一样的线性模型,不同之处在于它的核心思想是将数据映射到高维特征空间,并在该空间中寻找一个最优的超平面来进行分类 。超平面是一个 n-1 维的线性子空间,其中 n 是特征的维数 。SVM 在特征空间中选择具有最大间隔(Margin)的超平面作为最优分类边界,以提高分类的鲁棒性 。


推荐阅读