科技小数据|0基础小白必知的10种机器学习算法


“大数据分析”评为“ 21世纪最热门的工作” 以来 , 人们对机器学习的兴趣激增 。 但是 , 如果您刚刚开始学习机器学习 , 则可能很难入手 。 因此 , 小编发布了广受欢迎的关于初学者的优秀机器学习算法的文章 。
这篇文章是针对0基础初学者的 。 如果你有在数据科学和机器学习一些经验 , 你可能会更感兴趣的是做机器学习在Python这更深入的教程用scikit-learn , 或在我们的机器学习课程 , 这从这里开始 。 如果您还不清楚“数据科学”和“机器学习”之间的区别 , 那么本文将为您提供一个很好的解释:机器学习和数据科学-两者有何不同?
机器学习算法是可以从数据中学习并从经验中改进而无需人工干预的程序 。 学习任务可能包括学习将输入映射到输出的功能 , 学习未标记数据中的隐藏结构;或“基于实例的学习” , 其中通过将新实例(行)与训练数据中存储在内存中的实例进行比较 , 为新实例生成类标签 。 “基于实例的学习”不会从特定实例创建抽象 。
机器学习算法的类型
机器学习(ML)算法有3种类型:
监督学习算法:
监督学习使用标记的训练数据来学习将输入变量(X)转换为输出变量(Y)的映射函数 。 换句话说 , 它在以下等式中求解f:
Y = f(X)
当给定新的输入时 , 这使我们能够准确地生成输出 。
我们将讨论两种类型的监督学习:分类和回归 。
分类被用于预测给定的样品的结果 , 当输出变量在类的形式 。 分类模型可能会查看输入数据并尝试预测“病”或“健康”等标签 。
当输出变量为实数值形式时 , 将回归用于预测给定样本的结果 。 例如 , 回归模型可能会处理输入数据以预测降雨量 , 人的身高等 。
我们在本博客中介绍的前5种算法-线性回归 , 逻辑回归 , CART , 朴素贝叶斯和K最近邻(KNN)-是监督学习的示例 。
合奏是另一种监督学习 。 这意味着要组合多个各自较弱的机器学习模型的预测 , 以对新样本产生更准确的预测 。 本文的算法9和10(使用随机森林进行装袋 , 使用XGBoost进行增强)是集成技术的示例 。
无监督学习算法:
当我们只有输入变量(X)而没有相应的输出变量时 , 将使用无监督学习模型 。 他们使用未标记的训练数据来建模数据的基础结构 。
我们将讨论三种无监督学习:
关联用于发现集合中项目同时出现的可能性 。 它广泛用于市场分析 。 例如 , 可以使用关联模型来发现如果客户购买面包 , 则他/她也有80%可能也购买鸡蛋 。
聚类用于对样本进行分组 , 以使同一聚类中的对象彼此之间的相似性大于与另一个聚类中的对象的相似性 。
降维用于减少数据集的变量数量 , 同时确保仍传达重要信息 。 降维可以使用特征提取方法和特征选择方法来完成 。 “特征选择”选择原始变量的子集 。 特征提取执行从高维空间到低维空间的数据转换 。 示例:PCA算法是一种特征提取方法 。
我们在这里介绍的算法6-8(Apriori , K-means , PCA)是无监督学习的示例 。
强化学习:
强化学习是机器学习算法的一种 , 它允许代理通过学习使奖励最大化的行为来根据其当前状态决定最佳的下一步操作 。
加固算法通常通过反复试验来学习最佳动作 。 例如 , 假设有一个视频游戏 , 其中玩家需要在特定时间移动到特定地点以赚取积分 。 玩该游戏的强化算法会从随机移动开始 , 但是随着时间的流逝 , 经过反复试验 , 它将学习需要在何时何地移动游戏中角色以最大化其总点数 。
量化机器学习算法的流行度
这十种算法是从哪里得到的?任何此类列表本质上都是主观的 。 诸如此类的研究已经量化了10种最流行的数据挖掘算法 , 但是它们仍然依赖于调查反馈的主观响应 , 通常是高级学术从业人员 。 例如 , 在上面的研究中 , 受访者是ACM KDD创新奖 , IEEE ICDM研究贡献奖的获得者;KDD '06 , ICDM '06和SDM '06的计划委员会成员;ICDM '06的145位与会者 。


推荐阅读