|一文读懂机器学习( 二 )
本文插图
一些典型的监督学习算法有:
- k近邻
- 线性回归
- 逻辑回归
- SVM
- 决策树和随机森林
- 神经网络
- Unsupervised learning 无监督学习
本文插图
一些重要的非监督学习方法:
- 聚类
- 可视化和降维
- 关联性规则
- Reinforcement learning 强化学习
本文插图
机器学习的过程
- 数据收集和准备: 通常很难收集 , 要么是因为它需要进行很多测量 , 要确保它是干净的;它没有重大错误 , 缺少数据等 , 需要考虑数据量 。 机器学习算法需求大量的数据 , 最好没有太多的噪音 , 但是增加了数据集的大小增加了计算成本 , 并且用足够的数据达到了最佳效果而没有过多的计算开销通常是不可能的 。
- 特征选择:这个始终需要事先了解问题和数据;算法根据给定的数据集 , 选择合适的算法 。
- 参数和模型选择:对于许多算法 , 有一些参数可以必须手动设置 , 或者需要进行实验才能确定适当的值 。
- 训练给定数据集 , 算法和参数:训练应该简单地使用计算资源以建立数据模型以进行预测新数据的输出 。
- 评估: 在部署系统之前 , 需要对其进行测试和评估以确保其性能, 对未经训练的数据的准确性计算 。
learning的目的是更好地预测输出 。 知道算法成功学习的唯一真实方法是将预测与已知的目标标签进行比较 , 这是针对监督学习进行训练的方式 。 这表明你可以做的一件事就是仅查看算法对训练集train set造成的错误error 。 但是 , 我们希望算法能推广到训练集中没有看到的数据 , 并且显然我们无法使用训练集对其进行测试(因为数据已经被看见过了) 。 因此 , 我们还需要一些不同的数据(一个测试集test set)来对其进行测试 。 我们通过输入测试集(input, target) 对到训练好的网络中 , 并将预测的输出与目标进行比较 , 不做权重或其他参数修改:我们使用它们来确定算法的性能怎么样 。 这样做唯一的问题是它减少了我们可用于训练的数据量 , 但这是我们必须忍受的 。
- Overfitting
本文插图
推荐阅读
- 技术编程|机器学习又一重要医学应用!培植人造器官
- 智能机器人|【好莱坞首次用AI机器人主演】
- 楚天都市报|机器替换人工上班获奖励三千万元!企业智能化改造增了效率还拿补贴
- 机器|令人惊叹的伐木机器,5米高的树直接从树顶“劈下”,看着是真爽
- 无人科技|智能检测机器人亮相北京动车段
- 人工智能|哈工大将在重庆建研究院,聚集汽车、机器人、人工智能等领域
- |一文带你读懂区块链的本质
- 智能机器人|智能检测机器人亮相北京动车段
- 智能机器人|陈根:全球首个AI发球机器人,不一样的智能陪练
- 中年|日本外交官嫁到王室成生育机器,雅子王妃疑因生育女孩患上抑郁症