主要用途:文本处理里的垃圾邮件过滤、情感分析、消费者分类、拼写纠正、文字广告过滤、识别恶性评论等领域 。
优劣势:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类,且很统一被解释 。所需估计的参数不大,对缺失数据不太敏感,而且无需复杂的迭代求解框架,适用于规模巨大的数据集 。但是对输入数据的形式比较敏感、计算先验概率时分类决策可能存在错误 。如果输入变量是相关的,则会出现问题 。
4)k近邻(KNN)
基本原理:把标注好类别的训练样本映射到选取的特征数维度的坐标系里,然后再把测试样本映射到这个坐标系里,选取距离该测试样本最近的k个训练样本,其中哪个训练样本类别占比最大,就可以认为该类别就是这个测试样本的类别 。
kNN算法是一种判别模型,即支持分类问题,也支持回归问题,是一种非线性模型 。它天然的支持多分类问题 。kNN算法没有训练过程,是一种基于实例的算法 。
主要用途:适用 kNN可以处理数值型(从无限的数值集合中取值,如:0.100,42.001等)和标称型(只在有限目标集中取值,如:真与假)数据 。一种特征对应一个维度,一种特征下的数据可以数值型的也可以是标称型的 。
优劣势:这种算法思想简单,理论成熟,准确度高 。但是会占用大量内存,因为需要存储所有的训练样本点,而且每个新测试样本需要通过kNN算法分类,都要计算这个测试样本与所有训练样本点的距离 。
5)线性回归
基本原理:主要用于拟合数据趋势 。简而言之,就是尽量用一条线或平面或超平面来拟合已有的一组数据 。确定自变量和因变量间的相互依赖的定量关系 。简单的线性回归一般使用“最小二乘法”来求解,最小二乘的思想就是使得求解的这条线或平面或超平面使所有误差的平方和最小 。
主要用途:适用于数值型和标称型数据 。
优劣势:结果易于理解,计算不复杂,但是只能用于拟合线性数据,非线性数据拟合效果很差 。
6)逻辑回归
基本原理:逻辑回归只是对线性回归的计算结果加了Sigmoid函数进行处理,将数值结果转化为了0到1之间的概率,根据这个概率可以做预测 。logistic回归是一种判别模型,它是一种线性模型,用于二分类问题 。
主要用途:路面交通流量分析、邮件过滤,
优劣势:实现简单,分类时计算量非常小,速度很快,存储资源低,但是容易欠拟合 。
7)支持向量机(SVM)
基本原理:支持向量机的目标是寻找一个分类超平面,它不仅能正确的分类每一个样本,并且要使得每一类样本中距离超平面最近的样本到超平面的距离尽可能远 。SVM是一种判别模型,它既可以用于分类问题,也可以用于回归问题 。标准的SVM只能支持二分类问题,使用多个分类器的组合,可以解决多分类问题 。
主要用途:新闻分类、手写识别 。
优劣势:擅长在变量x和其他变量之间进行二元分类操作,无论其关系是否为线性的 。可以捕获数据之间更复杂的关系,而无需人为地进行困难的数据转换 。但同时它的训练时间长得多,因为计算量更大,而且可解释性也比较差 。
2.3 非监督学习概念:机器学习的一种,训练样本中所有样本数据都不含标记值的学习方式,目的是将样本集划分成多个类,保证同一类的样本之间尽量相似,不同类的样本之间尽量不同 。没有训练过程,直接对样本进行划分 。
分类:聚类和降维 。
主流算法:
1)k均值(k-means)
基本原理:将观测值分为 k 个聚类,随机初始化每个类的类中心,然后计算样本与每个类的中心的距离,将其分配到最近的那个类,然后根据这种分配方案重新计算每个类的中心 。这也是一种分阶段优化的策略 。
2)主成分分析(PCA)
基本原理:PCA是一种数据降维和去除相关性的方法,它通过线性变换将向量投影到低维空间,对向量进行投影就是让向量左乘一个矩阵得到结果向量 。降维要确保的是在低维空间中的投影能很好的近似表达原始向量,即重构误差最小化 。PCA是一种无监督的学习算法,它是线性模型,不能直接用于分类和回归问题 。
2.4 半监督学习训练样本中只有部分样本数据包含标记值的学习方式,当没有足够人力标记所有的样本数据,并且稍稍降低对模型预测精度的要求时,便可以使用半监督学习 。相比无监督学习会有较高的精度,相比有监督学习可以大幅降低人工标记成本 。
推荐阅读
- 一份不可多得的 TypeScript 学习笔记
- 儿童能喝普洱茶吗,喝普洱茶能减肥吗这样喝也许会有一点点效果
- 如何打造一款得心应手的VS Code?
- 一点隐私都没有了?聊天记录打码也不安全:大神亲自下场破解
- 局域网共享怎么设置都访问不了?别着急:一篇文章讲清了
- 水土不服的症状长痘痘
- 来月经前一天的症状
- 怀孕33天什么症状
- 俞敏洪|俞敏洪称新东方还有钱处理意外情况:努力拓展新业务 相信一切都会过去
- 腾讯|提供微信公众号“刷量”服务 一公司被判赔腾讯100万元