Mr数据杨|数据化运营-优秀的运营人必备的数据预处理12条(下)( 六 )


文本到矢量(word2ver)
人们通常使用向量空间模型来描述文本向量 , 即文档被用作一行 , 并且在分词之后获得的词(向量空间模型中的词称为向量 , 也称为特征 , 维或维)用作列 , 矩阵的值为 。 它是通过字频统计算法获得的值 。 这种空间矢量模型也称为文档特征矩阵 。
内容概要:本章介绍了数据操作过程中的12种数据预处理经验 , 涵盖了常见的数据清洗 , 徽标转换 , 数据降维 , 样本不平衡 , 数据源冲突 , 采样 , 共线性和相关性分析 , 数据标准化 , 数据离散化 , 等等 , 最后提出了运营业务对数据处理的影响和对策 。 扩展内容简要介绍了网页 , 日志 , 图像和自然语言的文本预处理 。
客观地说 , 本章的每个部分都非常重要 。 原因是没有对所有内容的单一答案 。 要求读者根据不同的情况进行判断 , 然后选择最合适的处理方法 。 因此 , 掌握每种方法的适用条件以及如何区分其应用前提是关键 。


推荐阅读