Mr数据杨|数据化运营-优秀的运营人必备的数据预处理12条(下)( 五 )


2.更完整和原始的数据集 。 在选择和处理数据集时 , 应在时间 , 维度 , 来源等方面覆盖更多数据 , 并放宽甚至取消业务给定的数据过滤条件 , 这可以减少重复访问工作并使所有后续处理的需求降至最低程序 。 次要调整影响;为了减少数据量 , 请尝试优先选择直接选择而不是转换 , 以最大程度地满足企业对原始数据维度和指标的需求 。
3.具有较强的可理解性和清晰规则的算法和模型 。 在确保一定程度的模型准确性的情况下 , 请优先选择具有较强可理解性和清晰规则的算法和模型 , 以减少由于业务不了解而导致的返工或着陆失败 。
4.模块化工作方式 。 在大多数过程数据工作中 , 我们发现可以重复使用工作内容的许多基本功能模块 。 这意味着 , 如果我们需要第一次开发10个模块 , 那么我们可能仅需要第二次开发5个其他模块 。 五个模块可重复用于首次开发 。 第三次 , 只能开发三个附加模块 。 以此类推 , 随着项目的增加 , 越来越多的功能模块可以重复使用 。 尽管根据不同的场景和数据 , 同一模块将具有不同的实现方法 , 参数等 , 但这只是对原始模块的优化和升级 。 稍后阶段将形成更通用 , 更完整和更复杂的内容 。 具有使用功能的功能模块 。 这些功能模块不仅可以用来提高数据项目的效率 , 而且可以有效地响应业务需求的个性化和灵活需求的变化 。
5.建立数据工作流程和机制
6.没有规则就没有标准 。 所有数据工作都应具有相应的流程和机制 , 以确保其正常运行 。 对于数据工作流程 , 有必要建立一个从数据需求到数据着陆的完整流程 , 其中需要包括响应需求变化的时间 , 频率 , 方法 , 范围和影响规范 , 以及批准和授权系统 。 (必须得到相应的批准 。 人员和领导同意) , 以便可以实施该系统 。 当然 , 仅靠系统是不够的 , 更重要的是要依靠实施!
内容扩展:预处理非结构化数据
网页数据分析
根据要爬网的实际数据 , 分析可能会生成哪些字段 , 将发生哪些冲突 , 包含关系以及相关效应 。
业务常识分析
Web用户日志解析Web用户日志是一种非结构化数据 。 解析方法需要根据不同服务器和跟踪实现的自定义模块 。
图像的基本预处理
主要内容包括:图片翻译、图像旋转、透视变换、转换为灰度图像、边缘检测、二进制图像、图像平滑、形态处理
自然语言文本预处理
1.基本处理:根据不同的文本数据源 , 可能涉及的基本文本处理包括:删除无效标签 , 编码转换 , 文档分段 , 基本错误纠正 , 删除空格 , 统一大写 , 删除标点 , 删除停用词以及保留特殊字符 。
2.删除无效标签:例如 , 从网页的源代码获得的文本信息包含HTML标签 。 此时 , 应提取特定标签的内容 , 并删除标签 。
3.编码转换:不同的编码转换对中文处理的影响更大 , 例如UTF-8 , UTF-16 , GBK , GB2312等之间的转换 。
4.文档分割:如果要获取包含多个文件的单个文档 , 则需要执行单独的分割以分离不同的文档 。
5.基本错误更正:更正常见短语中的错误 , 例如文本和特定场景中的人物姓名和地名 。
6.删除空格:需要删除文本中可能包含的大量空格和空白行 。
7.大小写统一:将文本中的英文统一为大写或小写 。
8.删除标点符号:删除句子中的标点符号 , 特殊符号等 。
9.停用词:常见的停用词包括在上方 , 下方 , 上方 , 上方等的、、、、和 。
10.保留特殊字符:在某些情况下 , 可能仅需要处理中文字符 , 英文或数字 , 而其他字符则需要过滤掉 。
分词
分词是根据一定的逻辑将一系列连续的字符串分成单独的单词 。 在英语中 , 单词之间的空格用作自然定界符;在中文中 , 只有单词 , 句子和段落可以用明显的定界符简单地定界 , 但作为单词 , 则没有正式的定界符 。 因此 , 中文分词比英语和其他语言更加困难和复杂 。 对于复杂的中文分词 , 常用的分词方法包括最大匹配法 , 反向最大匹配法 , 双向匹配法 , 最佳匹配法 , 关联回溯法等 。


推荐阅读