Mr数据杨|数据化运营-优秀的运营人必备的数据预处理12条（下）( 五 ) 数据预处理是数据操作过程的重要组成部

2.更完整和原始的数据集。在选择和处理数据集时，应在时间，维度，来源等方面覆盖更多数据，并放宽甚至取消业务给定的数据过滤条件，这可以减少重复访问工作并使所有后续处理的需求降至最低程序。次要调整影响；为了减少数据量，请尝试优先选择直接选择而不是转换，以最大程度地满足企业对原始数据维度和指标的需求。
3.具有较强的可理解性和清晰规则的算法和模型。在确保一定程度的模型准确性的情况下，请优先选择具有较强可理解性和清晰规则的算法和模型，以减少由于业务不了解而导致的返工或着陆失败。
4.模块化工作方式。在大多数过程数据工作中，我们发现可以重复使用工作内容的许多基本功能模块。这意味着，如果我们需要第一次开发10个模块，那么我们可能仅需要第二次开发5个其他模块。五个模块可重复用于首次开发。第三次，只能开发三个附加模块。以此类推，随着项目的增加，越来越多的功能模块可以重复使用。尽管根据不同的场景和数据，同一模块将具有不同的实现方法，参数等，但这只是对原始模块的优化和升级。稍后阶段将形成更通用，更完整和更复杂的内容。具有使用功能的功能模块。这些功能模块不仅可以用来提高数据项目的效率，而且可以有效地响应业务需求的个性化和灵活需求的变化。
5.建立数据工作流程和机制
6.没有规则就没有标准。所有数据工作都应具有相应的流程和机制，以确保其正常运行。对于数据工作流程，有必要建立一个从数据需求到数据着陆的完整流程，其中需要包括响应需求变化的时间，频率，方法，范围和影响规范，以及批准和授权系统。（必须得到相应的批准。人员和领导同意），以便可以实施该系统。当然，仅靠系统是不够的，更重要的是要依靠实施！
内容扩展：预处理非结构化数据
网页数据分析
根据要爬网的实际数据，分析可能会生成哪些字段，将发生哪些冲突，包含关系以及相关效应。
业务常识分析
Web用户日志解析Web用户日志是一种非结构化数据。解析方法需要根据不同服务器和跟踪实现的自定义模块。
图像的基本预处理
主要内容包括：图片翻译、图像旋转、透视变换、转换为灰度图像、边缘检测、二进制图像、图像平滑、形态处理
自然语言文本预处理
1.基本处理：根据不同的文本数据源，可能涉及的基本文本处理包括：删除无效标签，编码转换，文档分段，基本错误纠正，删除空格，统一大写，删除标点，删除停用词以及保留特殊字符。
2.删除无效标签：例如，从网页的源代码获得的文本信息包含HTML标签。此时，应提取特定标签的内容，并删除标签。
3.编码转换：不同的编码转换对中文处理的影响更大，例如UTF-8 ， UTF-16 ， GBK ， GB2312等之间的转换。
4.文档分割：如果要获取包含多个文件的单个文档，则需要执行单独的分割以分离不同的文档。
5.基本错误更正：更正常见短语中的错误，例如文本和特定场景中的人物姓名和地名。
6.删除空格：需要删除文本中可能包含的大量空格和空白行。
7.大小写统一：将文本中的英文统一为大写或小写。
8.删除标点符号：删除句子中的标点符号，特殊符号等。
9.停用词：常见的停用词包括在上方，下方，上方，上方等的、、、、和。
10.保留特殊字符：在某些情况下，可能仅需要处理中文字符，英文或数字，而其他字符则需要过滤掉。
分词
分词是根据一定的逻辑将一系列连续的字符串分成单独的单词。在英语中，单词之间的空格用作自然定界符；在中文中，只有单词，句子和段落可以用明显的定界符简单地定界，但作为单词，则没有正式的定界符。因此，中文分词比英语和其他语言更加困难和复杂。对于复杂的中文分词，常用的分词方法包括最大匹配法，反向最大匹配法，双向匹配法，最佳匹配法，关联回溯法等。

Mr数据杨|数据化运营-优秀的运营人必备的数据预处理12条（下）( 五 )

推荐阅读

ROG|80多万人预约！ROG游戏手机3即将发售：3999元起

【新型冠状病毒肺炎】面对求助，她陪同就医还送上500元钱——不

『13人死亡』加拿大发生枪击事件至少13人死亡

这8类食物好吃又营养，别再犹豫了吃什么东西补肾

雀舌和毛尖的区别雀舌和毛尖有哪些区别

父母（主要是老妈）把我的房间搞得很丑搞得我现在住得很难受，求问怎样改造

3DMGAME|未来游戏展：实时战术潜行游戏《疯狂之石》预告发布

美军■美军双航母来我家门口秀肌肉！美媒：美国需要承认中国的影响力！

韩红迎战！被实名举报吞善款、贪污上亿？首次回应网友炸锅了

柯以敏|明明水平很一般，偏偏爱往“导师”堆里钻！

「日本」全球变暖有多严重？我国这2处地方不断下沉，可能比日本还要危险

天玑9000|ROG全球首发联发科天玑9000+满血灰烬版：CPU高达3.35GHz

「驱动之家」14s/15s新品命名：尺寸与系列更好分辨，联想详解Yoga

梦幻西游手游|真的值千万金币吗？，梦幻西游手游：玩家打出70级极品简易衣服

lol兽灵行者使用心得

中国经济网-《经济日报》|重庆：“半份菜”让顾客吃好不浪费

孩子喜欢扔东西,如何引导?孩子不肯收拾玩具-其实你只需要做好这几件事

城市汽车|宋MAX升级版呵护冬季出行健康安全，硬核操作不得不服

潮流新风|40岁+女人别乱扮嫩，学宁静的减龄穿搭法，48岁也能美成28

皇家马德里■2004年，奥尼尔被湖人拿出来交易，当时联盟各队报价如何？