：在一个机器学习项目中，你需要做哪些工作？

机器学习是通过对已有数据进行模型训练，再将训练好的模型应用于未知数据的过程。从这句话中我们可以看到几个关键要素：数据，模型，训练，应用。对于一个通常的机器学习项目，这些确实是其中最核心的环节。那么，对于其中每一个项目，我们具体要做哪些工作？这些工作之间有什么联系？在这些核心工作之外，还有哪些我们可能忽略的项目。本文我们来探讨这些问题。内容主要参考了
《Hands-On Machine Learning with Scikit-Learn and TensorFlow》一书。

文章图片

文章图片

总体框架
实际中，问题最初是从一个商业问题开始的，比如“如何预测某地区未来的房价是多少？”熟悉机器学习的同学可能会知道，这是一个典型的回归问题。但此时我们更应该思考问题本身与现有业务的联系，比如该项目的如何影响上下游的业务，而不是项目本身的细节。可以参考下面的框架：

文章图片

文章图片

将问题框架化并且关注重点
问题定义好了之后，就需要着手准备数据了。这个过程也不是盲目进行的，也需要考虑与之相关的很多细节。如数据源，存储空间，数据敏感性，获取成本等。下面的框架可以给我们一些提示。

文章图片

文章图片

获取数据
从获取数据开始，就进入我们上文提到的核心环节。探究数据和可用性，分布，可视化等非常必要，也能帮助我们进一步思考数据与最终目标的联系。这一环节通常被称为探索性分析，具体可以参考下面的步骤。

文章图片

文章图片

探索数据
上一步骤中认识了数据，结合前面对于问题的定义，接下来就需要对数据进行预处理。通常包含两部分工作：数据预处理和特征工程。预处理的部分包括异常值，缺失值，重复值等；特征工程则包括特征提取，特征构建，特征缩放，特征融合等环节。这一环节通常会特别耗时，甚至可能会占用绝大多数的时间，下面的步骤虽然不是面面俱到，但也能给我们一些参考。

文章图片

文章图片

准备数据
处理完数据，我们来看模型。机器学习有很多经典的模型，可以用于分类，回归，聚类，关联分析等方面，要根据我们的目标问题选择合适的模型，还要选择合理的评估指标对模型做合理的评价。模型与上一步的特征紧密相关。需要经过多次迭代之后才能找到更合适的模型。这一环节的训练测试耗费的精力可能不亚于上一步骤的特征工程。模型中超参数的选择可能有很多技巧，也是需要经验知识来支撑，并且可能会用到很多优化技巧，如贝叶斯优化方法。

文章图片

文章图片

：在一个机器学习项目中，你需要做哪些工作？

推荐阅读

『精灵故事』排毒养颜的——自制蜂蜜菠萝酵素汁

时间在撒谎|史上罕见，被传为佳话！，古代这位皇帝用一生专宠一个女子

北京昌平|日晕、七彩云罕见同框，速看！

【汽扯扒谈|巨型双肾隐约可见，6月正式发布，全新宝马4系官方预告流出】

诡异的血月传说血月可怕传说

为啥其他动物固定季节发情，人类随时都可以

冷冻毛豆怎么煮好吃

「全省工商界人士」携手治污攻坚共建美丽广东

广州番禺一民房起火消防员救出15名群众

茶籽渣可以做肥料吗茶籽渣怎么做肥料

四川一精神病人电梯内砍死8岁男童-遂宁8岁男童电梯内被砍死

黑枣和红枣的区别在哪里黑枣和红枣的区别在哪里中药

嗜酸性粒细胞比率高有哪些原因

|昆明电子竞技公开赛决出两“王者”

科学家在南极发现“外星”尘埃

黎彼得|黎彼得封笔23年重返词坛！期望与许冠杰再合作，曾创造多首经典

汽车|美股三大指数集体收跌小鹏汽车逆市大涨逾33%

「不占用村」继禁止私搭乱建后，墙外种菜或将被禁，农民不解，为啥不让种！

二等分打印纸尺寸设置送货单!电脑打印纸三种等分是什么尺寸?

青年|女网红的化妆台，薇娅周扬青挺好，看到程晓玥：这么不讲究？