这5个方面分析产品数据 产品数据分析从哪方面入手


通过具体的项目案例,学习如何分析数据和业务问题 。
以下是社区成员的作业,通过对项目的修改给出建议,可以通过这个项目提高你的分析思维 。
一、数据介绍
这个数据集是由机器学习知识库根据一家英国电子商务公司2010年2月12日至2011年9月12日的真实交易数据集转化而来的 。该电子商务主要销售各种礼品,其主要客户是来自不同国家的经销商 。
数据源
数据集大小:4198764*8
数据集的含义:发票号、库存代码、描述、数量、发票日期、单价、客户ID、国家 。
数据集通过以下步骤进行分析:
二 。提问
根据对数据的初步了解,发现数据主要包括用户数据和产品数据 。
类数据包括用户ID、用户所在国家、用户购买次数(订单)、用户购买时间和用户购买数量 。
类数据主要包括产品ID、产品描述和产品单价 。
分析思路如下:
根据思维导图,提出以下问题:
1.客户可以做哪些分类?哪些客户最有价值?哪些客户最值得留住?
2.客户在哪里?顾客最多的国家?主要客户分布区域?
3.客户在什么时间段是活跃的?
4.4 .最畅销的10款产品有哪些?季节变化对产品的销售有影响吗?哪个季度或月份的销售额最好?
5.畅销产品的单价分布区域?
三 。清洗数据
1.选择一个子集
选择仅分析数据 。
有意义的字段,无意义的字段进行暂时隐藏 。通过观察发现每一个产品都有独特的StockCode(货物代码), 可以将该列进行隐藏 。
2.重命名列名
下载的数据列名称是英文的 。为便于分析,栏目名称改为公众熟悉的中文名称 。
3.删除重复值
根据unique列,删除了5226个重复值 。
4.缺失值处理和异常值处理
零负值:单价一栏,我发现有15879行零负值,不符合数据销售逻辑 。通过查看商品描述,发现单价为0的记录大多是次品或赠品的处理 。这类数据对于提出问题的分析是没有用的,所以删除 。
在数量一栏中,发现9288条记录为负数,发票号由首字母和数字组成,因此假设这些记录为退货记录 。决定分开存储这些数据 。
空值:通过过滤函数发现,客户ID缺失的客户主要集中在英国、法国、香港、以色列、巴林、葡萄牙、瑞士、Eire和不确定国家 。看数据集,发现缺套客户的同款商品单价高于有客户账户的价格,推测无账户交易为零售交易 。所以我把另一张表的这部分数据去掉了 。
5.统一处理
1)产品编号
通过筛选文章号,发现总共有三栏:纯数字类、数字加字母类、纯字母类 。
根据描述发现,纯数字是不同的商品,数字加字母是同一种商品的不同颜色或形状,纯字母是邮费或银行手续费 。所以纯信类的数据与我们正在研究的问题无关,可以删除 。并将数字物品编号转换成文本形式 。
2)发票号码
发票号直接转换成文本格式,无需计算 。选择发票编号的所有列,右键单击编辑格式,然后选择文本格式 。
6.补充必要的系列
计算公司的季度和月度销售额,所以需要增加每张发票和每种产品的总金额 。通过插入函数计算数量和单价的总和 。双击单元格的右下角,将其应用于所有列 。
三 。构建模型
清理完数据,就可以根据前面提出的问题和分析思路进行分析了 。
1 。客户可以做哪些分类?哪些客户最有价值?哪些客户最值得留住?
要回答这个问题,我们需要使用RFM模型对所有客户的客户价值进行分类 。RFM模式:
R(Recency):指最近一次消费 。
f(频率):指消费频率 。
m(钱):指消费金额 。
首先计算R值,F值,M值 。2011年12月9日之前的天数,在此期间的购买次数,以及单个客户的总购买次数 。其次,规范每一个价值 。
其次,设置R、F、M值的参考值 。在这个分析中,我选择了平均值作为参考值 。然后,将标准化的R、F和M值与其参考值进行比较,参考值大于1且小于0 。最后,对客户价值进行分类 。
客户价值分类,模型根据以下标准按照(2*2*2)分为8类 。
以下模型是通过以上述方式对数据建模而获得的:
【求职点评】选择哪张图表的标准是你能不能一眼理解这张图表的含义 。这里条形图是错的,因为很难一下子分辨出来 。因为这里的图表是RFM模型的可视化,有像这样的来回转换关系,如果不对条形图进行排序,很难区分 。但是如果排序的话,会打乱转换关系的顺序 。单一对比,用条形图和柱形图都没问题 。如果涉及到前后的换算关系,条形图就不适合了 。这里比较适合的是三维象限图 。如果能做到,那就更好了 。如果不能坐,也可以选择用柱形图 。


推荐阅读