难于预测|归因分析指南v1.0( 四 )


简单来说,同一组数据,整体的趋势和分组后的趋势完全不同。从统计学家的观点来看,出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼——潜在变量lurking variable。
 难于预测|归因分析指南v1.0
文章图片
最著名的辛普森悖论的实例,就是1973年加利福尼亚大学伯克利分校性别歧视案的例子。如果只看整体录取率,那么男生的录取率是44%,女生的是35%。而如果拆开来看,在6个院系的4个里,女生的录取率大于男生。如果按照这样的分类,女生实际上比男生的录取率还高一点点。在这个案例中,辛普森悖论出现的原因是,女生更愿意申请那些竞争压力很大的院系(比如英语系),但是男生却更愿意申请那些相对容易进的院系(比如工程学系)。这不就是归因所要挖掘的洞见吗?
 难于预测|归因分析指南v1.0
文章图片
不少统计学家认为,辛普森悖论的存在,提醒我们不可能光用统计数字来推导准确的因果关系。因为数据可以用各种各样的方式分类,然后再进行比较,所以理论上潜在变量无穷无尽,你总是可以用某个潜在变量得到某种结论。
我们能做的,就是仔细地研究分析各种影响因素,把各种分类方式(不同模型)对比研究分析。
以上为全文,总结下:
归因是描述因果关系的一种分析方法,我们需要明确影响因素,在影响因素的范围下进行归因分析。
各个领域的应用,需要结合业务具体的情况,设定一些基本的假设,例如数字营销有点击归因等模型,投资决策有分配、选择、相互作用的模型。
产品上,不仅仅是归因,还要解决洞察问题。洞察实际上就是有趣的结论,我们可以使用机器学习自动挖掘到有趣的结论(结合洞察分类)
产品最小闭环:度量-优化-计划。
归因除了基于规则的实现,还有机器学习的实现方式,称为算法归因。
归因也可以从辛普森悖论里获得结论。
参考文献:
https://agencyanalytics.com/blog/marketing-attribution-models
https://zhuanlan.zhihu.com/p/90165817
https://arxiv.org/pdf/1703.01365.pdf
https://www.microsoft.com/en-us/research/uploads/prod/2016/12/Insight-Types-Specification.pdf
https://www.microsoft.com/en-us/research/uploads/prod/2019/05/QuickInsights-camera-ready-final.pdf
相关链接、更多资料查阅
???
「 Mix+人工智能 」 专刊
每期由mixlab社区精选。收录人工智能的相关内容,包括AI产品、AI技术、AI场景、AI投资事件、AI的思维方式等,MIX的主题包括:AR、VR、计算设计、计算广告、智能设计、智能写作、虚拟偶像等。
智能时代,人与人之间的差距,体现在AI使用能力上
To Be Continued
【 难于预测|归因分析指南v1.0】……


推荐阅读