1 笨笨的孩子慢慢学stay hungry stay foolish 2 学习,思考,实践,改变

0%

20200204统计学之辛普森悖论

1 例子引入

医院A和医院B哪个更好?

医院A最近接收的1000个病人里,有900个活着,100个死了。

医院B最近接收的1000个病人里,有800个活着,200个死了。

粗略的看起来A的存活率更高,也许A更好。但是如果考虑更细致的重症病例存活情况呢?

病情 死亡 存活 总数 存活率
严重 70 30 100 30%
不严重 30 870 900 96.7%
合计 100 900 1000 90%
医院A
病情 死亡 存活 总数 存活率
严重 190 210 400 52.5%
不严重 10 590 600 98.3%
合计 200 800 1000 80%
医院B

这样来看是否B更好呢。

2 统计学之辛普森悖论

这个例子就体现了统计学里的辛普森悖论(Simpson’s paradox)辛普森悖论最初是英国数学家爱德华·H·辛普森(Edward H. Simpson)在1951年发现的。

辛普森悖论的不同解释:1,当你把数据拆开细看的时候,细节和整体趋势完全不同的现象。2,分组的数据点各自表现出某一个方向的相关性,在聚集时却表现出相反方向的相关性。说明数据不是绝对客观的。

20200204Data_SimpsonParadox

从统计学家的观点来看,出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼——潜在变量。比如在上面这个例子里,潜在变量就是病情严重程度不同的病人的占比。

我们能做的,就是仔细地研究分析各种影响因素。需要选择将数据分组或将它们聚合在一起。这似乎很简单,但我们如何决定做哪个?答案是学会思考因果关系:数据如何生成,基于此,哪些因素会影响我们未展示的结果?

仅有数据还不够。数据绝不是纯粹客观的,特别是当我们只看到最终的图表时,我们必须考虑是否明白整个事件。

为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。

3 思考

这个跟推荐系统里的隐变量很相似啊。直接数据只是用户表现(浏览数据,点击结果),而内在的隐变量则代表了同一类用户的行为习惯,其中不也是有因果关系的存在嘛。

Reference

1, https://zhuanlan.zhihu.com/p/47867414 机器之心 辛普森悖论

2,公众号“把科学带回家”

3, MBA智库 辛普森悖论)