1 笨笨的孩子慢慢学 stay hungry stay foolish 2 学习,思考,实践,改变

0%

20200204 统计学之辛普森悖论

1 例子引入

医院 A 和医院 B 哪个更好?

医院 A 最近接收的 1000 个病人里,有 900 个活着,100 个死了。

医院 B 最近接收的 1000 个病人里,有 800 个活着,200 个死了。

粗略的看起来 A 的存活率更高,也许 A 更好。但是如果考虑更细致的重症病例存活情况呢?

病情 死亡 存活 总数 存活率
严重 70 30 100 30%
不严重 30 870 900 96.7%
合计 100 900 1000 90%
医院 A
病情 死亡 存活 总数 存活率
严重 190 210 400 52.5%
不严重 10 590 600 98.3%
合计 200 800 1000 80%
医院 B

这样来看是否 B 更好呢。

2 统计学之辛普森悖论

这个例子就体现了统计学里的辛普森悖论(Simpson’s paradox)辛普森悖论最初是英国数学家爱德华・H・辛普森(Edward H. Simpson)在 1951 年发现的。

辛普森悖论的不同解释:1,当你把数据拆开细看的时候,细节和整体趋势完全不同的现象。2,分组的数据点各自表现出某一个方向的相关性,在聚集时却表现出相反方向的相关性。说明数据不是绝对客观的。

20200204Data_SimpsonParadox

从统计学家的观点来看,出现辛普森悖论的原因是因为这些数据中潜藏着一个魔鬼 —— 潜在变量。比如在上面这个例子里,潜在变量就是病情严重程度不同的病人的占比。

我们能做的,就是仔细地研究分析各种影响因素。需要选择将数据分组或将它们聚合在一起。这似乎很简单,但我们如何决定做哪个?答案是学会思考因果关系:数据如何生成,基于此,哪些因素会影响我们未展示的结果?

仅有数据还不够。数据绝不是纯粹客观的,特别是当我们只看到最终的图表时,我们必须考虑是否明白整个事件。

为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。

3 思考

这个跟推荐系统里的隐变量很相似啊。直接数据只是用户表现(浏览数据,点击结果),而内在的隐变量则代表了同一类用户的行为习惯,其中不也是有因果关系的存在嘛。

Reference

1, https://zhuanlan.zhihu.com/p/47867414 机器之心 辛普森悖论

2,公众号 “把科学带回家”

3, MBA 智库 辛普森悖论)

Powered By Valine
v1.5.2