找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 304|回复: 3
收起左侧

[留学生活] 这个著名的统计学悖论,第一次听说会颠覆你的认知

[复制链接]
发表于 11-26-2018 08:45 PM | 显示全部楼层 |阅读模式

亲!马上注册或者登录会查看更多内容!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
这个著名的统计学悖论,第一次听说的人很可能怀疑人生

作者:七君  来源:把科学带回家

你注意到这种现象没有:我们平时在做重大决策的时候,比如择校啊,选专业啊,总是会参考这些比较对象的硬指标,比如它们的录取率啊,就业率啊等等。像是,哪个学校的就业率高,我们就会去报考这个学校。

没错,统计数字可以帮助我们了解这些比较对象的优劣,让我们做出明智的决策。不光是个人,公司和国家也是这样做决策的。但是,这样做真的都对吗?

答案是:其、实、不、对!

我们今天就来介绍一个让人非常头疼,但非常有用的悖论,它会告诉你:很多时候统计数字相当不可靠,特别容易误导人!

我们先来看一个假设的例子——

小明得了慢粒白血病,她失散多年的哥哥找到2家比较好的医院——医院A和医院B供小明选择就医。

小明的哥哥经多方打听,搜集了这两家医院的统计数据,它们是这样的:

A医院最近接收的1000个病人里,有900个活着,100个死了。

B医院最近接收的1000个病人里,有800个活着,200个死了。

作为对统计学懵懵懂懂的普通人来说,看起来最明智的选择应该是A医院对吧,病人存活率很高有90%啊!总不可能选B医院吧,存活率只有80%啊。

如果小明的选择是A医院,那么她就中计了。

这么说吧:如果A医院最近接收的1000个病人里,有100个病人病情很严重,900个病人病情并不严重。

在这100个病情严重的病人里,有30个活下来了,其他70人死了。所以病重的病人在A医院的存活率是30%。

而在病情不严重的900个病人里,870个活着,30个人死了。所以病情不严重的病人在A医院的存活率是96.7%。

如果在B医院最近接收的1000个病人里,有400个病情很严重,其中210个人存活,因此病重的病人在B医院的存活率是52.5%。

有600个病人病情不严重,590个人存活,所以病情不严重的病人在B医院的存活率是98.3%。

如果制成表格,就是这样的——

A医院

病情
死亡
存活
总数
存活率
严重
70
30
100
30%
不严重
30
870
900
96.7%
合计
100
900
1000
90%

B医院
病情
死亡
存活
总数
存活率
严重
190
210
400
52.5%
不严重
10
590
600
98.3%
合计
200
800
1000
80%

可以看到,在区分了病情严重和不严重的病人后,不管怎么看,最好的选择都是B医院。但是只看整体的存活率,A医院反而是更好的选择了。所谓远看是汪峰,近看白岩松,就是这个道理。

这是不是有点让人很抓狂?万一我们真的患上了什么病,又遇到了这种类似的情况,岂不是会让自己掉坑里?大韩民国这么多小明就是因为这个原因去世的吗?到底这是怎么回事?

实际上,我们刚刚看到的例子,就是统计学中著名的黑魔法之一——辛普森悖论(Simpson's paradox)。“辛普森悖论”最初是英国数学家爱德华·H·辛普森(Edward H. Simpson)在1951年发现的。

“辛普森悖论”就是当你把数据拆开细看的时候,细节和整体趋势完全不同的一种现象。

辛普森悖论:同一组数据,整体的趋势和分组后的趋势完全不同。

从统计学的观点来看,出现“辛普森悖论”的原因是因为这些数据中潜藏着一个魔鬼——潜在变量(lurking variable),比如在上面这个例子里,潜在变量就是病情严重程度不同的病人的占比。

其实,“辛普森悖论”在我们的日常生活中层出不穷、俯首皆是。

而最著名的“辛普森悖论”的实例就是1973年加利福尼亚大学伯克利分校“性别歧视案”的例子。

我们从下面的表格里可以看到:如果只看整体录取率,男生的录取率是44%,女生的是35%。

如果不求甚解的话,一般人肯定会得出这样的结论:女生被歧视了。打算申请这所著名大学的女生要是看到这样的数据,八成肺都气炸了。

男生
女生

申请人数
录取人数
申请人数
录取人数
合计
8442
44%
4321
35%

但是,别急,现在我们把上面的数据按照院系拆分,再来看看每个系的录取率:
院系
男生
女生
申请人数
录取比例
申请人数
录取比例
A
825
62%
108
82%
B
560
63%
25
68%
C
325
37%
593
34%
D
417
33%
375
35%
E
191
28%
393
24%
F
373
6%
341
7%

结果我们看到,在6个院系的4个里,女生的录取率大于男生,女生只在2个院系里容易折戟。加利福尼亚大学伯克利分校的统计学教授Peter Bickel后来发现,如果按照这样的分类,女生实际上比男生的录取率还高一点点!

Bickel教授认为,在这个案例中,“辛普森悖论”出现的原因是,女生更愿意申请那些竞争压力很大的院系(比如英语系),但男生却更愿意申请那些相对容易进的院系(比如工程学系)。

“辛普森悖论”真是太奇怪了。

相反的情况是下面这个经典的“佛罗里达死刑悖论”:

在1991年,科罗拉多大学的统计学家 Michael L. Radelet 和东北大学的社会学研究院主任 Glenn Pierce 重新查看了1976-1987年间美国佛罗里达州谋杀案的审判数据,发现了重大的司法不公正事件。

仅从归总的数据来看,佛罗里达的法官在审判的时候并没有偏向白人,因为白人嫌疑人的死刑率甚至比黑人还高一些:
嫌疑人种族
死刑人数
非死刑人数
死刑百分比%
白人
53
430
11
黑人
15
176
7.9

然而,如果按照被害人的种族来分割数据的话,我们就会看到很不一样的结果了——黑人比白人更容易被判死刑:
被害人种族
嫌疑人种族
死刑人数
非死刑人数
死刑百分比%
白人
白人
53
414
11.3
白人
黑人
11
37
22.9
黑人
白人
0
16
0
黑人
黑人
4
139
2.8

从中你可以很明显地看出,不管被害人是什么种族,黑人比白人被判死刑的比率要高。

不仅如此。分类后的数据显示,如果受害人是白人,那么嫌疑人就更容易被判死刑。如果被害人是黑人,嫌疑人被判死刑的可能性很低。

那么,我们要怎样才能避免“辛普森悖论”呢?

答案是……很难!

所以,不少统计学家认为:“辛普森悖论”的存在,让我们不可能只用统计方法来推导出准确的因果关系。

原因是,数据可以用各种各样的方式来分类、比较,所以从理论上来说“潜在变量”无穷无尽,我们总是可以用某个“潜在变量”得到某种结论。

所以,对于那些不怀好意的人来说,他们总是很容易对数据进行拆分或者归总,得到一个对自己有利的结果或指标,从而来迷惑甚至操纵他人或某件事。

同样地,医学和社会学的研究者也常常会遇到“辛普森悖论”,从而得出错误的结论。

“辛普森悖论”完美地阐释了这句古老的哲学寓言:“假如一棵树在森林里倒下而没有人在附近听见,它有没有发出声音?”如果有一个邪恶的“潜在变量”逃脱了你的眼睛,那么统计数字得出的结论还可信吗?

由此可见,我们能做的,就是仔细地研究分析各种因素的影响,不要笼统概括地、浅尝辄止地看问题,应该学会从纷乱的现象中找到本质,这样才能不被那些眼花缭乱的统计数字所迷惑。比如我们常听说的“经济总量”和“人均收入”……

什么?你要我举个利用“辛普森悖论”操纵别人的例子?

这很简单啊。那些常说“我是聪明的小朋友里最漂亮的,漂亮的小朋友里最聪明的”小孩,一般都是既不_____,也不_____的。

类似的例子还有很多,你自己想吧。


本文转自:天狐观点

0

主题

0

精华

10

积分

新米人

Rank: 1

积分
10
发表于 11-26-2018 08:46 PM 来自美国米群网手机版 | 显示全部楼层
楼主万紫千红帖子好赞~~~
回复 支持 反对

使用道具 举报

0

主题

0

精华

0

积分

新米人

Rank: 1

积分
0
发表于 11-29-2018 01:54 AM | 显示全部楼层
好帖
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表