在统计数据上撒谎

新京十大正规网站希望你对统计数据的骗子有心理准备. 这就是为什么新京十大正规网站向你介绍一些他们最喜欢的把戏和杂耍. 请记住:尽管统计数据名声不好,但它们非常重要. 德国统计学家伊丽莎白•诺埃尔-诺伊曼(Elisabeth Noelle-Neumann)说:“对我来说, 统计是负责人员的信息媒介. 那些知道如何处理这些问题的人就不会那么容易被操纵. “你可以用数据证明任何事情”这句话只适用于那些不想仔细观察的懒人.’

隐变量

在一项(虚构的)研究中,收集了各种职业的平均死亡年龄. 这项研究的结果令人吃惊. 飞行员和职业足球运动员的平均死亡年龄在60岁以下, 教师和医生的寿命明显更长. 这是什么原因呢? 危险的工作环境,足球场上的压力太大,太多的飞机事故? No. 原因是在这项研究中, 职业的比较是不能直接比较的, 因为第三个变量(除了职业和年龄)扰乱了调查:平均年龄. 真正的职业足球运动员在60年代才出现,航空工业在过去几年中呈指数级增长. 相应的, 平均而言,年轻飞行员和职业足球运动员要比年轻教师或医生多. 如果一名足球运动员或飞行员在年轻时因事故或疾病死亡, 这些案例比其他行业更有分量, 因为它们被更少的高龄死亡病例所抵消.

精确的巧言

人靠衣装,数字靠数字——数字越精确, 新京十大正规网站就越信任他们. 这个把戏在古希腊已经为人所知:希罗多德在波斯战争后写道,敌人的军队数为5,283,220人. 尽管历史学家过分夸大了事实(实际数字接近15,000), 他给人留下了非常深刻的印象,希腊人的胜利闪耀着光辉. 另一个例子来自英国神学家约翰·莱特福特(John Lightfoot),他深知精确的力量:“天堂、大地以及随之而来的一切, 是由三位一体在同一时刻创造的:在星期天, 10月21日, 4004 BC, 早上9点. 谁能如此准确地质疑世界诞生的日期呢? 但作为一种说服手段的虚假准确性并不是过去的事情:如果今天的一份经济报告说德国人每年只做1件事,450,000,加班000小时, 这个数字应该谨慎对待. 以德国约4000万名员工为基础计算,这个数字正好是36.每人每年加班25小时. 真实的数字同样可能是每人33到40小时之间的任何数字. 因此,更诚实的说法是,据估计,德国的加班时间在10亿到20亿小时之间.

平均的幻想

“我对统计数据有点怀疑。. 罗斯福,美国第32任总统. “因为据统计,一个百万富翁和一个穷小子各有50万.如果一个统计学家把一个百万富翁和一个没有钱的人的财富加起来, 把和除以二, 他计算出两个半百万富翁. 这听起来有点夸张,但它指向了统计学中的一个问题. 统计学中的“平均数”指的是 算术平均值. 每次都有一个组中的极端值, 对平均值应该持保留态度——尤其是如果样本不是很大的话. 但这在一个大的样本中不是水平的吗? 让新京十大正规网站以马萨诸塞州的一个小镇为例,000户:平均, 家庭收入可能是60美元,每户每年1万美元(假设这是一个相当富裕的地区). 第二年,金一家要搬到这个小镇. 由于拥有一家贸易公司,他们的家庭年收入达到2亿美元. 统计, 这个小镇现在不再每年挣6亿美元了,000个家庭,60美元,000), 但是8亿美元. 据统计,现在的平均家庭收入是8万美元. 因此,即使在较大的群体中,极端值也不会失去对平均值的影响. 算术平均数有一个竞争者:中位数. 如果统计学家用算术平均数计算7名律师的平均月收入, 他把收入加在一起,000 + 2,000 + 5,000 + 7,000 + 10,000 + 20,000 + 95,000 = 140,000),然后将结果除以7 (140,000 / 7 = 20,000). 每个律师似乎每个月都能赚到令人印象深刻的2万美元. 然而,中位数告诉新京十大正规网站,平均值是7000美元. 这个值正好位于中间——3个律师收入较低,3个收入较高. 如果一个律师的平均收入是20美元,000 or 7,每月000英镑取决于算术平均值和中位数之间的选择.

敷衍了事的基础

想象一下报纸标题:“妻子再次被谋杀——婚姻是危险的”. 负责任的编辑之所以得出这个结论,是因为统计数据显示,75%的女性是被丈夫谋杀的. 宣称婚姻是一件危险的事情是一种谬误. 作者只看了数据库的一个子集:正确地说,他不应该问有多少已婚妇女是被丈夫杀死的, 但与未婚女性相比,有多少已婚女性死于暴力. 让新京十大正规网站以代尔县的小镇为例. 在这个镇上,去年(对当地警察来说,这不是一个很好的年份),有三个已婚妇女被她们的丈夫殴打致死. 除此之外,还有一名未婚女子被谋杀. 因此, 平均75%的被谋杀女性是被丈夫杀害的(总共四分之三的谋杀受害者). 代尔县有6000名已婚妇女和1000名未婚妇女. 因此,暴力死亡的可能性是二分之一,已婚妇女为000人(6,000名女性), 但是1 / 1,单身女士$ 000. 结论是,结婚戒指显然是代尔县的救命稻草(排名第二,仅次于搬离该地区).

双面的趋势

The climate is changing, the sea level rises; does this mean that the U.S. 会很快被淹没吗? 逻辑结论. 但实际上,气象学家无法预测全球变暖的确切影响. 即使是最严格的预测也只能有条件地进一步进行. Assuming the average height of an 18-year old in 1970 was 5’’11; 20 years later the average young man was measuring 6’’1. 即使典型的身高在2010年进一步增长到6英寸3英寸——再过20年, 你不能毫不犹豫地把这种趋势发展到无限,再过20年再说, in 2030, 18岁男人的平均身高是6英尺7英寸.

狡猾的样品

“你们接受来自核电站的核能吗??如果你问10个绿色和平组织的活动人士和10个发电厂的员工, 你可能会得到10个“是”和10个“不是”的答案. 样本,即参与研究的人,可以以这样或那样的方式选择. 一个坚定的环保主义者可以很容易地证明他的假设“大多数人不赞成核能”,主要是询问环保人士. 但对样本的操作也可以更加微妙. 如果你想证明人们已经变得越来越冷漠, 你应该在晚上8点到10点之间通过打电话给家里的人来进行调查. 调查中包括更多家丑的人的可能性自然上升——这与年龄无关, 性, 收入或地区. 如果你在周日下午在公园里进行同样的调查,结果可能会相反. 因此,专业研究人员不仅包括不同的目标群体,而且还确保访谈在不同的工作日进行,方法包括电话访谈和公共场所的访谈(e.g. 在街上).

模糊的问题

同一位环保主义者还问:“你是否也支持保护环境,反对使用核能??’. 很多受访者会肯定,因为他们不想被视为环境坏人. 与此同时,他们也被归类为核对手. 隐晦的问题是一个很好的操纵工具. 问题是, 一旦统计数据公布,原来的问题就不再被提及. 标题可以是:88%的美国人.S. 市民拒绝吃牛肉,这对所有养牛者来说都是一个打击. 谁会想到, 潜在的问题是:“你能想象在各种食品丑闻发生后减少牛肉消费吗?, 疯牛病的威胁以及肉类中寄生虫(如线虫)的更高发病率?’.

复杂的图形

统计数据的图形表示经常因为表面原因而得到改进. 最重要的是要记住比例. 图表强调重要的数据点,以使统计结果更容易理解——但有时它们会过头,甚至是错误的. 这种误导性的图表经常出现在各种媒体上. 编辑器可以通过为间隔选择不同的长度或不在零点开始条来操作音阶.

虔诚的百分比

ABC党庆祝他们的女性配额增加了100%——这听起来令人印象深刻. XYZ党不得不内疚地承认,他们只能增加20%的女性份额. 但有多少女人? 假设ABC党有四名代表,现在又增加了四名. 这实际上是百分之百的增长. 最后,在100多名代表中,ABC党现在有8名女性. 因此,女性代表的绝对比例只有8%. 在另一边, XYZ党在他们的100名代表中已经有40名女性——女性比例已经达到40%. 如果他们再增加8位女士, 他们只能要求增加20%, 但事实上,如果他们宣称自己的女性代表人数比ABC党多100%(8人而不是4人),这对他们来说是有利的。. 或者强调他们的议会政党的女性代表比ABC集团多400%(多32名). 你看:你几乎可以用百分比来声明任何东西. 让新京十大正规网站来看看另一个例子,一个雄心勃勃的小酿酒师,他自豪地说,他的白葡萄酒已经卖出了57%, 30%的红酒和13%的起泡酒. 谁能想到,这位年轻的葡萄酒商今年已经卖出了13瓶长相思, 7瓶赤霞珠和3瓶气泡酒给他的顾客?

隐藏现实

不断下降的失业率总是受到当局的欢迎. 随后,没有人会问谁是失业者,他们的人数是如何计算的. “失业的人就是没有工作的人”——这听起来很有道理,但很天真. 失业的定义是一个人在一定年龄积极寻找工作,但无法找到工作. 百万富翁的妻子, 长期学生, 未在有关部门登记的求职者和残废养老金领取者没有工作, 但也不计入官方统计数据. 只要读者不知道, 失业数字是如何计算的, 统计数据不会造成任何伤害. 但如果统计学家把手伸进他的魔法帽子,给新京十大正规网站一个数字, 只有他自己知道这是怎么回事, 新京十大正规网站应该持怀疑态度. 如果你想了解经济发展, 为社会保障制度缴费的人数比失业数字更能说明问题.

令人惊讶的概率

基于纯粹的直觉,并不是每个(统计)事件的概率都能正确地捕捉到. 让新京十大正规网站想象一下:你刚刚在一个热带国家度过了三个星期的假期. 据新闻报道,红热病开始在那个国家蔓延. 建议所有游客都去做这种疾病的检测. 第二天, 你的医生告诉你,该测试对不携带病毒的人有1%的默认值,对感染者没有错误. 这是什么意思? 在接受测试的100名健康人中,有99人被认为是健康的. 一个人会被宣布生病,尽管她实际上是健康的. 如果一个人生病了,测试结果会清楚地显示这一点. 两天后,你又去看医生. 与此同时,你已经研究过,从这个热带国家来的游客中,只有千分之一染上了这种病. 你想得很积极,但随后你得到了一个令人震惊的结果:测试表明你被感染了. 你真的得了红热的可能性有多大? 你的直觉告诉你“大约99%”意味着非常高的概率. 但这是正确的吗? 让新京十大正规网站做个数学计算:假设大约是100,从你的度假目的地回来的000名游客已经接受了红热病测试. 每一千名游客都会被感染, 在这100人中会有大约100个病人,000名游客. 测试将正确识别所有100名感染者. 在99900名健康人中,99%的人将被正确检测为“未感染”. 但是在那些没有被感染的人中,有1%的人会得到“感染了红热”的检测结果。. 在99900人的群体中,这是令人印象深刻的999人. 总共有100人被正确诊断为患病,999人被误诊. 你被真正感染的概率不是“大约99%”,而是只有9%.计算方法:100例感染者/(100例感染者+ 999例误诊)= 0.09.

这就是在概率问题上你应该相信自己直觉的程度.   关于这个话题有很多有趣的书, 其中一些是本文的灵感来源. 如果你对一个全面的介绍感兴趣,新京十大正规网站推荐 “傻瓜统计” 黛博拉·拉姆齐.

请注意统计百科全书中的定义 术语的解释是简化的吗. 新京十大正规网站的目标是 the definitions accessible for a broad audience; thus it 有没有可能有些定义并不完全符合 达到科学标准.

友情链接: 1 2 3 4 5 6 7 8 9 10