搜索
查看: 3714|回复: 0

如何迅速戳穿迷惑众人的数据“假象”

[复制链接]

218

主题

4

回帖

5051

积分

论坛元老

积分
5051
发表于 2015-6-25 16:03:50 | 显示全部楼层 |阅读模式
当复杂的数据又多又快地扑向我们身边时,我们简直被这“乱花渐欲迷人眼”的数据景象蒙蔽了,看着一份份调查数据,好像都是证据确凿,很难让人产生怀疑。这些数据真的是客观的吗?真的是真实可信的吗?那可不一定。一旦统计数据被“假包装”了,我们还真需要一些方法来戳穿这些假象。
难辨虚实的抽样
  
调查问卷你肯定知道,多半还做过。在统计上,问卷调查属于抽样调查。再大规模的抽样调查,都可能存在着意想不到的“假象”。不妨让我们穿越到 1936 年的美国,看一个被许多书本都引用过的实例吧。
  
1936  年美国总统大选在即,当时一本著名杂志 《文学文摘》  就在读者中做了一次问卷调查,断言共和党的兰登即将以 57% 对 43% 的绝对优势大胜民主党的罗斯福——这可是根据 240 万份调查问卷得到的结果。这么大规模的调查,如同宣告了兰登的胜利,可是,最后的结果却让人大跌眼镜:罗斯福以 62% 的支持率成功连任美国总统。出现了这个戏剧性的丑闻后,《文学文摘》业绩直接掉落为零,最后竟然倒闭了。
  
现在看来,《文学文摘》的调查问卷虽然数量庞大,但是样本构成大有问题。首先,最可能看到这个调查的是这个杂志的常客,而他们参加调查的动机各有不同。另外,这个话题更能引发人的兴趣,有些则只是很少的人关心。这都会导致最终参加调查的人是一个有偏的样本。结论可能代表了这些人群,却不能推广到全体。
  
其次,问卷的回收率只有 24% ,忽略那些没有被回收的问卷就等于是忽略了剩余 760 万人的意见。《文学文摘》杂志社还通过电话调查的方式对自己的读者进行了抽样,但在 1936 年,并不是每一个家庭都能装得起电话——那些订阅杂志、用电话的人家往往都是有钱的人,他们并不能代表全美国的选民意见。最终,这些看起来不算起眼的问题对他们的预测结果产生了巨大影响,事情的发展也走向了完全相反的方向。
  
  
暗流涌动的图表
  
为了让没有直接接触数据的人也能直观地感受到其中的一些信息,人们发明了各种各样漂亮的统计图表。但是就是“客观”的图表里面也存在着各种各样的陷阱。
  
在制作统计图表时,一个常用的欺骗手法便是改变统计图形的坐标尺度,从而改变了整个图形的陡峭程度。
  
当然,还有比拉伸图表更隐蔽的手法。比如有一组罗坦提亚和美国的木匠平均周收入,如果做成条形图就会大相径庭。为了视觉效果,它被做成更形象的卡通图,这其实暗中改变了人们对这个统计事实的印象。
  
图表的差异随着大数据可视化的发展会带来越来越严重的“可能性假象”。现在的数据可视化效果越来越多,国内的大数据魔镜的可视化效果已达到500多种。可以想象,在接下来的几年内,可视化将是大数据发展的一个重要方向。当这个方向越走越深,可能出现的偏差也可能会增大。
  
  
如何戳穿“数据假象”
  
既然有了这些很容易让公众迷惑的统计假象,那当我们看到各类统计数字时,应该如何判断它是否客观呢?
  
首先要细心寻找统计中的偏差。比较明显的是在描述上有意识进行的偏差。比如滥用平均数等带来的问题:“我们工厂 3000 人,月平均工资有 5000 块。”看起来比较不错的待遇,实际上可能是一个月薪 100 万的老总加上每个月拿着可怜薪水的上千名工人简单平均起来的结果。同时报道中常常声称的“升高”和“下降”并不一定真的如此。在面对类似“这段时间气温异常升高,热浪持续一周导致城市死亡人数激增至 300 人”这样的标题时,我们往往要小心这里所说的“激增”是否属实。一个一定规模的城市在一周内有 300 人死亡并不算是异常的数字,而热浪实际上是一个没有多少分量的因素。
  
其次我们要寻找潜伏着的无意识偏差,这种偏差带来的结果往往影响更深远——《文学文摘》就是无意识偏差的受害者。无意识偏差常常会体现在对样本的选取不注意上。一个超市对50名顾客进行了调查,得出了“ 75% 的人声称喜欢喝茶而不是咖啡”的结论,那么我们大可不必去相信这个结论,因为相比起总数来说, 50 个人实在是微不足道的。
  
最后我们要注意保持对统计图示和统计数据的敏感性。图标会有意无意地通过巧妙设计(比如横纵轴的尺度问题),从而使得这幅图凸显的内容就是作者期望读者能够收到的信息。在观看图表的时候,我们可以试图在脑海中想象出与图像所对应的具体数据。
  
我们每天接触着的数据信息太多,多到大多数都容不得我们细想。但是当我们仔细去观察的时候,身边有多少数据是以假乱真的?又有多少数据只是一个“骗局”呢?这还得要多费点心思了。


QQ图片20150504164831.jpg
QQ图片20150615115549.jpg
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-4-19 19:26 , Processed in 0.121831 second(s), 31 queries .

快速回复 返回顶部 返回列表