统计数字会撒谎-第3部分

小说：统计数字会撒谎字数：每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

　　可以肯定的是：耶鲁毕业生的报道基于对某个样本的分析，因为常识告诉我们，没有人能够掌握所有仍在世的1924级学生的情况，25年后，他们中的许多人已经消失在茫茫人海中。
　　并且，在那些能够取得联系的人中，许多人根本不会回答问卷，特别是一个涉及###的问卷。一般情况下，邮寄问卷的回收率达到5％～10％就已经相当可观了。也许这个调查的回收率会高些，但也不可能达到100％。
　　因此，这个收入数据建立在一个样本之上：由能够取得联系并愿意回答问卷的耶鲁学生组成。那么，这个样本的代表性强吗？也就是说，能否假设样本与未被样本包括的那些人——无法联系的人或者不愿意回答的人——具有同等的收入水平？
　　那些在耶鲁大学毕业生通讯录上被注明“地址不详”的迷路小羊羔是谁呢？他们是高收入阶层吗？华尔街的金融家、公司领导层，亦或是制造企业或公用事业的总裁？不，要找到富人的地址根本不难。这个班级最显赫的人，即使忽略了与校友办公室联系，他们的地址也可以通过查《美国名人录》（Whos　Who　in　America）或其他参考资料找到。因此，我们可以较合理地推测，那些被遗漏的人在获取耶鲁文学学士以后的25年间，他们没能实现自己光辉梦想，他们是小职员、技工、流浪汉、失业的酒鬼、仅仅得以糊口的作家或艺术家……将六七个甚至更多这种人的收入相加才可能达到25111美元。他们不会在班级的联谊会上注册，仅仅是因为他们支付不起路费。　txt小说上传分享

内在有偏的样本（3）
又是谁会将调查问卷丢进最近的废纸篓？我们不太肯定，但是猜想他们中大部分人并没有赚到足以炫耀的数目。他们的心态有些类似于第一次拿到工资的小职员，当他发现工资支票上粘着一张小纸条，建议保密工资并不要将工资作为与同事的谈资时，“别担心，”他对老板说，“我与你一样，对这么低的工资感到羞愧。”
　　很明显，样本遗漏了可能降低平均收入的两类人。让我们见识一下25111美元的庐山真面目：如果它是一个真实的数据，它也仅仅代表了1924级耶鲁学生中能够联系上的，并愿意站出来说出收入的一个特殊群体。当然，它的真实性还需要满足这个假定：这些绅士们说的都是真话。
　　我们能否过于轻率地做出这样的假定呢？来自抽样理论的一个分支，即市场研究的经验告诉我们，人们会说真话的假定往往是不可靠的。以前曾经做过一项了解杂志读者阅读量的上门调查，其中的一个主要问题是：“你和你的家人阅读什么杂志？”当将调查结果制表并分析后发现：喜欢《哈泼斯》（Harper’s）杂志的人相当多，这本杂志如果不能说是曲高和寡，但至少也是品位不俗；而喜欢《真实故事》（True　Story）——一本定位大众化杂志的人就不多了。但是几乎同时期的、由出版商提供的数据很明显地显示出相反的结果：《哈泼斯》杂志的发行量只有几十万份，而《真实故事》杂志的发行量却多出了百万份。正如这项调查的设计者所疑惑的，也许他们问错了对象，但这又并不可能，因为上门调查走访了美国范围内各式各样的居民区。惟一合理的解释是许多被调查者，即那些调查中回答问题的人没有说实话，几乎所有的调查都无法阻止人们往自己脸上贴金的做法。
　　最后你将发现，当你想知道到底什么人在读某本杂志时，询问是无济于事的。直接上门去告诉他们你想收购旧杂志好了，看看他们能提供什么，这样你才能掌握更多的信息。你只需要清点一下《耶鲁评论》（Yale　Reviews）和《爱情罗曼史》（Love　Romances）各自的份数就够了。当然，即便采用这种方法也只能说明人们曾经买了什么，而不能确定人们读过些什么。
　　同样，当你下次看到普通美国人（最近，这个词频繁出现，但大多数情况下却是不现实的）每天刷牙次时，虽然这个数据是我瞎编的，但它与别人的数据一样好用。请问自己一个问题：不管是谁，他怎样才能发现这个事实呢？在看了铺天盖地的、宣传不刷牙是对社会冒犯的广告之后，一名妇女还会向陌生人承认自己不经常刷牙吗？这个统计资料只能对那些希望了解人们如何看待刷牙的人才有价值，却根本不能反映牙刷接触牙齿的频率。
　　我们知道，除非在某处安装了泵站，否则一条河流永远不可能高于它的源头。同样的，根据样本得到的结论不会比样本更精确。当数据经过层层统计处理，最后简化为一个带小数点的平均数时，结论似乎闪耀着精确的光芒，但只要再仔细留心整个抽样过程，这个光芒就会消逝。
　　为了确保结论有价值，根据抽样得出的结论一定要采用具有代表性的样本，这种样本才能排除各种误差。这就是耶鲁的收入数据失真的原因，它也是你在报纸和杂志中读到的许多资料根本不值一提的原因。

内在有偏的样本（4）
一位心理医生曾经写道：实际上每个人都有点神经质。暂且不去管这种提法是否破坏了“神经质”一词的含义，我们来看看这个医生的样本，也就是说，他观察了哪些人才得到了上述结论？事实上，他是在对他的病人进行研究后才得到了这个发人深省的结论，这和代表全体人的样本可差的是十万八千里。想想看，如果一个人心理健全，他是永远都不会接受心理医生的治疗的。
　　对你所读到的东西多思考一下，你将避免接受许多似是而非的结论。
　　记住下面这点是有益的：无形的误差与有形的误差一样容易破坏样本的可信度。也就是说，即使你找不到任何破坏性的误差来源，但只要有产生误差的可能性，你就有必要对结果保留一定的怀疑。事实上误差总是存在，如果你仍旧半信半疑，想想1948年和1952年的美国总统大选，它们已足够证明这一点。（1948年美国选举时，所有民调都显示###党的杜威会获胜，结果却是杜威败给了共和党人杜鲁门，这是美国历史上至今最大的“选举惊奇”。1952年美国大选，新闻传媒普遍看好###党竞选人史蒂文森，最终共和党候选人艾森豪威尔以绝对优势赢得这场选举。）
　　更远的例子可以追溯到著名的《文学文摘》（Literary　Digest）的惨败，这件事发生在1936年。曾经准确预测了1932年美国大选的1000万个电话用户和《文学文摘》订户，他们又对1936年的大选结果进行了预测，他们向那个倒霉的杂志编辑信誓旦旦地保证：兰登（Landon）将在竞选中脱颖而出，并且与罗斯福（Roosevelt）的所得票数之比为370∶161。这样一个久经考验的调查群体怎么可能产生误差呢？但的确有误差，正如后来许多大学论文和其他史学分析人员所发现的，1936年就有能力购买电话和订阅杂志的人并不能代表所有的选民，至少在经济上，他们是一个极特殊的群体，是有偏的，后来证实他们中的许多人是共和党的选民。该样本选择了兰登，而全国选民却心系罗斯福。
　　最基本的样本是随机样本，它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。把索引卡片文件夹中每隔10个的名字抽出来，从许多纸张中任意抽出50张，在皮卡迪利大街译者注：皮卡迪利大街是英国伦敦市一条繁华的街道。每遇见的第20个人作为访问对象。（但需要注意的是，在最后一个例子中，总体并不是全世界的人，也不是全体英国人或者所有旧金山人，而只是当时在皮卡迪利大街上的人。一个进行民意调查的访问员宣称，她选择在火车站进行调查的原因是“在那里能遇到所有类型的人。”不过，不得不向她指出的是，某些人比如婴儿母亲的代表性并不足。）
　　随机样本的检验方法是：总体中的每个名字或每个事物是否具有相同的几率被选进样本？纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处，在很多情况下，获得这种样本的难度很大并且十分昂贵，以至于单纯考虑成本就会排除它。分层随机抽样是一个更经济的替代品，目前在民意调查和市场研究等领域中得到了广泛的应用。
　　为了获得分层抽样下的随机样本，你需要将总体按照事先已知的优势比例划分出不同的组。这时你就可能遇上麻烦：关于分组比例的信息可能并不正确。你对访问员进行指导，以确保他们调查到一定数量的黑人，按照这样或那样的比例调查属于不同收入阶层的人，调查一定数量的农民，等等。同时，每一组人中40岁以下和40岁以上的人数相同。书　包　网　txt小说上传分享

内在有偏的样本（5）
这听上去很不错，但实际上会怎样呢？在黑人还是白人的问题上，大部分时候访问员能够准确判断。但在收入分组时，他会出很多错。至于农民，你如何划分一个在城镇上班又有部分时间种地的人？即便是岁数的问题也会引起差错，为了确保准确性，访问员会挑选那些看上去明显小于40岁或明显大于40岁的人进行调查。在这种情况下，由于缺少40岁左右的人而导致样本有偏。你不可能获得可靠的结果！
　　除此之外，你如何在各层内部获得随机样本呢？最有效的办法是准备好每一层内部所有单位的名单，并调查那些被随机抽中的单位。当然，这耗资不菲。于是你转而进行街头调查，但由于遗漏了那些窝在家里的人而变得有偏；你在白天挨家挨户地上门调查，又把大部分上班族给弄丢了；转而改成晚上访问，又忽略了那些看电影和去夜总会的人。
　　民意调查最终将演变为一场与误差的持久战。所有信誉良好的调查公司始终战斗在第一线。调查报告的读者应谨记这点：这场战斗永远不可能取得胜利。在看到“67％的英国人反对”某事或其他类似的字眼时，应保留这样一个问题：67％的哪部分英国人？
　　阿尔弗雷德？C？金西（Alfred　C。　Kinsey）博士近期出版的《男性卷》和《女性卷》也存在这个问题。书中的人虽然已经证实了是不折不扣的新潮人物，但是由于抽样过程与随机抽样实在差得太远，调查结果仍然受到了质疑。抽样名单包含了太多接受过大学教育的人（女性中该比例达到75％）和服刑人员，这已经够糟糕的了，但是更严重的缺陷是样本极有可能严重偏向于有自我宣传性行为倾向的人，而且人们很难察觉到这个缺陷。当谈论的主题与性有关时，那些沉默寡言的、对着满怀希望的访员说不，并对于那些将自己从样本中淘汰出局的人，他们与主动站出来说出全部的家伙在性行为上存在很大的差异。
　　布鲁克林学院（Brooklyn　College）的A？H？马斯洛夫（A。　H。　Maslow）所作的一项研究表明：上述推断不仅仅是猜测。他的研究样本中包括了许多女学生，后来她们都主动参加了金西博士的访谈。马斯洛夫发现：一般而言，这些女孩子在关于性的问题上观念更开放而且有更多的经历。
　　当我们阅读金西的书，或者阅读任意一个近期关于性行为的研究成果时，关键的问题在于如何理解它，才能避免学习到一些根本就不是那么回事的东西。在任意一个基于抽样的研究中，这个问题

返回目录上一页下一页回到顶部赞（0）踩（0）

第3部分

统计数字会撒谎-第3部分

你可能喜欢的