丹麦流传着一种说法,一户人家屋檐上的鹳巢数量与这家人所生孩子的数量存在着相关性。婴儿是鹳鸟送来的古老传说是真的吗?当然不是。相关性跟因果关系不是一回事。鹳不会送来孩子,但大房子有更大的空间为孩子和鹳所用。
这是一则人们喜闻乐见的统计趣闻,但如果你知道1965年在美国参议院一场听证会上它是如何被用到的,你就不会觉得那么有趣了。那位做听证发言的专家证人辩称,尽管吸烟或许跟肺癌相关,但两者之间不存在已证明的、令人信服的因果关系。当被问及为何把鹳和孩子的关系与香烟和肺癌的关系进行类比,他回答说,两者“在我看来是一样的”。
这位证人的名字叫达莱尔•哈夫(Darrell Huff),是一名自由记者,因其1954年出版的那本精彩、大为畅销的《统计数字会撒谎》(How to Lie with Statistics)而深受数代极客的爱戴。如果该书续集付印的话,他今天的名声或许会完全不同。《吸烟统计数字会撒谎》(How to Lie with Smoking Statistics)使用了各种鹳式论点来对吸烟与癌症的相关性提出质疑。该书得到了美国的烟草研究所(Tobacco Institute)资助,但不知出于什么原因一直没有出版。(2012年安德鲁•格尔曼(Andrew Gelman)在《Chance》杂志上发表的文章,以及2014年亚历克斯•莱因哈特(Alex Reinhart)在《Significance》杂志上发表的文章,使哈夫担任烟草业顾问的经历引起统计学家们的注意。)
毋庸置疑,吸烟会导致肺癌和其他多种致命疾病。但广泛意义上的相关性与因果之间的尚存疑问的关系,仍是当前一个极易引起争议和混淆的领域。哈佛大学(Harvard)法学院学生泰勒•维根(Tyler Vige)编撰并发布在其网站(tylervigen.com)上的“伪相关”应算是一种警告。你知道缅因州人造奶油的消费量与离婚率之间存在很强的相关性吗?
所以,我们不能仅仅依赖相关性。但是,坚持为因果关系提供绝对证据就过于苛刻了(甚至是一种不可能达到的标准)。在这两个极端之间,如何在相信相关性与寻找因果证据之间达到合理的平衡呢?
科学家、经济学家和统计学家倾向于要求为他们看到的现象提出因果解释。知道大学毕业生能赚更多钱还不够,我们想知道,大学教育是否提高了他们的收入,或者他们本来就是聪明人、不管接受大学教育与否都能赚更多钱。仅仅寻找相关性并非严格科学的做法。
但随着“大数据”的到来,这场争论开始发生变化。海量数据集可以产生一些有趣的相关性,在某些用途上它们就足够好用了(谁关心为何周二降价效果最好呢?如果确是这样,那就选这一天降价。)英国央行(BoE)首席经济学家安德鲁•霍尔丹(Andy Haldane)不久前表示,经济学家们或许想更认真地看待纯粹相关性(mere correlation)。他不是第一个这么说的大数据热衷者。
我们回头来讲抽烟与癌症之间的关系。20世纪40年代末,英国流行病学家理查德•多尔(Richard Doll)最早开始怀疑二者之间的联系。当时他的分析基于纯粹相关性,他不清楚因果机制,因为当时还没确定烟草中的大多数致癌物。多尔本人怀疑肺癌的致病原因是柏油公路的烟气,或者可能就是汽车本身。
多尔与奥斯汀•布拉德福德•希尔(Austin Bradford Hill)在1950年发表了他们关于吸烟与癌症关系的早期研究结果,由于俩人的研究基于纯粹相关性,在当时果不其然遭到了批评。伟大的统计学家罗纳德•费雪(Ronald Fisher)在20世纪50年代多次加入论战,指出很可能是癌症引起吸烟,毕竟癌前期病变会对肺部造成刺激,人们可能会通过吸烟来缓解这一刺激。费雪还认为有些遗传特征可能既会引发肺癌,还会引起吸烟倾向。(另一位统计学家约瑟夫•伯克森(Joseph Berkson)提出,假如一个人强悍到足以抵制广告的诱惑和同龄人的压力,那么他也强悍到足以抵抗肺癌。)
No comments:
Post a Comment