回归(Regression)的前世今生——从高尔顿(Galton)到尤勒(Yule)简单讲讲关于回归的起源问题,其实下面有几个答案已经说到了高尔顿的故事,我在这里略作补充,做些有趣的拓展回归这个词最早是被。
高尔顿提出的,高尔顿这个人是谁呢,他是达尔文的表兄。他非常痴迷他兄长的进化论说,所以一直希望把进化论的理论应用到实证中,来证明不同人为什么会具有不同的特性。
他在当时研究了人的各种特征,并且从指纹到颜值进行了各种打分收到达尔文进化论的影响,作为学者的他在当时也是人种优生论的支持者之一(类似于现在支持基因改造人)然而瑕不掩瑜,他将统计学基础引入到了社科人文类当中,提出了。
定量研究的理念,从很大程度上来说可以是引领了整个人文社科大类的发展高尔顿最著名的发现之一是他发现了父亲的身高和儿子的身高之间存在着某种给定的关系,他通过进一步的研究发现了:事实上子辈的平均身高是其父辈平均身高以及他们所处族群平均身高的加权平均和。
正如下面有些答案中所提到的那样,他把这种趋势平均化的现象写到了自己1886年的论文中论文的全名叫:Regression towards Mediocrity in Hereditary Stature. 这篇论文当年被发在了大不列颠以及爱尔兰人类研究学院期刊上。
我们现今把论文中的这种“回归”现象称为:均值回归或者平庸回归(reversion to the mean/reversion to mediocrity)背后的意义是说:哪怕单看一组父亲和孩子的身高,两个人的身高可能差异很大,但是从整个人群上来看,父亲和孩子的身高分布应该是很相近的。
然而高尔顿对于回归的阐述和使用毕竟年代太过久远了,在当时还没有引入“控制变量”的概念,所以从结果上来说,回归模型更像是显示了两个变量的统计关联度,而非因果关系在这样的背景下尤勒横空出世了,尤勒可以说是一个很了不起的人了,他的师傅就很厉害,是。
皮尔逊(Pearson)皮尔逊可以说是从数学上对生物学进行统计研究的第一人,著名的卡方检验就是他发现的,皮尔逊本人和高尔顿关系也非常好,高尔顿就是他师傅(所以事实上高尔顿也是尤勒的师叔祖),他和高尔顿一起创办了《。
生物统计学》(Biometrika)杂志。
正所谓名师出高徒,尤勒本身也很崇拜高尔顿,可以称得上是高尔顿坚定的护道者,他在高尔顿的基础上提出了回归模型中应当加入尽可能多的控制变量的理念在他1899年发表在英国皇家统计协会期刊上的论文“An Investigation into the Causes of Changes in Pauperism in England, Chiefly during the Last Two Intercensal Decades"中,他研究了英国。
济贫法在不同的地区对于当地贫困率起到的影响在论文中,尤勒把地区的人口以及年龄的分布加入到了控制变量当中去,研究的结果在当时起到了非常深远的影响济贫法可以说是世界上第一部有关社会救济的法律,当时英国“圈地运动
”之后,偷盗者、乞讨者增多,社会不安定因素急剧增加,为了稳定社会情绪,维持统治,英国王室在1601年颁布了《济贫法》这部法律规定:凡年老者可在家中接受救济;贫困儿童可在他人家中寄养,成年后可去做学徒;流浪者被关进监狱或送去。
教养院尤勒在论文中着重研究了户外救济(outdoor relief)政策(给穷人补助,不强求他们去工作)是不是反而会因为让穷人觉得更安逸了,从而反向增加社会的贫困率这样的研究可以说是当今社会科学学者们关注的。
政策效应因果识别的“老祖宗”了。