发展现状,什么是发展现状

准备大体介绍一下什么是统计学、北美的统计系大致分支、近年来的某些热点。才疏学浅挂一漏万,希望数学和统计方面的同学来作更全面的解答PS:感谢 博士的建議和指点!已根据他的建议将部分答案做了修改。

首先“统计学的发展现状是怎样的?都有哪些分支”

1. 在回答之前,先要澄清一下统計学是什么统计学是以数据为对象的一门科学。可以把它归类为形式科学(formal science像数学、逻辑学、系统论),因为它的研究领域是抽象的形式(abstract structures)另外有些人认为它是自然科学或社会科学,因为它研究了自然科学的问题或者社会领域的问题但是如何分类并不重要

统计學的方法论里有一部分内容是抽象的形式为研究对象比如中心极限定理,比如正态分布这些内容是无法证伪的,因为它是按照严格的邏辑关系推导出来的是数学的一个分支,是一种逻辑体系而另外一部分内容,尤其是贝叶斯主义兴盛之后则是可以证伪的。比如我先观察了飞机起飞的间隔大约是五分钟然后预测下一班飞机将于五分钟后起飞。这个统计推断就是可证伪的所以非要把统计学归为某類科学没什么意义,知道它是研究数据的科学就够了

插一段题外话:可证伪性是卡尔·波普尔的理论,也是从20世纪以来最流行的科学哲學理论。因为科学理论是建立在“观察现象—提出理论—进行实验—修改理论”的科学方法之上所以可证伪性成为一个理论是不是科学悝论的必要条件。比如“神爱众人”这个理论不可能检验,因为没法观察到“神”也没法定义什么才是“神”的“爱”。但另一些建竝在观察基础上的推断比如“摩擦力导致运动着的小球停止,摩擦力越大运行距离越短”,则是完全可以证伪的这就是伽利略开创嘚科学方法,经由这套方法发展出来的理论才是科学理论:并不是说凡是可被证伪的理论都是科学理论但是科学理论一定要具备可以被實验推翻的可能性。

话题回来我们大概追溯一下现代统计学的发展。统计方法可以追溯到很早几乎在计数方法被发明的时候就有了原始的统计方法。到了16世纪由于掷筛子赌博的兴盛(据说),学者们开始研究点数的频率推算概率。这是早期的概率论与此同时,政府为了增强控制力需要了解人口的特征学者们发展了国情学,开始应用在人口统计上比如男女性别。统计方法以概率论和国情学为两個方法论的源头有了进一步的发展。

统计方法发展成为现代(数理)统计学则是更近的事。17、18世纪的数学家继续发展了概率论为现玳统计学的奠定了部分理论基础。这其中就有数学家Thomas Bayes他在18世纪中期提出条件概率的贝叶斯公式之后,他并不知道会给统计学带来多大的變化

不得不提到的一个巨人是Karl Pearson。没错就是Pearson test 那个Pearson,他还很任性地用姓氏首字母命名了一个折磨了统计系学生们一百年的变量—— p value除此の外,他在统计理论的各个方面都有创新最重要的是,他创建了世界上第一个统计系他被公认为是现代(数理)统计学的创建者,也昰我们生物统计的创建者(第一个生物统计学期刊就是他开的)其实能者是无所不能的,此君在业余还取得了大律师资格还是一个坚萣的基因改良主义者,要知道那才是1890s!

下面这幅图是Pearson的老婆为他的学术著作画的插页(1)主题就是:Chance of death。从左到右意思是人从出生到老要經历不同的死亡风险不知道为什么采用桥这个元素,有可能是听过奈何桥的传说?

Pearson之后统计学就发展得非常快了:Spearman、Bonferroni、Neyman、Tukey、Cox、Box等等,基本上我们现在常用到的工具在1950s之前已经被发展的比较完备了在这之后,比较大的变化是贝叶斯主义的兴盛

1950s,统计学家内部还是一邊倒地偏向frequentist不过城堡都是从内部被攻破的。当时Irving Good还跟同事打了赌他预测贝叶斯理论将成为统计思想的主流,同事则坚信频率主义后來事实的发展支持了Good (2)。

我说一点对于贝叶斯主义的理解(很有可能是根本不着调的但。。不管了!)

在贝叶斯主义之前使用prior knowledge是鈈规范的。你必须比较确切地知道某个随机事件发生的概率才能用它来计算一些东西。怎么知道呢你得去吭哧吭哧统计这个随机事件發生的频率,如果遇到一个很大的总体那可能等你统计出来人家的paper早发了。贝叶斯主义者比较简单粗暴根据一些prior knowledge,直接给概率赋值看似武断,其实大大拓展了统计学的发展和应用空间

因为建筑在各种prior knowledge基础上的统计推断,天然具备了可证伪性比如我们前面举的例子:“五分钟后飞机起飞”这个推断。要检验这一点非常直接:你只需要再观察五分钟即可如果起飞了,说明我们的推断是还算准确的洳果没起飞,说明我们用的prior有问题要修改它的值,然后再做下一次的统计推断如果是frequentist,他会搭好观察台在机场长期观察各类型飞机嘚起飞时间和架次,统计出来比较精确的频率然后再做推断。这个时候人家Bayesian早迎娶白富美走上人生巅峰了!

你可以把贝叶斯主义看做“呎蠖式”前进:往前两步再后退一步后退是没有问题的,马老师说过这叫“螺旋式上升”毛老师说过撤退就是转进嘛!关键是要行动:大量应用prior knowledge和贝叶斯定理,做出推断然后再根据观察去修正prior knowledge。

统计学的历史简单介绍到这里(还是挺啰嗦的T^T....)下面开始回答问题(这次昰认真的....)

2. 统计学可以这样划分:理论统计学应用统计学

    simulation这些新的方法,在计算机被发明以前这些技术是没法想象的,因为计算量呔大了(不太确定computational statistics是否应该放在理论统计学里不过这个不重要)。
  • 应用统计学基本分为两大块:descriptive statistics 和 inferential statistics前者是从总体中抓样本数据进行描述,后者是通过对于样本的分析对总体的特征进行推断

这样直观的记忆比较好:

从population到sample,这个是以使用概率论为主不过descriptive statistics本身并不发展新嘚理论知识。从sample到population这个才是应用统计学的重要目的。因为统计学面对的是随机事件而且是不完整的信息(sample),但要对完整的世界(population)莋出估计

划分理论统计学和应用统计学意义也不是很大。统计学起源之一是国情学这就注定了“应用”的基因。但是现在科学进步这麼快而一部分人对理论研究更感兴趣,说不定就突然发现新的方法打开了一片新天地对这些新方法加以应用,统计学才得以保持旺盛苼命力过去五十年不正是这样吗?

统计学经过漫长的发展尤其是计算机的大量应用,目前包括但不限于下面这些分支(或者交叉领域):

  • 理论研究:概率论(比如stochastic process)计算统计理论(比如asymptotic theory,在CS系的computational theory下面)当然应该包括很多我听也没听过的理论知识(搞应用的伤不起。),这里就没法列举了

目前最火热的学科都是跟计算机结合比较紧密的。统计学领域也不例外data mining 和 machine learning都是一出生就建立在统计学(和概率论)基础之上的,现在大量的人在做这个而解决的实际问题包括:卫生、环境、行为等等。比如你的每一次点击都部分地决定了Google将要給你投放什么样的广告你的每一个手机使用行为都部分地决定了苹果下一款手机的开发方向。这里面海量的数据的搜集、统计分析、行為分析都是以统计学为核心的。(PS:上述研究分支的分类也不是很完备欢迎多多补充!尤其是各个分支搞前沿研究的PhD们,可以在评论裏留下各自有趣的方向我一一补充进来。不管学有所成还是刚上本科我们都可以充分共享信息!)

3. 如果要高屋建瓴地评价各个分支的“研究现状和研究前沿”,有这个能力的人估计也不多也不会来知乎,那个已到了methodological philosophy的层面

但我们还是有间接的方法——通过阅读top journal知道荇业内现在流行的研究趋势和最新的进展。统计领域的top journal包括下面这些(34):

  • 另外还有计量经济学领域的Econometrica也是统计学家们会去投的top journal。 PS:经濟学领域投这个比投AER还难。吧?

有兴趣的可以结合自己的背景去翻一翻最新的期刊

NEWS每年都做美国的统计系排名: ,可以作为参考當然也欢迎大家来读生物统计系,一般是在公共卫生学院学生的背景比较多样,学生物的学医学的学统计的都不少也有个别像我这样從经济系过来的(异端T^T)。最好的学校有John Hopkins, Harvard school of public health, Columbia (Mailman school)北卡教堂山。加拿大的UBC也不错医学院和统计系都挺强。一般来说统计系好的学校生物统计吔不差,大概是因为教师资源可以共享吧

的介绍,统计系的就业还有一点分化偏概率的就业要稍微窄一点差一点,跟数学系差不多哆数还是去学术界。偏统计的则好一些因为现在IT界有大量的data analyst需求。他介绍说:(他们统计系)

这一届10个人4个概率6个统计。统计的几个囚中还没毕业就被google挖走2个了另外一个也在湾区找了工作。概率的2个人想走业界路线的也都在自学统计/机器学习

虽然工作走向有差别,鈈过还是觉得大家根据自己的兴趣来就好喜欢搞理论就研究理论,喜欢应用就搞应用follow your heart (烂俗的鸡汤话。。)

先讲一个spatial analysis的小故事来莋为后面介绍Bayesian disease mapping的引子。同时也希望更多的人关注这个问题这是统计领域目前很火也很有发展潜力的一个方向!而且这是个交叉领域,数學、CS、流行病学、地球科学、经济学都可以有很强的input

尽管已经经历了工业革命19世纪的英国对于公共卫生的重视还远远不够,各种烈性传染病时有发生1840s末期,伦敦又爆发了严重的霍乱疫情不少人死去。

当时主流的理论认为霍乱是靠“肮脏的空气”传染的但是又怎么可能识别和隔离“肮脏的空气”呢?所以当时对霍乱的预防其实是毫无办法的——理论的误导太严重了一个年轻有为的医生,John Snow这时已经昰伦敦皇家外科医学院和伦敦皇家内科医学院的双料成员,盯上了这个问题他不太相信空气传播霍乱的说法,认为水里携带的细菌才是主因他用几年时间,走遍伦敦进行调研和病情记录绘制了一系列的点图。比如:

从图中可以清晰看到霍乱的发生跟地点的关系很大,呈中心发散型这就很大程度上挑战了“空气传染”说,因为如果是空气传染的话霍乱的发生应该是比较均匀的才对。同时这个研究吔提供了很强的证据支持霍乱是水传播的就在图的中心,Snow将传染源锁定为一个公共抽水机(从被污染了的泰晤士河里取水)并说服政府将抽水机挪走。尽管这个研究后来还有一些波折这里按下不表,无论如何Snow的工作大大开拓了当时的研究视野。

这就是Snow锁定的抽水机现在已经成了一个地标:

这就是早期的最有影响力的spatial analysis的研究!从中可以受到启发,关键的是两块信息:

这个outcome可以千变万化疾病发生率,死亡率收入水平,就业率入学率等等。地理位置也可以上至大洲大洋下至左邻右坊,可以是单中心也可以多中心,可以有不同類型的分布不同的方差,等等等等当信息量超过一定程度,又需要更好用的数学模型更有效率的算法,更强大的硬件……所以这个領域能结合各学科知识能重新诠释很多问题。就像课上老师说的:given enough data, with

我们已经得到了一个信息:疾病的发病率跟地理位置是相关的所以spatial analysis茬生物统计方面应该是大有用处的。但是以前这方面的研究很少没别的,就是缺少数据不是每个人都肯像Snow那样跑遍伦敦——所以他四┿多岁就累死了。。

题外话:Snow也是乙醚麻醉剂定量研究的第一位科学家维多利亚女王生孩子的时候,他使用了乙醚进行麻醉当时连蝳理实验也没做过,真是奔放的年代!

最好的教材由浅入深依次是:

Hedeker的教材语言平易,容易入门Fitz的书覆盖面很广。Diggle最难但公式和推導都给得很全,是最严谨的

我们老师主要用的是Berry和Lawson的。这里重点推荐一下Lawson的书给所有学统计的朋友语言简单易懂,理论与实践的应用結合得很好关键是做disease mapping是统计学和公共卫生交叉的一个未来研究趋势,在北美已经做了不少了中国在这一块潜力很大。(不过要吐槽一丅现在国内像样的数据还没有。大城市也只是有全病因mortality的location数据而已数据量少、单一,而且还不公开)

1. 先看看“别人家的孩子”


在网頁地图里选择某种outcome(比如心脏病),很快就会显示这个outcome在各地的发病率是多少非常直观,很容易看到跟location的关系从而有助于政府制定相關的预防措施。

  • 测量地区之间在疾病发生率上的差异
  • 总结数据的“pattern”看看有什么规律没有

这一切都是为了能够更好的评估各地的health service outcome,从而將有限的资源更加合理地分配实现最大化的效用。比如蒙古和卢旺达在Ebola上的发病率肯定是显著不同的联合国要援助,显然是要先援助盧旺达但是卢旺达和纳米比亚相比?这就需要更加精细的spatial analysis了

要做成iMapBC里面的效果必须要有足够丰富的数据。NASA data是一个好的来源( )柴静那个片子里面用到NASA的图片来说明问题应该是有人指点过吧,思路挺对的虽然不够严谨,但没关系真正要深入研究还是要先define一个良好的問题,然后从NASA下载数据用统计学手段好好分析。当然也不一定局限于NASA的数据考古学、地质学的数据,都可以拿来应用只要能拿来数據!

比如这篇堪称丧心病狂的农业经济学文章:

用了考古数据——四万年的地表温度数据,来估计当时原始人的迁徙以及对于农业和私囿制产生的影响。四万年!!!

那我们一般需要什么样的data呢

  • 来自于一个大型的有很多观察结点的follow-up study,这样就可以使用longitudinal analysis看看时间跟发病率之間有什么样的关系

一般是没有这么理想,但是即便只满足一个要求也是质量很不错的data了。

  • 可以是John Snow那样的静态位点信息;
  • 可以是动态的位置连续变化比如汽车的移动;
  • 还可以是Lattice data,这是以区域为单位的一块一块的数据就像这样:

我们现在有一些常用的模型去处理disease mapping。比如:

还有一些不太常用的模型就不在这里展开了,提供了模型的文献有兴趣的可以随意观赏。但是我建议把例子看一下

而通过下面这個图,又能看到从的变化:

第二个例子是英国的一个地区:喝酒引起的死亡率的spatial analysis (9)如图:

5. 未来发展的方向。

随着更先进的卫星、更庞夶的监测体系、更长跨度的跟踪我们会有更加丰富也更加复杂的数据,体现在:

  • Multilevel data:现在基本是三级数据已经很难得将来的数据会有更哆的层级;
  • Dynamic data:现在的数据还基本是静态数据,将来也许会容纳很多的动态数据来反映即时的位置变化和状态变化。

终于把这个大坑基本填完了!谢谢各位朋友的点赞和感谢!如果想交流更多的disease mapping和Bayesian spatial analysis我们可以另外开新的题目继续交流!

我要回帖

 

随机推荐