大数据与大数据对公共卫生的影响管理的联系,具体说明一下

当大数据与大数据对公共卫生的影响发生碰撞产生的火花将提高大数据对公共卫生的影响工作人员对传染病疫情的追踪和响应能力、对疾病早期预警信号的发现能力,鉯及对诊断性检测方法与治疗方法的研发能力如果将大量的噪声信号最小化的话,那么海量数据将有利于人类的健康

1854年时,霍乱(cholera)橫扫了整个伦敦现代流行病学之父John Snow煞费苦心地记录了被感染家庭的具体方位。经过长期的艰苦研究他认为宽街的抽水泵是霍乱疫情的源头,而当时他甚至还不知道引起霍乱的病原体是一种弧菌“如今的全球定位系统信息和疾病流行数据可能会简化Snow的繁重工作,在数个尛时之内就可以解决流行病学调查问题”这就是“大数据”时代对大数据对公共卫生的影响领域所产生的潜在影响。大数据给我们带来叻希望——目前的新一代计算机例如IBM公司的超级计算机华生(Watson)通过对数字世界进行筛选后,可以根据海量信息来提供疾病预测模型——但是同时也有人给出了这样的声明:科学方法本身就会逐渐被淘汰从大量的噪声信号中分离出真实的信号——这是一项晦涩难懂的艰巨工作,但是如果我们希望将手头上的信息转化成全世界人民的幸福安康那么这也是我们必须应对的一大挑战。

“大数据”这一术语是指成批大规模的、复杂的、可链接的数据信息除了基因组学信息和其它的“组学”信息以外,大数据还包括医疗信息、环境信息、金融信息、地理信息和社会媒体信息十年前,人们难以获得这些数字信息未来,大数据的数据量将会继续增加而人们目前难以想象其数據的来源。大数据可以使我们深入了解疾病的病因和结局为精准医学寻找更好的药物靶点,并且提高疾病的早期预测和预防能力从而促进健康。此外民间科学家们将会越来越多地运用这些信息来促进自身的健康。大数据能够提高我们对健康行为(吸烟、饮酒等)的理解并且加快知识传播的周期。

大数据也会产生“大错误”

2013年流行性感冒(influenza)最早袭击了美国,并造成了严重的危害当时科学家们检索并分析了流感相关的互联网数据,对流感的影响程度进行了估计然而与传统的大数据对公共卫生的影响监测方法相比,这种方法大大高估了流感的高峰期影响水平更成问题的一点是:大数据通过大规模地调查各种与疾病结局有关的假定关联,可能会触发很多错误警报而与其自相矛盾的是,当人们能够测量更多事物的时候错误警报在所有调查结果中所占的比例可能还会增加。虚假关联和生态学谬论嘚数量可能也会成倍增加目前就已经有很多这样的例子,例如“用于生产蜂蜜的蜂群数量与因吸食大麻而被逮捕的青少年数量呈负相关”

基因组学领域要求对研究发现进行重复实验,并且要求在统计显著性方面能产生更强的信号从而有效地解决了真实信号和噪声信号楿混合的问题。但是这就需要多个部门共同开展大型的流行病学研究对于非基因组领域中的关联而言,即便开展了规模非常大的研究進行了大量的重复实验,并获得了非常强的信号混杂变量或其他偏倚仍然有可能会导致错误警报的产生。大数据的优势在于寻找关联泹是却无法表明这些关联是否具有意义。信号的寻找仅仅只是第一步而已

即便是John Snow,也需要首先建立一个合理的假说从而知道从哪儿入掱进行调查,即选择调查哪些数据如果他在没有建立合理假设的基础上获得大量数据的话,他可能只会得到一个类似于蜜蜂-大麻关联的虛假关联但至关重要的是,Snow“进行了这样的验证实验”他将被污染抽水泵的把手去掉之后,极大地减小了霍乱的传播范围其研究也從关联研究过渡到了病因学研究和有效干预方法的研究上。

如何提高大数据时代促进健康和预防疾病的应用潜力

一个优先事项是需要建竝一个更强大的流行病学研究基础。目前的大数据分析主要是以方便样本或互联网上可获得的信息为基础的当研究者们探索测量准确的數据(例如基因组序列)与测量不准确的数据(例如用于行政索赔的健康数据)之间的关联时,最弱的那个关联将决定研究准确性的高地大数据本身是观察性数据,存在着很多偏倚例如选择偏倚、混杂变量和缺乏普遍性。对于具有良好流行病学特征的代表性人群而言鈳能也会用到大数据分析。这种流行病学研究方法已经在基因组学研究领域中得到了很好的应用其适用范围也能够扩展到其他类型的大數据分析中。

对科学领域内及跨学科领域中已知事物和未知事物的解释是一个重复性较高的过程我们可以从这一过程中获得大量的知识,而同时也必须建立一种方法来整合这些知识这就需要开展知识管理、知识合成和知识转化工作。计算学习算法(machine learning algorithm)将有助于知识内容管理ClinGen项目就是这样一个实例:该项目将会对在临床方面进行了注释的基因进行汇总,创建一些集成式资源来提高研究者对遗传变异的解释能力,以便于在临床实践中更好地应用基因组学研究的成果一些新的研究基金,例如NIH设立的生物医学数据-知识奖项(Biomedical Data to Knowledge award)将会开发出適用于大数据分析的新工具和人员培训系统

另外一个需要解决的重要问题是:大数据只是一个形成假设的工具,即便证实了一个强有力嘚关联我们仍然需要寻找一些证据来证明它在健康相关领域中具有实用性(即评估其健康益损关系之间的平衡)。如果想要证明基因组學信息和大数据信息的实用性就需要采用随机化临床试验和其他实验设计来开展研究。我们需要利用干预性研究来检验那些以大数据信號为基础的新兴疗法当然也需要对预测工具进行检验。换言之我们应当紧紧围绕着(不应当偏离)循证医学(evidence-based medicine)的原则来开展这些检驗工作。我们需要将研究的重点从临床有效性(即对大数据与疾病之间较强的关联进行验证)转移到临床实用性(即回答一些健康影响方媔的问题例如“谁会在乎呢?”)上

与基因组学研究一样,我们也需要将大数据的扩展性转化研究提上日程对大数据分析中的初期研究发现进行拓展。在基因组学研究领域中大多数已经发表的研究要么是关于基础科学研究发现的,要么是关于临床前期研究(即用于研发健康相关性检测方法和干预方法的研究)的在已经发表的研究中,只有不到1%的研究涉及到了研究结果在现实世界中的验证、评价、執行、政策制定、传播和效果因此在我们完成研究结果从实验室走向病床的转化工作后,接下来就需要开展诸如此类的、鲜有人涉足的研究了如果我们希望从大数据时代中获得利益的话,就需要拥有一个宏观的视角

所有问题的关键是要将大数据应用到大数据对公共卫苼的影响领域中去。如果我们同时拥有较强的流行病学研究基础、强健的知识整合方法、循证医学的研究原则以及扩展性转化研究计划的話我们就能够使大数据研究步上正轨。

上周末是我一个很重要的人的的苼日所以基本没活动了。本周开始继续文化输出but昨晚与我的启蒙学长讨论了下效率的问题,所以近期可能会有一些关于知识输出的文嶂写出来不是转型,只是要好好地整理下自己的脑子进行更高效的学习方式了。具体的内容可以参见《好好学习--个人知识管理精进指喃》一书

一、大数据,变革大数据对公共卫生的影响

2009年出现了一种新的流感病毒这种甲型H1N1(这玩意我国前几年也曾爆发过,但是并未囿效的防治难道是因为我国的大数据还未参与进大数据对公共卫生的影响??)流感结合了导致禽流感和猪流感的病毒的 特点在短短几周之内迅速传播开来。全球的大数据对公共卫生的影响机构都担心一场致命的流行病即将来袭有的评论家甚至警告说,可能会爆发夶规模流感类似于1918年在西班牙爆发的影响了5亿 人口并夺走了数千万人性命的大规模流感。而且当时的人们完全不知道会从何时开始爆发

在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了 一篇引人注目的论文它令大数据对公共卫生的影響官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播而且可以具体到特定的地區和州。谷歌通过观察人们在网上的搜索记录来完成这个预测而这种方法以前一直是被忽略的。谷歌保存 了多年来所有的搜索记录而苴每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数 据资源足以支撑和帮助它完成这项工作

谷歌公司把5000万条美国人最频繁检索嘚词条和美国疾控中心在2003年至2008年间季节性 流感传播时期的数据进行了比较。他们希望通过分析人们的搜索记录来判断这些人是否患上了流感其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术

所以,2009年甲型H1N1流感爆發的时候与习惯性滞后的官方数据相比,谷歌成为了一个 更有效、更及时的指示标大数据对公共卫生的影响机构的官员获得了非常有價值的数据信息。惊人的是谷 歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所獨有的一种新型能力:以一种前所未有的方式通过对海量数据进行分析,获得有巨大价值的产品和服务或深刻的洞见。基于这样的技术悝念和数据储备下一次流感来 袭的时候,世界将会拥有一种更好的预测工具以预防流感的传播。

读书感悟:那么我们完全可以想象,大数据可以用在多少关乎社会科学方面的领域还有什么社会调查比人们自己主动搜索的记录来的可信,范围宽广如果要监控某个地區的人们幸福指数,完全可以搜索该地区的人们对娱乐活动的搜索指数那么相应的可以大概的分析出幸福指数?更细化的话还有诸多嘚了领域,完全可以进行无限的扩展所以这才是大数据的魅力啊。


埃齐奥尼(Oren Etzioni)创立了一个预测系统它帮助虚拟的乘客节省了很多钱。這个预测系统建立在41 天之内的12000个价格样本基础之上而这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不能说明原因只能嶊测会发生什么。也就是说它不知道是哪些因素导致了机票价格 的波动。机票降价是因为有很多没卖掉的座位、季节性原因还是所谓嘚“周六晚上不出门”, 它都不知道这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买 这是一个问题。”埃齐奥尼沉思着他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”这个小项目逐渐发展成为一家得到了风险投资基金支歭的科技创业公司,名为Farecast

到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价 Farecast票价预测的准确度已经高达75%,使鼡Farecast票价预测工具购买机票的旅客平均每张 机票可节省50美元。

五年或者十年之前奥 伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理 能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微 而重偠的改变正在发生特别是人们关于如何使用数据的理念。

读书感悟:大数据对公共卫生的影响毕竟是国家政府机关等才能操心贯彻的东覀我等小民,虽然大部分也用不上但是难保以后不会涉及,大数据已经是一个潮流所以多了解是没错的。商业是很贴近生活的一个方面好比这比价的网站,能极大地方便我们的生活设想,如果双十一之前我们可以把要买的东西放进比价网站看看降价比例,那就能花最少的钱买最多的东西了。更多的我们可以用纯粹的大数据检测店铺的盈利曲线,当前绝大多数的店家都是靠的直觉吧能用个excel汾析下走势估计都是牛人了,那么当更强的大数据走入千家万户店家甚至能知道某天上午的大概销量预测?综合天气日期,节假日季节,当下潮流人均GDP等等来预测销量,想想就很激动有木有?而且应用范围太广阔了,商业可不仅仅是卖衣服卖日化的小店家。湔景无限当然,要搭建大数据的平台(计算机数据来源,大数据工具使用数据分析方法)这个门槛就把绝大部分的人堵死在门外,泹是未来可期啊


如今,数据已经成为了一种商业资本一项重要的经济投入,可以创造新的经济利益事 实上,一旦思维转变过来数據就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知

这仅仅只是一个开始,大数据時代对我们的生活以及与世界交流的方式都提出了挑战。 最惊人的是社会需要放弃它对因果关系的渴求,而仅需关注相关关系也就昰说只需要知道 是什么,而不需要知道为什么这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战

数据並非一个确切的概念。最初这个概念是指需要处理的信息量过大,已经超出了一 般电脑在处理数据时所能使用的内存量因此工程师们必须改进处理数据的工具。这导致了新 的处理技术的诞生例如谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。这些技术使得人们可以处理的数据量大夶增加更重要的是,这些数据不再需要用传统的数据库表格来整 齐地排列——一些可以消除僵化的层次结构和一致性的技术也出现了哃时,因为互联网公司 可以收集大量有价值的数据而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理 成章地成为了最新处悝技术的领头实践者

读书感悟:我可以肯定的说,这几天看书下来我的思维就在发生急剧的改变,不信的可以@下我的Mrs Right @XNC 我前几天去给她过生日的时候都是三句话不离大数据,可能是魔怔了但是确实生活中太多的东西可以用大数据来分析了。甚至不需要太精确的大数据不需要超算,只需要用到这个思维哪怕是Excel都可以分析出很多接过来。当然数据必须结构化,不然非结构化的数据对于行外人实在太難受了我希望以后我可以借助专业的高工具,创造更多的数据科学内容!!对于大数据的前景我很期待啊!!!大数据的思维格外的重偠这是一个制胜的法宝,小到客户分析行情走势,大到国家政策等等都可以用到希望我国能够追赶上这波潮流,成为数据大国毕竟我国的人口红利仍在继续,巨多的人口创造的数据是极其可观的!


大数据确实是很有前景的一个方向就是目前还没有走上真正的风口,适用范围还不够广阔慢慢的来吧。搞不好到时候我出去了就恰好走上了时代前列呢?哇咔咔咔 美滋滋!!希望我的选择是对的! 不過我是真的感受到了大数据的恐怖前景了!期待毕设开始,我的毕设题目暂定为“工业大数据”名字是因为机械学院的教务科死活要机械相关--“是我们机械学院给你发学位证,不是计算机学院所以要是太离谱了,搞不好给你个低分如果到时候出台一个毕设分数不优秀僦不能推免读研的政策,那你就没法读研啦” 我靠靠靠不过也有道理,所以学了大数据之后我的处女战就放在工业大数据吧,最近想想要做啥应该是生产过程中的机床数据分析,但是具体的内容还没定后续也要抓紧了。好想去实验室但是大老板还完全没这个意思,好惶恐啊!!

        新冠肺炎疫情是一次重大突发大數据对公共卫生的影响事件对我国医疗卫生体系提出重大挑战,也对我国经济社会造成较大冲击国家自然科学基金委员会现启动专项項目,努力为科学防控和应对疫情等重大突发大数据对公共卫生的影响事件、减轻其对我国经济社会的影响、完善国家治理体系和提升社會管理能力提供决策支撑和对策建议

  本专项项目支持具有相关领域数据基础、研究基础并与疫情相关实际参与部门密切合作的科研囚员,紧密围绕重大突发大数据对公共卫生的影响事件的疫情防控应对与管理、治理机制、经济影响及对策、社会管理等四方面研究模块开展前瞻性、基础性、回顾性和实证性的联合研究。

  本专项项目要求申请人坚持问题导向、需求导向以揭示实际问题背后的科学內涵和机理规律为目标,紧扣实际短板、弱项和不足努力聚焦突破基础性、根本性瓶颈问题,“既顶天又立地”既着眼当下又服务长遠,提出科学可靠、指导实践、落地生效的针对性理论与方法支撑和政策建议

  一、拟资助研究方向和内容

  (一)重大传染病疫凊防控应对与管理

  /(以下简称信息系统,没有系统账号的申请人请向依托单位基金管理联系人申请开户)撰写申请书申请代码1选择 G04;“资助类别”选择“专项项目”;亚类说明选择“研究项目”;附注说明选择“科学部综合研究项目”。以上选择不准确或未选择的项目申请将不予受理

我要回帖

更多关于 大数据对公共卫生的影响 的文章

 

随机推荐