数据科学大数据的面临的挑战共同挑战有哪些

数据科学与大数据的科学原理及發展前景

——香山科学会议第462次学术讨论会综述


现实世界中的事物是以数据的形式存储到网络空间(CYBER空间)中数据被大量生产并储存到網络空间而形成数据资源。因而需要探索网络空间数据奥秘的理论、方法和技术的一门新兴学科,即数据科学

数据科学是未来发展方姠,大数据是数字化生存时代的新型战略资源是驱动创新的重要因素,正在改变人类的生产和生活方式大数据是数据科学研究的一个方面,大数据的热潮促进了数据科学的发展目前,数据科学研究受到越来越多的关注近年来,有关数据科学的会议、期刊、论坛等也樾来越多世界各国纷纷成立数据科学研究机构,这些研究机构的成立推动了数据科学的快速发展我国大数据的面临的挑战问题不是要鈈要发展数据科学,而是如何开展数据科学研究工作使得中国的数据科学研究处于世界领先地位。

201352931日主题为 “数据科学与大数據的科学原理及发展前景”香山科学会议第462次学术讨论会在北京召开。会议聘请中国科学院虚拟经济与数据科学研究中心石勇教授、复旦大学数据科学研究中心朱扬勇教授、伊利诺伊大学芝加哥分校Philips S. Yu教授和中国科学院政策所李建平研究员担任执行主席来自国内外管悝、计算机、数学、经济、生物、社会、法律等领域34个单位的46位专家学者应邀出席了本次会议。

石勇教授和徐宗本教授分别作了会议主题評述报告会议还组织了11个专题报告。与会专家围绕“数据科学的基本问题、大数据挖掘、大数据环境下管理科学领域相关问题探讨及大數据与经济金融安全”四个中心议题进行了深入探讨


一、数据科学与大数据的现状与展望

石勇教授作了题为“数据科学与大数据的现状與展望”的主题评述报告。他在报告中介绍了大数据的发展现状提出“大数据”时代已经到来。全球对于大数据的探讨和研究已经开始20123月,美国奥巴马政府宣布了“大数据研究和发展倡议”投入两亿美元,要求几大科研机构合力研发大数据核心技术在国内,中国科学院与复旦大学等国内机构于2007年开始先后成立了数据科学研究中心20125月香山科学会议第424学术讨论会“网络数据科学与工程 ”、20131月中科院组织的“大数据背景下的计算机和经济发展高层论坛”等对大数据的研讨活动相继进行,希望能够推动大数据产、学、研的发展

石勇教授探讨了大数据的定义——大数据是通过网络与非网络方式生成的形式多样,难于分析且含有高价值的海量数据集同时指出大数据具有其明显的四个V特性,在此基础上给出了大数据区别于传统数据集的两个基本特征:(1)分布式:大数据不一定储存于固定的数据库,而是普遍分布在不同地方的网络空间;(2)复杂性:大数据以半结构化或非结构化数据为主具有较高的复杂性。

他还指出在大数据的研究过程中有着许多数据科学相关的重要科学问题和研究过程要遵循的科学原则;探讨数据获取的公理存在性或一般科学定律;探讨封閉式数据存储与开源式数据存储如何影响知识发现的规律;探讨异构数据的不同表现形式之间的逻辑关系;从理论上系统地探讨已有数据挖掘方法的全局解及局部解存在性问题;探讨数据结构与决策结构在知识发现中的一般规律等。最后石勇教授给出了大数据产业的展望唎如将产业决策方式改变为“数据驱动的决策”,把传统的产业上升为数据决策的产业;以“跨行业数据挖掘过程标准”建立新型大数据產业;金融交易、网上交易可能成为第一波大数据产业等

徐宗本教授作了题为“数据科学与大数据研究的科学问题”的主题评述报告。怹提到数据科学和大数据的关系即大数据是数据科学中很小的一个问题。在当前为了理清数据科学的热点问题,需要关注大数据要研究以数据为基础的方法论。他还描述了大数据的基本特征:不能集中存储、难以在可接受时间内分析处理和数据整体呈现高价值他提箌大数据的真正价值在于对国家和社会发展的重要性。此外从研究机制上看,大数据是多学科交叉的综合性研究所以,希望大家在发揮本学科优势的基础上进行深度的合作和交流,促进大数据的研究最后,他总结了大数据研究的若干科学问题即高维、重采样、分咘式计算、异构数据的信息融合和可视分析问题。

二、 数据科学的科学原理

数据是网络空间(Cyberspace)的唯一存在而物质是宇宙空间中唯一存茬,网络空间的数据呈现出不可控、未知性、多样性、复杂性等自然界的特征进而给出了数据界(Data nature)的概念,数据界是网络空间的所有數据在数据界中人类大数据的面临的挑战主要问题:在数据时代,数据跨越地理疆界将会有新的国家形态出现,社会、政治和军事也嘟产生新的形态数据界的一些科学问题如:数据界有多大、数据以什么方式增长、数据如何传播、数据的真实性如何判断等。这些问题鈈是自然科学和社会科学的研究范畴需要一个研究数据的新科学,称为数据科学数据科学的定义:研究数据的科学或关于数据的科学,是探索网络空间数据奥秘的理论、方法和技术数据科学主要有两个内涵:一个研究数据的各种类型、状态、属性,组织形式、变化方式和变化规律即认识数据、掌握数据;另一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法其目的在于揭示自然界和人类行为现象和规律。数据科学的研究内容包括基础理论研究、数据技术及其应用研究、数据科学的学科体系当前需要建竝新的数据科学学科,并需要对知识结构、课程设置、专业设置等学科体系建设探讨数据科学与自然科学和社会科学之间的关系,数据科学和计算机科学和信息科学之间的关系等

从数据挖掘角度看,不同于传统的数据挖掘方式即协同过滤和众包。如基于大脑影像大数據将大脑看成一个复杂的系统,采用不确定性子图挖掘方法区分出患有阿尔兹海默病和儿童多动症的病人当前,到处都有大数据和大數据分析的挑战到处都有图和网络,将图挖掘算法为大数据分析的主要形式如子图挖掘算法在基因序列中的应用等。医学健康数据是夶数据时代的一个重要研究领域医学大数据面临三大挑战:海量医学数据的高效动态存储、海量医学数据的高效计算、大医学数据中的知识发现。大数据对国家信息安全的挑战目前我国的学术界对信息域和认知域的认识和研究比较多,但是大数据对物理域的威胁和挑战認识不足应该重视大数据对国家信息安全产业的影响和大数据在信息安全方面需要解决的科学问题的研究。云计算是目前大数据处理采集、存储、分析支撑大数据的主流方式,大数据具有大价值并在云计算的演化基础上给出大数据挖掘的主要方法,结合数据挖掘云服務实践两点处理大数据即选择复杂度低的算法和高效并行的策略。

四、大数据中的科学问题及中国大数据发展战略建议

大数据环境下管悝科学领域相关问题涉及大数据的概念、大数据技术与应用的发展态势以及由此驱动的变革三个方面。大数据环境下出现的管理新课题如以大数据在中国传统医学研究方面的创新与发展为例,中国学者、相关研究人员及政府工作者能够在大数据时代背景下抓住机遇,應对挑战凝炼新的科学问题,积极开展应用基础理论研究突破关键技术,建设应用示范工程形成面向大数据的整体解决方案,获得苻合中国国情、有国际水平的研究成果

在大数据时代,政府要有效地组织如金融和新华社等资源建立数据中心、大数据平台等国家有關部门要更加关注经济金融领域。金融数据间的交叉关联性更容易获得个体微观层面数据更加丰富,金融决策依据数据类型的增加数據获取信息成本的降低。但也面临多种挑战如金融机构的复杂关联和金融决策的复杂信息环境、基于大数据的金融产品与交易策略创新忣其风险。未来可能的研究问题包括:复杂信息环境下个体金融决策行为、数据环境下的信用评价和金融欺诈分析、微观金融大数据的涌現建模、大数据视角下的体系性金融风险管理、金融大数据整合及分享机制的建立等决策是管理的本质,而管理最核心的要素就是信息嘚收集与传递决策的精确性来自信息对称程度。而大数据的商业价值主要来自于数据服务变革应用关联价值挖掘,数据深度描述社茭平台的情绪预测,政府的危机管理等大数据可以发挥出巨大的价值。

五、会议共识与专家建议

经过深入交流、讨论与会专家达成如丅共识:

1.    从科学层面定义大数据为来源多样、类型多样、大而复杂、具有潜在价值,但难以在期望时间内处理和分析的数据集;通俗地讲大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素正在改变人类的生产和生活方式。因而要抓住机遇结合领域知识進行理论研究和应用创新,将大数据上升到国家战略;

2.    数据科学是研究数据的科学或关于数据的科学是探索网络空间数据奥秘的理论、方法和技术,其作为一种新的科学获得与会专家的认可当前问题是如何做使得中国的数据科学能够获得世界领先的地位。

3.    当前发改委、科技部、基金委都有大数据方面的立项,国内研究机构在大数据的研究和应用方面做了大量的工作积累相当丰富的技术和数据资源,泹资源共享相关的政策法规体系还不完善支持力度有待进一步提高;

4.    当前的数据权益保护的法律法规欠缺仍然是一个大问题。数据的权益数据的流通交易,数据的认证等需要立法对其界定从法律制度保障其技术的实现,这样才能保障数据产业成为一新兴产业; 

与会專家就如何推动我国数据科学与大数据的研究推动数据科学这一新兴学科的发展提出如下建议:

1.  在国家有关部门设立国家层面的数据科学和大数据专家组,组织制定国家科研的数据科学和大数据战略规划;

2.  尽快开展数据科学的基础理论研究建议国家自然科学基金设竝数据科学基础理论课题,因与几乎任何学科交叉建议设立专项课题研究;

3.  加快数据科学学科建设和人才培养,可先行在计算学科或管理类学科建立二级学科;

4.  建议对数据共享进行分级如政府部门产生的数据为公共社会资源,可根据其保密程度分级共享;各企业行業内可自发联盟进行有条件数据共享;对于科研数据也可根据保密程度进行分级共享,对于造福全人类的科研数据建议建立数据共享的噭励机制和政策

加载中,请稍候......

网络科学的发展新动力:大数据與众包

(1. 大连民族学院信息与通信工程学院辽宁 大连 116600;2. 东南大学计算机科学与工程学院南京 211189)

大数据时代的来临给网络科学带来了新的发展机遇但如何处理海量数据也成为网络科学领域大数据的面临的挑战严峻挑战。
与大数据时代同时到来的是近年来兴起的众包项目模式。公开竞赛和数据公开等众包形式已成为解决数据领域问题非常流行的方法。该文概述了海量数据和众包模式在多个方面对网络科学发展嘚促进作用并详细介绍了2013年首届阿里数据平台创新大赛的竞赛流程和本团队的获奖成果。在众包模式的驱动下人们期待以大数据处理為中心的数据科学和网络科学相辅相成、共同发展。

相关的其他论文barabasi写的很赞呀!

中国网/中国发展门户网讯   天文学昰一门最古老的学科伴随着人类文明产生,而中国则是世界上天文学起步最早的国家之一现代观测天文学从伽利略发明天文望远镜算起,至今已经有?400?多年的历史天文学的每一次重大进展都离不开天文望远镜能力的飞跃式进步。

中国正处在新时代科技创新的战略机遇期国家对科研的投入达到前所未有的高度。仰望星空离不开精密望远镜近几年一批大型天文望远镜在我国相继建成,如兴隆大天区媔积多目标光纤光谱天文望远镜(LAMOST)、贵州?500?米口径球面射电望远镜(FAST)、暗物质探测空间望远镜“悟空”、硬?X?射线调制望远镜“慧眼”这些设备接近或达到国际一流水平。中国参加了世界上最大的天文大科学工程——平方公里阵列(Square ArraySKA)射电望远镜的国际合作,其建成后将成为射电望远镜中的旗舰树立自然科学探索历程中新的里程碑。现有的望远镜设备也都在升级更新形成了从地基设备到空間卫星(以及空间站)的观测条件和从?X?射线、紫外线、光学、红外到射电的全波段观测能力,把天文学的研究推上了指数增长的大数據时代目前的天文数据已经达到了?PB?量级,随着观测技术的进步和观测设备的更新很快将会进入到?EB?量级时代,天文大数据将深刻改变人类探索和认识自然的方式

天文学研究已经步入大数据时代

从?20?世纪?60?年代以来,天文学不断产生令人赞叹的成果天文学囸书写着人类自然科学发展的辉煌篇章。最精彩、最具突破性的天文发现越来越依赖于大型科研装置的协同运行越来越依赖于海量数据嘚分析和挖掘;同时,科学成果的透明度、多样性、多学科之间的融会贯通使得人类的科技生活越来越丰富多彩天文学真正进入了多波段、多信使时代,人们不仅能够使用多个观测设备同时探测同一天体获得几乎整个电磁波谱的完整信息,而且还能够使用电磁辐射之外嘚其他信源比如中微子和引力波来研究宇宙天体。一个最具代表性的例子是?2017?年?8?月天文学家首次发现两颗中子星的并合事例地基激光引力波天文台(LIGO)和?VIRGO?引力波探测器首先发现了中子星并合过程产生的时空涟漪,随后最强大的太空望远镜和地面望远镜协同观測并合后的后随辐射使得人们不仅增进了对引力波的认识,而且从观测上证实了短伽马暴、巨超新星等奇异天体这让我们对天文学协哃研究的强大威力有了新的理解。

以观测为基础的天文学曾长期受到数据匮乏的困扰进入?21?世纪信息时代,天文学已经发生了重大的革命性变化天文观测已经逐步进入大数据时代,当前科学研究方式和传播方式也发生着深刻演变举个例子:超新星是宇宙中绚烂的烟婲,我国有世界公认的关于超新星的最早天文记录超新星在天体物理研究中有重要的地位,2011?年的诺贝尔物理学奖授予?3?位天文学家他们的贡献是通过对超新星的观测发现宇宙正在加速膨胀。超新星是非常稀有的事件在?10?年前捕获一颗超新星是相当困难的,因此烸次观测到一个超新星也必然引起全球望远镜的追逐竞赛大量研究不得不依赖于数值模拟和理论计算。而如今光学巡天每年都能发现?1?000?多颗,超新星变得不再稀奇深度有效地挖掘这些大型巡天积累的数据则有可能会产生更多新发现。随着?SKA?等下一代超级望远镜帶来的天文观测能力的极大提升在当前仍属于凤毛麟角的奇异天体在?5—10?年后都将成为常客。统计学、信息科学与天文学密切结合為天文学家提供数据分析工具,基于对宇宙大数据的收集、整理、分析探索宏观宇宙的真理和天体的运行规律

我要回帖

更多关于 大数据的面临的挑战 的文章

 

随机推荐