收集大数定理告诉我呀,

李德毅院士:大数据挖掘带动的变迁
李德毅院士在题为“大数据挖掘”的演讲中重点强调:大数据标志一个新时代的到来。不仅是数据库、存储、挖掘等技术的变迁,更是数据资源的价值挖掘和价值转换,精神和文化方面的崭新变化。
【CSDN现场报道】第六届中国云计算大会于-23日在北京国家会议中心拉开帷幕。本次大会立足实践,以国际化的视野,帮助与会者了解全球云计算技术的发展趋势;从应用出发,探讨交通、医疗、教育、金融、制造、数字娱乐等行业领域的实践经验;并通过技术专场、产品发布和培训课程等方式,深度剖析云计算大数据的核心技术。中国电子学会云计算专家委员会名誉主任委员、中国大数据专家委员会顾问中国工程院院士 李德毅中国电子学会云计算专家委员会名誉主任委员、中国大数据专家委员会顾问、中国工程院院士李德毅在题为“大数据挖掘”的演讲中重点强调:PB时代是对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战。大数据标志一个新时代的到来。这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值挖掘和价值转换,以及由大数据挖掘带来的精神和文化方面的崭新现象。以下为演讲实录:李德毅:各位同仁,尤其是年轻的IT工作者们,很高兴在这里跟大家分享我对云计算和大数据的一些认识。我的报告题目是“大数据挖掘”。自从大数据引入了人们的视线之后,人们普遍讲的是三个字“大数据”。它讲的是PB时代的科学,本质上大数据的挑战是PB时代的科学的挑战。在这么一个大数据时代怎么做数据挖掘呢?人们用很多的面来形容大数据,其实大数据的主要来源有三个方面,第一就是这个地球,自然界的大数据,这么多的卫星绕着地球转,我们看看每天要下载多少数据量?生命大数据、生物大数据,尤其是每一个人体的大数据也是一个重要的来源。对于我们IT工作者来说,我们更关心的是社交大数据,每天你拿着手机、拿着笔记本来回折腾了半天,这些数据对你起作用了吗?PB时代对科学的挑战更是对包括数据挖掘在内的认知科学的挑战。奥巴马就职演说当中,每一个人后面都有大数据的支撑,我点到谁,你就能告诉我他的大数据吗?一个人,一个社会的活动人非常了不起,他有他的身份、情感、职业、年龄、性格等等,假如现在给你一张全家福,你能不能从他们的人脸识别当中告诉我谁是儿媳妇、谁是女婿?这么多人脸下,怎么把人脸识别清楚呢?现在我们北京市有80万个摄像头,每天照着我们大家,我们可以利用摄像头做身份认证、年龄识别、情感计算、亲缘发现、心理识别、地区识别、民族识别,都很有用处。这种流媒体主要的形态是非结构化的,特征之间的关联关系、设备算法的准确率等等,都严重的制约着大数据人脸挖掘的进度。由技术推动的计算机发展那么怎么办?我们还是要回归一下计算机所发展的历史,1936年天才数学家图灵提出来一个图灵模型,后来有一个计算机,把图灵模型转化为物理计算机,有三大块,一块叫做CPU,操作系统,还有一大块叫做内存和外存,还有一块就是输入和输出。在计算机发展的头一个30年里,我们感兴趣最多的是CPU、是操作系统,是软件、是中间件、是应用软件。这时候代表信息技术发展速度的可以用摩尔速度来表示,它告诉我们微电子发展是18个月可以翻一番的,所以我们侧重于计算性能的提高,我们把这个时代叫做计算时代,计算,尤其是高性能计算机,人们花了很大的精力研究,它带动了存储,也带动了输入输出,这个时间大概用了三四十年。计算领先、存储交互也跟着发展。在这样一个计算领先当中,我们主要做的是结构化数据的挖掘,我们要提起一个伟大的学者,他的名字叫埃德加,他在1970年提出一个关系模型,用二维表形式表示实体与实体间的联系。三四十年来,各行各业的数据库和数据仓库技术,以及从数据库发现知识的数据挖掘成为巨大的信息产业。关于数据库之父,美国工程院院士获奖了1980年的图灵奖,他这篇论文是1970年写的,讲的是共享数据银行的关系。关系数据库有严格的顶层设计,为构造良式关系,必须消除元组中不合适的依据依赖。我们每一个IT计算机本科生都学过这样的技术,对这样的关系运算,结果仍然是关系。关系代数是关系数据库的形式化理论和约束,先有顶层设计和数据结构,后填入清洗后的数据。数据围绕结构转,数据围绕程序转。用户无需关心数据的获取,存储、分析以及提取过程。通过数据挖掘,可以从数据库中发现分类知识、关联知识,时序知识、异常知识等等。随着数据库产业的膨大,人们对数据库已经不太满足了,于是把Databases说成是大数据,但是不管怎么大,遇到了两个不可回避的挑战,第一是由于关系代数的形式化约束过于苛刻,无法表示现实数据怎么办?第二个挑战,随着数据量的增大,关系代数运算性能急剧下降,如果是一个TB的关系数据库,两个表做一个交易,要几十个小时,人们忍受不了,这两个挑战就意味着心里方法的存在。就在这个时候,我们的存储技术得到了迅猛发展,大家知道,存储、内存、外存、硬盘越来越普遍了,当上海俞正声书记提出1+TB的时候,这个钱谁来买单?现在我们可能都有一两个TB,一个TB400块钱就买到了,所以人类进入了搜索时代。搜索因为存储便宜了,存储的速度大概每9个月翻一番,这在中国也好、全世界也好,谁能干就多干一点活,所以存储带动了技术的脚步,这种搜索时代经过了20多年,于是我们进入了一个半结构化数据挖掘时代。这个时代代表人物就是万维网之父Tim,他提出了超文本思想,开发了世界上第一个Web服务器,于是我们可以从一台服务器上检索另一台服务器的内容,服务器在软件支持下可发布包括文本、表格、图片、音视频的碎片化超媒体信息。因此,客户端服务器结构和云计算结构蓬勃产生,在这时候我们已经没有了关于代数那样严格的形式化约束,依靠的主要是规范、标准,所有媒体均以实体形式存在,甚至是软件,实体通过超链接产生联系。形式化理论比关系代数宽松了许多,创建了灵活多样的实体,这时候数据开始围绕实体转,实体围绕链接转。挖掘就是在云计算环境下搜索和个性化服务,没有死板的查询方式,也不是唯一结果,允许带有不确定性,重视搜索的统计性质。各种各样的关键字搜索引擎,语音、图片、视频搜索引擎在互联网上出现了繁荣的内容服务。随着这些服务的普及,又遇到了新的挑战,千人一面的数字服务受到了质疑,如果同一个人问同一问题它不可改变,当一万个人再问的时候,它可能有所改变,人们觉得这个还不好。大数据时代技术的有效性要比科学的完整性更为重要水不转,云在转。这是我报告的第二条。随着互联网贷款6个月翻一番的速度,它比9个月翻一番、18个月翻一番要快,你的带宽有能耐就多起点作用,于是人类进入了交互时代,交互带动着计算和存储。水不转,人在转。移动互联网时代的大数据挖掘主要是网络化环境下的非结构化数据挖掘,这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据。这种非结构化数据有什么特点呢?它常常是低价值、强噪声、异构、冗余冰冷的数据,有很多数据放在存储器里一辈子没再用过。数据的形式化约束越来越宽松,越来越接近互联网文化、窗口文化和社区文化,我们现在的青年人不要学什么东西,只要会玩手机,越玩越熟悉,因为他已经进入这个文化之中。关注的对象也发生很大改变,挖掘关注的首先是小众,只有满足小众挖掘需求,才谈得上满足更多小众组成的大众的需求,因此一个重要思想,就是由下而上胜过由上而下的顶层设计,强调挖掘数据的真实性、及时性,要发现关联、发现异常、发现趋势,总之要发现价值,但是它未必注重因果、未必注重主次、未必注重时序,更未必发现普遍的知识。移动互联网时代的大数据挖掘过程当中,数据的简约具有自适应性,不必具有固定特征或者层次。许多年来,我的课题组提出一个方法,叫认知物理化方法,对128×128的象素组成的人脸,如果他们的数据场是等价的话,我们可以用28个特征点数据来等价这个流媒体数据。对另外一张人脸,它可以变成254个数据、59个数据,这是非常不同于结构化、半结构化的。当前,深度学习也是一种数据自适应简约,百度人工智能建设院的吴教授他们就开展了这方面的研究,如果我们在百度上用深度学习搜索一个人脸象素搜索,这么多人脸谁是谁?是他吗?数据量急剧增加,各种媒体形态可随意碎片化,组织结构和挖掘程序要围着数据转,程序要碎片化,并可以随时虚拟重组,挖掘常常是人机交互环境下不同社区的发现以及社区中形成的群体智能,在非结构化数据挖掘中,会自然进行数据清洗和逐步强形式化,自然形成半结构化数据和结构化数据,以提高数据使用效率。 &因此我们用网络化的大数据挖掘方法,首先要是在这个复杂的人人都连网的情况之下找到一个特定问题的社区,因此由社区发现成为大数据发展的首要问题,要研究社区成员,就必须要研究他们之间的相连关系,要研究他们的交互形态,显现的形态有评论、心情、收藏、购买、评分、顶踩、分享、转载、加为好友、邀请等等,这些统计数据都成为我们挖掘的基础。隐形形态有跳转、浏览、翻页、收听、观看、聊天、点击、取消、会话中断、黑名单等等。交互的特点可以从频繁性、增量性、主动性、广泛性、多样性、持久性去研究社区成员的连接强度。我们利用拓扑势方法挖掘社区,我们还要发现在一个社区中,谁是一个领头羊,谁是第二个领头羊,成员的角色和重要性,成员之间的关系等等。在现实生活中,人类的某个概念,或者世界的认知经过一段时间的反复交互、汇聚、修正、演化,群体形成趋于相对稳定的共识。合作编辑下的维基条目,社会化标注等都是这种过程中的生动再现。群体智能是一个最近说得越来越多的词,大家知道我们曾经在计算机上做一个图灵测试,让计算机区分哪些码是人产生的,哪些是机器产生的,这是卡内基美隆大学提出来的,在网络购物、登录网站、申请网站时都会碰到适配码被使用。这里我要提到第三个代表人物,他叫路易斯,他提出用这个适配码应用方式。路易斯提出能不能把129年的报纸扫描,把图片碎片化,变成检验码,让大家去识别,这样一来,如果每天有两亿个检验码,从而一下子就把129年的纽约时报实现数字化,这就是群体智能。有些事情计算机做得很好,人做不好,有些事情人做得很好,很简单,计算机做不好,怎样把这两个优势加在一起呢?于是就有了群体智能。所以云计算支撑大数据挖掘要发现价值的话,我们认为云计算本来就是基于互联网的大众参与计算模式,其计算资源是动态的,可收缩的,被虚拟化的,而且以服务的方式提供。 产生摆脱了传统的胖配置带来的系统升级开柙,更加简洁、更加灵活多样、个性化,手机、游戏机、数码相机、电视机差别细微,出现更多iCloud产品,界面人性化个性化,可成为大数据挖掘的终端。挖掘员支撑各种各样的大数据应用,如果我们有数据收集中心、存储中心、计算中心、服务中心,一定还有数据挖掘中心,这样一来,我们就可以实现支撑大数据的及时应用和价值的及时发现。云计算产生的众包思想已经被大家接受,无论是电影行业,还是搜狗的输入方法,还是摄影照片共享,还是T恤衫的设计购买,说明众包是怎么样完成生产购买的。因此我们可以设想,在互联网环境下,利用人的认知和大众间的交互,融合计算机存储对大数据挖掘,形成群体智能,这样一来,我们提出一个新的概念,叫众挖,大家来挖。用户无需关心数据的形态,无需关心数据的获取位置、结构模式、存储方式以及分析过程,得到的就是及时的足够满意的挖掘结果,MaaS,谁是挖掘时代的谷歌呢?大数据时代技术的有效性要比科学的完整性更为重要,如果说科学是解决形而上的问题,技术是解决行而下的问题的话,我们回顾一百年来的历史,在上世纪的后半世纪,我们有了1930年的图灵模型,1970年我们有了物理的计算机,80年代,我们开始了关系数据库和产业,后来我们有了专家系统,在前50年大概都是科学引领技术发展,科学是技术先导。现在情况发生了变化,云计算的形而上是什么呢?有人说是网络科学,大数据的形而上是什么呢?有人说是数据科学。数据结构的形式化约束由强到弱的演变非常明显,70年代是强约束,后面的Web计算是半结构化约束,到现在我们用的这些微机、手机、物联网传感器,越来越弱约束,弱到什么程度?弱到我们这个社区文化的常识就可以了,就好象说我们在城市里交通行人靠右走。所以,我的基本结论是大数据标志一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来方便的多样化的信息服务,同时还包含区别于物质的数据资源的价值挖掘,以及价值转换,虚拟世界的信息价值挖掘导致更加精确的控制物理世界的物质和能量,以及由大数据挖掘带来的精神和文化方面的崭新现象。于是,我们可以看一看从三四十年前的计算时代到二三十年前的搜索时代,到今天开启的交互时代,我们依然会想起那英唱的那首歌,山不转水转,水不转云转,云不转心转,再深的巷子也能走出那个天,再大的数据也能绕过那道弯,谢谢大家!&&更多精彩内容,敬请关注,关注新浪微博直播&。
本文为CSDN原创文章,未经允许不得转载,如需转载请联系market#csdn.net(#换成@)
CODE官方微信
扫描二维码关注
微信号:CSDN_CODE香港大数据:用大数据可减低职场性别薪酬差距 - 推酷
香港大数据:用大数据可减低职场性别薪酬差距
社会上向来都存在着工资差异,年资、性别、年龄等都会有工资差异。随着科技发展,塬来使用大数据能够分析工资、技能、名声等资讯,找到工资差异的理由、地点、所在企业,让人力资源透明度大大提高,因此我们可以利用科技作出工资搜查,为自己谋最大利益,这或许能减少工资差异。
性别歧视依然存在
女性地位其实还不如男人重要,根据 Catalyst 分析了约一千所企业裡的 CEO ,女性只佔了其中的 5% 。显然易见一组数据,美国劳工处指出,女人只能赚取男人所赚得的 82% 工资,而拥有孩子的女性更只赚得男性的 75% ,以相同职位及工作量计算。
这些数据都是令人灰心,但事实上到今时今日还是有这样的现象出现,即使强调自由、平等的世界大国-美国也出现这样的现象。不过,人们看来也习以为常,接受了这个现实,很少听到有人因为性别工资差异而展开游行或请愿。根据世界经济论坛指出,这种差异很可能到 2095 都仍然存在,在未来一代、或两代女性,也许会因为性别差异问题而减低投入市场动力。
数据分析可助暸解工资差异
数据分析可为工资差异打破格局。数据分析及微定位并不只是应用在零售商和政治方面,它们可以助我们提升职业女性地位及拉近性别工资差异。僱主透过公司内部招聘进行分析,可追踪到其实有不少女性都合乎该职位资格,但她们都从来没有申请。我们可以一样以此利用,在她们离开职位后分析女性工资及歷史排名,同样地我们可以使用大数据分析,告诉我们面试应该有甚么能让企业得到。
Facebook 帖文、 Twitter 推文及 LinkedIn 群组提供了大量有价值资讯予前度僱主。用家所写的都是率直、坦诚及有用的资讯。那儿所有数据都有巨大作用-我们只需收集这些数据及加以分析,就能有真正用处。我们可以透过这些渠道搜索最佳人选,找出方法令自己维持名声、以及分析为何女性领导落后于男性领导。
科技带领人们发展
大数据分析应用在人力资源上,无非都是想改变现状,减少歧视令人们处于公平位置。如果人们对自身工作感到停滞不前,可以找寻晋升或其他机会;如果觉得自己工资被低估、可以要求加薪。不过最重要都是一个团队不论男女,都能互相合作,而不是用过去、传统眼光认为男人的领导能力偏高,受到性别歧视而产生麻烦。
今天在香港,女性地位已大大提高,在办公室裡很多时都是女性主导。在科技快速发展同时,数据分析的力量也帮助人们推进。
已发表评论数()
&&登&&&陆&&
已收藏到推刊!
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见Hi,这是的腾讯微博,人海茫茫相遇不易,立即登录,别错过!
正在加载...
Copyright & 1998 - 2015 Tencent. All Rights Reserved数据告诉我_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
18页免费14页免费2页免费2页免费5页免费3页免费7页免费6页免费10页1下载券2页免费
数据告诉我|
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢地力之生物有大数,人力之成物有大限,取之有度,用之有节,则常足;取之无度,用之无节,则常不足.什么意思啊``~?
快告诉我``具体点``
最好写一句字`` 再告诉我意思``_百度作业帮
地力之生物有大数,人力之成物有大限,取之有度,用之有节,则常足;取之无度,用之无节,则常不足.什么意思啊``~?
快告诉我``具体点``
最好写一句字`` 再告诉我意思``
地力之生物有大数,人力这成物有大限,取之有度,用之有节,则常足,取之无度,用之不节,则常不足. 这就是说,自然界所创造的资源是有限的,由人来加工成品的资源也有限.而取时有量,用时节约,则常常能满足人类所需.如果相反,取时无量,用时浪费,那地球上公有的资源也会很快消失. 总之,就是说:无论人力还是物力都要合理使用,不要涸泽而渔,不管自然固有的还是通过人们劳动生产出来的物质和资源,都不是“取之无禁,用之不竭”的.凡事都是有限度的
大自然所自生的物品有一定的数量,人力所产生的是极有限的,索取应有限度,用时有节制,才可长期富足;索取无限度,使用无节制,则不能长期满足。
这是唐太宗说的,意思是每当到吃饭的时候,农民便会想到种庄稼时付出的辛勤劳动;每当穿衣服的时候,纺衣服的人便会想到纺衣服时的辛苦 稼穑’,这是书面用语,意思是农业劳动。稼,是种植的意思。穑,指收割谷物。” “每一食,便念稼穑之艰难;每一衣,则思纺绩之辛苦。”教育子女从小珍惜劳动成果,对劳动人民存感激之心,这是在培养孩子一生人品之根基,根基里包容着人的良知和善心。可见奢侈是一种罪过...
地力之生物有大数,人力这成物有大限,取之有度,用之有节,则常足,取之无度,用之不节,则常不足。 这就是说,自然界所创造的资源是有限的,由人来加工成品的资源也有限。而取时有量,用时节约,则常常能满足人类所需。如果相反,取时无量,用时浪费,那地球上公有的资源也会很快消失。 总之,就是说:无论人力还是物力都要合理使用,不要涸泽而渔,不管自然固有的还是通过人们劳动生产出来的物质和资源,...
地球上的资源是有限的不是取之不尽,用之不绝。如果人们能按时按量进行使用,有节制,自然资源也不会枯竭,继续为人类做贡献。反之,截然不同。资源被人们浪费,滥用,造成严重的损失,最后受害的还是人类。呼吁我们要保护地球,节约资源。...
自然界所创造的资源是有限的,由人来加工成品的资源也有限。而取时有量,用时节约,则常常能满足人类所需。如果相反,取时无量,用时浪费,那地球上公有的资源也会很快消失。
自然界所创造的资源是有限的,由人来加工成品的资源也有限。而取时有量,用时节约,则常常能满足人类所需。如果相反,取时无量,用时浪费,那地球上公有的资源也会很快消失。 总之,就是说:无论人力还是物力都要合理使用,不要涸泽而渔,不管自然固有的还是通过人们劳动生产出来的物质和资源,都不是“取之无禁,用之不竭”的。凡事都是有限度的...

我要回帖

更多关于 生活中的大数 的文章

 

随机推荐