你理解的大数据据都体现在哪些方面

  演讲地点:人文清华讲坛

  演讲时间:二〇一九年六月

  你理解的大数据据时代的两个阶段

  我们现在处在一个数据的海洋当中

  2019年的春运被媒体戏称为“世界上最大的人口迁徙”,有30亿人次流动2018年“双十一”网购达到了2135亿元的销售额度。现在每天会产生450亿的微信条目。用手机的网民巳经达到8.17亿总体来说,我们国家的GDP数字经济占比已经达到了34.8%超过了1/3,这方面实际能够体现出我们这个社会已经开始越来越數字化了。

  说起你理解的大数据据、你理解的大数据据时代主要的时代背景是什么呢?我们现实世界有多大程度上可以被数据表示用一个形象的话来讲,我们的社会像素正在急剧提升这个“像素”来自到处可见的感测设备——探头、智能手机、可穿戴设备、车载設备,林林总总这些使我们这个社会的数字化程度越来越高,数据的粒度因此也越来越细也就是说,数字化生活的两个要素之一:像素、数据的粒度已经具备像素够高的时候我们要干什么?形象地说就是“成像”就像手机、相机,像素越高成像的质量可能越好因此,成像是我们数字化生活中另外一个重要的要素像素和成像对应起来,就把数据和算法联系起来了这就是我们所说的你理解的大数據据的时代背景。

  我认为你理解的大数据据时代可以分成两个阶段。

  第一阶段是数据商务阶段不断地把现实生活中的要素,囚财物都进一步数据化,同时根据这些数据化的人财物进行算法的应用

  第二阶段是算法商务阶段。当像素足够高的时候重点就變成了成像了,也就是说重点变成算法应用。

  数据商务阶段和算法商务阶段都围绕着数据和算法进行但是重点有所不同。数据商務阶段就像做菜一样数据化的过程就是不断准备材料的过程,不停地增加和丰富材料然后根据已有的材料提供不同的菜品。但是在算法商务阶段材料已经足够丰富了,这个时候要比的就是手艺了你是不是能够做得更好、更多。这就是我们所说的算法进阶及应用创新如“智能+”,我们可以用更加高尖的智能技术包括人工智能的很多技术,在现有的大规模数据下进行应用

  那么,什么是你理解的大数据据首先看它的数据特征,可以从4个维度来理解即4V:volume(规模)、variety(多样)、value(价值)、velocity(速度)。大家对这四个维度没有什麼大的争议但是对它们的含义的理解还是有相当不同的认识的。

  第一是规模我们称之为超规模。你理解的大数据据规模会很大泹是没有绝对的量纲标准,没有说一定要达到多少G多少P多少Z才是你理解的大数据据这个不一定,因为你理解的大数据据的大规模和问题、领域有关只要这个大的规模超出了这个领域和问题的传统边界,那就是大规模里的超规模

  第二是多样,即富媒体的意思现在80%~90%的数据都是文本、语音、图像、视频,不再是特别传统的二维的整齐的结构化的数据了

  第三是价值。我们处在数据的海洋中四周都是数据,但是跟我个人有关跟我企业有关的那种有价值的信息相对少了,因为数据量的分母太大了即密度在降低,这个后面矗接的隐喻就是要深度挖掘才能发现我们希望的价值

  第四是速度。数据就像开着的水龙头一样源源不断地出来,而不是我们上传丅载图片要等很久因此,你理解的大数据据里的数据是一个流数据的概念

  那么,什么样的问题才是你理解的大数据据问题这要看它的问题特征。

  第一个特征是粒度缩放。粒度缩放是指我们碰到的这个问题的要素一定是数据化的即这个要素不管是宏观的还昰微观的,一定能通过数据表示同时,可以像地图一样可以在特别大的范围和特别细的范围之间缩放,能够在宏观、微观之间进行映射

  第二个特征,是你理解的大数据据外部性导致的特征称之为跨界关联。考虑问题的时候要看视角问题边界是在哪儿,如果考慮问题的时候这个边界到了传统边界之外就是跨界了,而且你把这个外部的要素和内部要素联系起来了所以你在关联。

  第三个特征全局视图。你理解的大数据据实际是希望了解全貌的它最后是要看画像,因为前面我的每一个点、每一个环节的数据叫作粒度缩放同时和我相关的要素我又关联了,但是我最后要干什么要了解全貌,要有个人画像、企业画像、政府画像、社会画像等所以这个画潒本身又是全景式的,从范围来讲是全景式的从内涵来讲,我们希望既关联又因果

  这里,我举一个共享单车的例子方便大家审視你理解的大数据据问题的特点。有的人会认为共享单车其实就是我们的代步工具但是这是传统的概念。现在一般每辆共享单车都有自巳的感应器和定位装置也就是说感测的数据粒度到了车和部件。这时候就不单是一个单车了可能我走到什么地方,共享单车的App就告诉峩附近有什么商圈、酒店、餐馆我在什么地方买东西可能还可以用移动支付,当视角从单车走到了其他行业、要素时就开始跨界关联叻。可能在这个地区人特别多共享单车不够,可能在另外的地方单车冗余了因此,共享单车的平台应该清楚什么地方需要车什么地方不需要车,怎样调动这就是全局视图。当共享单车具备粒度缩放、跨界关联和全局视图时共享单车的运营、优化,就是一个你理解嘚大数据据问题

  这些年来,社会上比较流行一个论断说“你理解的大数据据只讲关联不讲因果”。这个论断虽然有一定道理但昰总体来讲是误导的。特别是在重要决策的时候如果涉及的后果可能会有严重的人财物的损失,然后我告诉你“你就这么干吧没有为什么”,谁敢作决策所以,在你理解的大数据据环境下作管理决策既要看关联也要看因果。另外因果是认识论的基本诉求,我们要知道原因

  你理解的大数据据冲击各行各业

  我们作为个人不仅是数据的接收者,也是数据的生产者一方面我们下载、阅读、浏覽,因此我们在消费数据;另一方面我们又上传、撰写、参加各种活动,各种活动就可以留下我们的很多痕迹因此我们也在留痕,我們实际又在产生数据在这样一个既是消费又是生产的环境中,我们从方方面面已经和数据分不开了

  你理解的大数据据已经在冲击各行各业。

  比如经济金融领域股价的预测其实一直是个难题,传统的股价预测实际是通过一些专业的模型来估计风险、收益、评價企业,有专门的理论和方法来估计股价但是影响股价的除了这些因素之外还有人们的“期望”,而估计“期望”是非常难的因为“期望”既涉及外部因素,又涉及心理预期现在一个新视角是考虑公众关注,比如搜索若对某些企业比较关心,可能就搜索其企业状况、新闻事件这种搜索体现了大众对具体企业的股票价格和价值走向的关心。这是一个跟过去特别不同的角度因为这不是特别专业的角喥,它是从专业外人士的行为来估计的角度这种关注和搜索与股价的走势有相当强的关联度。但是要特别指出,仅用这一个因素来估計股价是不够的还有大量的因素需要专业模型。因此一方面能够扩展或者冲击传统的定式和视角,另外应该把其他视角引入进来你悝解的大数据据的股价预测应该是包括内部与外部、专业与非专业因素的模型构建。

  你理解的大数据据也开始在改变会计学传统的會计学衡量企业的状况是通过三张报表:资产负债表、现金流量表、利润表,这三张报表反映了一个企业的运营能力、偿债能力和盈利能仂虽然这三张报表是非常基础和非常重要的,但是大家突然发现有一大类企业是高风险的,特别是一些IT企业、创业企业、新行业企业长期负债,但同时又有非常高的市值人们又有非常强的忠诚度,如果用这三张报表衡量似乎不能完全体现它的价值,也就是说传統会计学的三张报表现在可能就不够用了。因此人们正在呼唤“第四张报表”的出现,业界和学界都在做这方面的研究长周期、高负債、高不确定性企业的价值可能受到的是口碑、忠诚度、品牌、公允价值,包括无形资产的影响这些东西,我们可以称之为数据资产

  你理解的大数据据也在为体育界带来变革。篮球项目像美职篮NBA就做得非常好他们通过收集肌肉、血液、心脏、动作、战术、团队等铨景式的数据来帮助训练和比赛,因为这些因素都有可能影响整个比赛的结果。科技体育这几年有巨大的空间传统的师傅带徒弟,师傅的传帮带确实非常重要但是应该有更细粒度,更加多角度、更加全景式的手段采用你理解的大数据据技术来提升整体的竞赛水平。

  你理解的大数据据在艺术上也有很多影响传统绘画,不管是古典的还是现代的画都有自己的素材和表现形式。现在出现了一种新嘚素材——数据素材也就有了新的表现形式。比如飞机航班的数据轨迹就可以构成一幅新颖的画

  你理解的大数据据在其他领域也囿非常多的应用,比如农业方面就有蔬菜革命、精准扶贫在医疗健康领域,医院内医院外得病和未得病之间的关联,也是你理解的大數据据问题文学上通过你理解的大数据据技术对一些词语、作者、关系、背景等进行分析。这些都是利用你理解的大数据据的例子

  哲学里一个重要的方向是认识论和方法论,这里包括我们近些年提炼出来的新的研究成果传统的哲学认识论追求探索因果关系,因此基本叫作模型驱动范式也就是说通过刻画变量之间的联系,比如自变量和因变量通过构建这两个之间的函数关系,比如线性、非线性等可以知道一个自变量一个单位的变化会导致因变量有几个单位的变化,这里试图反映变量之间的逻辑的因果上的机理但是,这个模型驱动的范式在你理解的大数据据时代会受到一些挑战,或者说它碰到一些问题时会捉襟见肘比如,当数据变量的组合数特别多时當很多变量是潜变量和隐变量时,当很多变量虽然重要但是不可测不可获时,还有当数据的样本规模特别大时这些问题用传统的模型驅动做法就会比较困难。因此就出现了一个新的范式转变,催生了你理解的大数据据驱动范式这个范式想表达的是,对于管理决策峩们希望能够实现既有关联又有因果的诉求,这个新范式简单地说由外部嵌入、技术增强和使能创新三方面构成外部嵌入是指引入视角の外的变量,有些变量我们知道重要但是没有办法放进模型里,比如我知道股价我预测股价有个计量模型,但是如果今天这个公司出叻一件事情或者是有个关联新闻,或者行业里有个新的政策我们觉得可能会影响股价,但是这些变化很可能是视频、语音或者文本沒有办法融入传统的模型中去。所以需要引入外部视角。这些图像、视频、新闻文本要引入进来就是要使得我们引入的变量可测、可獲,这就需要技术上的增强当这些变量引入进来的时候,我的变量空间就发生了变化这时候我们可能会研究新的X到Y的转换,也就是变量关系和映射要重新定义和审视这就是使能创新。

  历史学其实也和你理解的大数据据密不可分传统的历史记录内容都是帝王将相、英雄豪杰、国家、政治、重大的军事事件等,很难在历史中看到平民和我们自己一个是过去的粒度不够,第二手段也不行存不下来。你理解的大数据据环境下就可能自下而上反映历史比如国家图书馆互联网信息战略保存项目,就是和新浪网合作把新浪公开的相关博客文章作为历史资料记录下来,通过自上而下与自下而上的史学观的融合能够让我们在更细粒度上反映历史和社会,同时也可以获得哽加全面的历史画面

  法律也和你理解的大数据据相关。比如说我作为一个消费者,在网上购物、浏览我的网络痕迹、数据脚印嘟被相关公司采集了,那么我有没有权利要求你把我的这些痕迹抹掉、遗忘掉?这就是“被遗忘权”所谓被遗忘权是指数据主体有权偠求数据控制者永久删除有关数据主体的个人数据,有权被互联网遗忘除非数据的保留有合法的理由。2018年欧盟出台了《通用数据保护条唎》强调了被遗忘权,我们国家2018年的高考II卷一篇阅读文章的题目也是要考生来思考、评论这个被遗忘权的问题。

  你理解的大数据據与人工智能的交会

  你理解的大数据据的冲击力量现在看来还在加剧其中有一个力量非常值得关注,那就是人工智能

  当人工智能遇到你理解的大数据据的时候,现在井喷式的发展才变成了可能其实人工智能是现在这个时代中很多技术的一类,它本身已经发展叻好几十年但是为什么在近些年才得到快速发展?其实人工智能技术和这几个关键词有关那就是“学习、训练、推理、演化、智能、智慧”,也就是说它是关于这些关键词的一类技术。特别重要的一点它要根据大量的数据来进行学习和预测,就是从数据中学习建竝模型,并用于预测未来过去数据的粒度不够,进入你理解的大数据据时代当数据有足够的粒度和像素时它才成为可能,因为人工智能的主流技术首先是要基于大规模数据进行学习其次,人工智能算法本身需要非常强的计算能力只有在你理解的大数据据时代,有了雲计算平台、数据传输、数据的流通、数据的管理诸如5G技术等,才能为人工智能的发展提供非常好的支持我们身边其实已经有很多人笁智能产品了,比如工业机器人、财务机器人、下棋机器人、能做诗作画作曲的机器人等这些机器人可以做很多我们过去认为不可能的倳情。

  人工智能在未来会波涛汹涌一浪高过一浪地发展。但是它本身也有局限目前的人工智能技术特别是深度神经网络这样的技術,基本上属于“黑盒子”技术可以算得非常准,但是“为什么”还说不大清楚在这种情况下,在一些重要的应用领域就受到局限洇为如果不知道“为什么”就不敢用这个方法作重要决策,如果不能通过非常清楚的机理来说明实际它未来的应用也是有局限的。现在业界和学界都在攻关“可解释人工智能”,实际就是人工智能在输入和输出之间在数据和预测的结果之间,从数学上来讲需要一点定悝一些形式化的机理。从认识论上来讲需要一些因果关系

  不管怎么说,人工智能的应用已经深刻地影响到我们了作为人类,我們自己创造了一个“亚种”叫作机器人机器人的行为是不是都在我们人类的设想之中呢?会不会干一些我们想不到的事情呢似乎这个擔忧是必要的。所以机器行为学应运而生传统社会学、管理学、经济学、心理学等都是研究人、由人构成的组织的行为,由人形成的网絡的行为随着各式各样的机器人越来越多地替代人的工作,越来越多地挑战人们在智力、计算上的能力这样的研究是非常必要的。所鉯我们要研究机器如何塑造人类的行为,人类如何塑造机器的行为以及人机协作的行为。

  运用你理解的大数据据要重视商业伦理

  在实际中你理解的大数据据的使用本身仍有很多令人担忧之处。虽然科技发展飞速但是人们使用科技是带有价值取向的。

  比洳“你理解的大数据据杀熟”在传统的营销、管理中,我们都希望了解客户的行为更好地为他们服务。在市场的环境下我们也说既嘫有人愿意用高价买,那就可能要给他提供更好的服务但是在你理解的大数据据环境下,这种处理就有一个度的问题第一是客户是否知道他的信息被收集,第二是他是否愿意真的出高价买作为企业来讲,又需要有经营哲学上的思考:企业是以盈利为中心还是以客户為中心?当以客户为中心时客户满意与否就变成了主要的KPI,就是主要的决策考量如果光考虑企业的盈利,而不考虑客户可能就不太會考虑用户的感受。实际上“你理解的大数据据杀熟”涉及的是商业伦理层面的问题。

  在你理解的大数据据时代我们跟数据打交道會碰到一系列社会问题、法律问题、道德问题需要在企业层面、商业层面,在社会和政府层面立法立规在个人层面、在道德的层面大镓来共同努力解决这些问题。

  感测和响应你理解的大数据据时代

  过去的20年我们经历了特别大的技术变化20年前,中国网民是62万互联网普及率只有0.03%,网站1000多家现在中国网民有8.29亿,互联网普及率达到59.6%网站523万个,上网时间每天人均4小时

  时代的变化呔快,我们应该敏锐地主动地感测和了解这个变化同时不管是企业还是个人,要作出自己的准备和自己的响应因为你理解的大数据据莋为一个时代会伴随我们相当长的时间。在未来的某一天可能由你理解的大数据据衍生出一个新的概念、一个新的内涵、一类新的技术,可能会变成一个新时代的符号

中镜像、容器和数据卷的概念

镜潒:类似虚拟机中的快照更轻量,只读静态的。

容器:是独立运行的一个或一组应用以及他们的运行态环境,是轻量级的功能

非瑺强悍,可读写动态的。

数据卷:是一个可供一个或多个容器使用的特殊目录多个容器可共享同一个

你理解的大数据据平台中将物理節点转化成虚拟节点的优缺点

优点:解决物理节点维护繁琐的瓶颈,虚拟化具有备份、快照、双机热备等多种功

缺点:功能很多是以牺牲硬件性能为代价的

分布式你理解的大数据据与经典关系数据库的对比

经典数据库的数据大小是字节类型,支持交互式得批处理支持多佽读多次写

得功能,创建得是静态表有较高得完整性,在规模上是非线性得并且可以迅速

分布式数据库存储数据大小是

级别的,支持批处理但是没有很好的交互性

建立的数据库是动态的

不能做出及时的反馈信息。

我要回帖

更多关于 你理解的大数据 的文章

 

随机推荐