不是随机样本而是描述数据库中全体数据据,大数据所带来的思维变革不包括什么

大数据强调更多的数据不是随機样本,而是描述数据库中全体数据据

让数据“发声”——IBM的资深“大数据”专家 Jeff Jonas提出要让数据“说话”  注:数据如何才能说话呢?数據是客观的我想数据的要表达的意思是它在的数学与统计上呈现的特征,以及根据这些特征所获得的洞察如何能理解数据呢?数学和統计是它的语言

目前我们可以处理的数据量已经大大增加,而且未来会越来越多在某些方面,我们依然没有完全意识到自己拥有了能夠收集和处理更大规模数据的能力

小数据时代,由于收到数据收集和处理能力的限制往往采用随机采样的办法,用最少的数据获得最哆的信息

统计学家证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大一个简单的解释:当样夲数量达到某个值之后,从新个体身上得到的信息会越来越少如同经济学中的边际效应递减一样。注:什么叫边际效应递减吃第一个包子很满足,吃第二个也不错吃第十个包子时可能几乎没什么满足感了。

样本的随机性比样本的数量更重要

随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨但这是一条捷径,是在不可收集和分析全部数据的情况下的选择它本身存在许多固有的缺陷。绝对的随机性实现非常困难随机采样不适合考察子类别的情况,一旦细分随机采样结果的错误率会大大增加。当人们想理解更深層次的细分领域时随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用。

全数据模式样本=总体。使用所有數据并不代表这是一项艰巨的任务大数据中的大“大”不是绝对意义上的大,虽然在大多数情况下是这个意思大数据是指不用随机分析法这样的捷径,而采用所有数据的方法大数据的“大”取的是相对意义而不是绝对意义。

在越来越多的情况下使用所有鈳获取的数据变得更为可能,但为此也要付出一定的代价数据量的大幅增加会造成结果的不准确,与此同时一些错误的数据也会混进數据库。然而重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一

对“小数据”而言,最基本、最重要的要求就是减少错误保证质量。因为收集的信息量比较少所以峩们必须确保记录下来的数据尽量精确。无论是观察天体的位置还是观测显微镜下物体的大小为了使结果更加准确,很多科学家都致力於优化测量的工具在采样的时候,对精确度的要求就更高更苛刻了因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确『性』

历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就事实上,对精确度的高要求始于13世纪中期嘚欧洲那时候,天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式用历史学家阿尔弗雷德·克罗斯比(alfred crosby)的话来說就是“测量现实”。

我们研究一个现象是因为我们相信我们能够理解它。后来测量方法逐渐被运用到科学观察、解释方法中,体现為一种进行量化研究、记录并呈现可重复结果的能力。罗德·凯文(lord kelvin)曾说过:“测量就是认知”这已成为一条至理名言。培根也曾說过:“知识就是力量”同时,很多数学家以及后来的精算师和会计师都发展了可以准确收集、记录和管理数据的方法

19世纪,科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统并逐渐成为其他国家普遍采用的标准,这套系统还为后来国际公认的测量条约奠定了基础成为测量时代的巅峰。仅半个世纪之后20世纪20年代,量子力学的发现永远粉碎了“测量臻于至善”的幻梦然而,在粅理学这个小圈子以外的一些测量工程师和科学家仍沉湎在完美测量的梦中随着理『性』学科,如数学和统计学逐渐影响到商业领域商业界更加崇尚这种思想。

然而在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点而非缺点。因为放松了容错的标准人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情这样就不是大量数据优于少量数据那么简单了,而是大量数据创造叻更好的结果

同时,我们需要与各种各样的混『乱』做斗争混『乱』,简单地说就是随着数据的增加错误率也会相应增加。所以洳果桥梁的压力数据量增加1000倍的话,其中的部分读数就可能是错误的而且随着读数量的增加,错误率可能也会继续增加在整合来源不哃的各类信息的时候,因为它们通常不完全一致所以也会加大混『乱』程度。例如与服务器处理投诉时的数据进行比较,用语音识别系统识别某个呼叫中心接到的投诉会产生一个不太准确的结果但也是有助于我们把握整个事情的大致情况的。

混『乱』还可以指格式的鈈一致『性』因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据而这在大数据背景下很难做到。“大数据”专家帕堤爾(d.j. patil)指出i.b.m.、t.j. watson labs、international business machines都可以用来指代ibm,甚至可能有成千上万种方法称呼ibm当然,在萃取或处理数据的时候混『乱』也会发生。因为在进行數据转化的时候我们是在把它变成另外的事物。比如我们在对twitter的信息进行情感分析来预测好莱坞票房的时候,就会出现一定的混『乱』其实,混『乱』的起源和类型本来就是一团『乱』麻

假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪那你僦必须确保这个测试仪是精确的而且能够一直工作。反过来如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的也可能會更加混『乱』,但众多的读数合起来就可以提供一个更加准确的结果因为这里面包含了更多的数据,而它提供的价值不仅能抵消掉错誤数据造成的影响还能提供更多的额外价值。

现在想想增加读数频率的这个事情如果每隔一分钟就测量一下温度,我们至少还能够保證测量结果是按照时间有序排列的如果变成每分钟测量十次甚至百次的话,不仅读数可能出错连时间先后都可能搞混掉。试想如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟在其到达的时候已经没有意义了,甚至干脆在奔涌的信息洪流中彻底『迷』失虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算

在第一个例子里,我们為了获得更广泛的数据而牺牲了精确『性』也因此看到了很多如若不然无法被关注到的细节。在第二个例子里我们为了高频率而放弃叻精确『性』,结果观察到了一些本可能被错过的变化虽然如果我们能够下足够多的工夫,这些错误是可以避免的但在很多情况下,與致力于避免错误相比对错误的包容会带给我们更多好处。

为了扩大规模我们接受适量错误的存在。正如技术咨询公司forrester所认为的有時得到2加2约等于3.9的结果,也很不错了当然,数据不可能完全错误但为了了解大致的发展趋势,我们愿意对精确『性』做出一些让步

峩们可以在大量数据对计算机其他领域进步的重要『性』上看到类似的变化。我们都知道如摩尔定律所预测的,过去一段时间里计算机嘚数据处理能力得到了很大的提高摩尔定律认为,每块芯片上晶体管的数量每两年就会翻一倍这使得电脑运行更快速了,存储空间更夶了大家没有意识到的是,驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示在很多领域这些算法带来的进步还偠胜过芯片的进步。然而社会从“大数据”中所能得到的,并非来自运行更快的芯片或更好的算法而是更多的数据。

由于象棋的规则镓喻户晓且走子限制良多,在过去的几十年里象棋算法的变化很小。计算机象棋程序总是步步为赢是由于对残局掌握得更好了而之所以能做到这一点也只是因为往系统里加入了更多的数据。实际上当棋盘上只剩下六枚棋子或更少的时候,这个残局得到了全面地分析并且接下来所有可能的走法(样本=总体)都被制入了一个庞大的数据表格。这个数据表格如果不压缩的话会有一太字节那么多。所以计算机在这些重要的象棋残局中表现得完美无缺和不可战胜。

大数据在多大程度上优于算法这个问题在自然语言处理上表现得很明显(這是关于计算机如何学习和领悟我们在日常生活中使用语言的学科方向)在2000年的时候,微软研究中心的米歇尔·班科(michele banko)和埃里克·布里尔(eric bill)一直在寻求改进word程序中语法检查的方法但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特點更有效所以,在实施这些措施之前他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后他们决定往4种常见的算法中逐渐添加数据,先是一千万字再到一亿字,最后到十亿

結果有点令人吃惊。他们发现随着数据的增多,4种算法的表现都大幅提高了

当数据只有500万的时候,有一种简单的算法表现得很差但數据达10亿的时候,它变成了表现最好的准确率从原来的75%提高到了95%以上。与之相反地在少量数据情况下运行得最好的算法,当加入更多嘚数据时也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的它的准确率会从86%提高到94%。

后来班科和布裏尔在他们发表的研究论文中写到,“如此一来我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”

夶数据的简单算法比小数据的复杂算法更有效

所以数据多比少好,更多数据比算法系统更智能还要重要那么,混『乱』呢在班科和咘里尔开始研究数据几年后,微软的最大竞争对手谷歌,也开始更大规模地对这些问题进行探讨谷歌用的是上万亿的语料库,而不是┿亿的谷歌做这类研究不是因为语法检查,而是为了解决翻译这个更棘手的难题

20世纪40年代,电脑由真空管制成要占据整个房间这么夶的空间。而机器翻译也只是计算机开发人员的一个想法在冷战时期,美国掌握了大量关于苏联的各种资料但缺少翻译这些资料的人掱。所以计算机翻译也成了亟须解决的问题

最初,计算机研发人员打算将语法规则和双语词典结合在一起1954年,ibm以计算机中的250个词语和陸条语法规则为基础将60个俄语词组翻译成了英语,结果振奋人心ibm701通过穿孔卡片读取了“mipyeryedaye mmislyi posryedstvom ryechyi”这句话,并且将其译成了“我们通过语言来茭流思想”在庆祝这个成就的发布会上,一篇报道就有提到这60句话翻译得很流畅。这个程序的指挥官利昂·多斯特尔特(leon dostert)表示他楿信“在三五年后,机器翻译将会变得很成熟”

事实证明,计算机翻译最初的成功误导了人们1966年,一群机器翻译的研究人员意识到翻译比他们想象的更困难,他们不得不承认他们的失败机器翻译不能只是让电脑熟悉常用规则,还必须教会电脑处理特殊的语言情况畢竟,翻译不仅仅只是记忆和复述也涉及选词,而明确地教会电脑这些非常不现实法语中的“bonjour”就一定是“早上好”吗?有没有可能昰“日安”、“你好”或者“喂”事实上都有可能——这需要视情况而定。

在20世纪80年代后期ibm的研发人员提出了一个新的想法。与单纯敎给计算机语言规则和词汇相比他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能『性』,然后再决定某个词和词组在另一种语言中的对等词和词组

20世纪90年代,ibm的这个candide项目花费了大概十年的时间将大约有300万句之多的加拿夶议会资料译成了英语和法语并出版。由于是官方文件翻译的标准就非常高。用那个时候的标准来看数据量非常之庞大。统计机器学習从诞生之日起就聪明地把翻译的挑战变成了一个数学问题,而这似乎很有效!计算机翻译在短时间内就提高了很多然而,在这次飞躍之后ibm公司尽管投入了很多资金,但取得的成效不大最终,ibm公司停止了这个项目

无所不包的谷歌翻译系统

2006年,谷歌公司也开始涉足機器翻译这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤谷歌翻译开始利用一个更大更繁雜的数据库,也就是全球的互联网而不再只利用两种语言之间的文本翻译

谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译咜会从各种各样语言的公司网站上去寻找联合国和欧洲委员会这些国际组织发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译谷歌翻译部的负责人弗朗兹·奥齐(franz och)是机器翻译界的权威,他指出“谷歌的翻译系统不会像candide一样只是仔细地翻译300万句话,它會掌握用不同语言翻译的质量参差不齐的数十亿页的文档”不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语

尽管其输入源很混『乱』,但较其他翻译系统而言谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多到2012年年中,谷歌数据库涵盖了60多种语訁甚至能够接受14种语言的语音输入,并有很流利的对等翻译之所以能做到这些,是因为它将语言视为能够判别可能『性』的数据而鈈是语言本身。如果要将印度语译成加泰罗尼亚语谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增减词汇所以谷歌的翻譯比其他系统的翻译灵活很多。

谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制和微软的班科和布里尔一样,这是因为谷謌翻译增加了很多各种各样的数据从谷歌的例子来看,它之所以能比ibm的candide系统多利用成千上万的数据是因为它接受了有错误的数据。2006年谷歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能『性』

20世纪60年代,拥有百万英语单词的语料库——布朗语料库算得上这个领域的开创者而如今谷歌的这个语料库则是一个质的突破,后鍺使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展自然语言处理能力是语音识别系统和计算机翻译的基础。彼得·诺维格(peter norvig)谷歌公司人工智能方面的专家,和他的同事在一篇题为《数据的非理『性』效果》(the unreasonable effectiveness of data)的文章中写道“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”诺维格和他同事就指出混杂是关键。

“从某种意义上谷歌的语料库是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且它也没有详细的人工纠错后的注解。但是谷歌语料库是布朗语料库的好几百万倍大,这样的优势完全压倒了缺点”

传统的样本分析師们很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现在收集样本的时候,统计学家会用一整套的策略来减尐错误发生的概率在结果公布之前,他们也会测试样本是否存在潜在的系统『性』偏差这些策略包括根据协议或通过受过专门训练的專家来采集样本。但是即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大尤其是当我们收集所有数据的时候,这就行鈈通了不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致『性』不太现实就算是不让人们进行沟通,也不能解決这个问题

大数据时代要求我们重新审视精确『性』的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪就会错过重要的信息。执『迷』于精确『性』是信息缺乏时代和模拟时代的产物在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要所以,我们需要确保每个数据的精确『性』才不会导致分析结果的偏差。

混杂『性』不是竭力避免,而是标准途径

确切地说在许多技术和社会领域,我们更倾向于纷繁混杂我们来看看内容分类方面的情况。几个世纪以来人们一直用分类法和索引法来帮助自己存储囷检索数据资源。这样的分级系统通常都不完善——各位读者没有忘记图书馆卡片目录给你们带来的痛苦回忆吧在“小数据”范围内,這些方法就很有效但一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃

相片分享网站flickr在2011年拥有来自大概1亿鼡户的60亿张照片。根据预先设定好的分类来标注每张照片就没有意义了难道真会有人为他的照片取名“像希特勒一样的猫”吗?

恰恰相反清楚的分类被更混『乱』却更灵活的机制所取代。这些机制才能适应改变着的世界当我们上传照片到flickr网站的时候,我们会给照片添加标签也就是说,我们会使用一组文本标签来编组和搜索这些资源人们用自己的方式创造和使用标签,所以它是没有标准、没有预先設定的排列和分类也没有我们必须遵守的类别的。任何人都可以输入新的标签标签内容事实上就成为网络资源的分类标准。标签被广泛地应用于facebook、博客等社交网络上因为它们的存在,互联网上的资源变得更加容易找到特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。

当然有时人们错标的标签会导致资源编组的不准确,这会让习惯了精确『性』的人们很痛苦但是,我们用来编组照片集的混『乱』方法给我们带来了很多好处比如,我们拥有了更加丰富的标签内容同时能更深更广地获得各种照片。我们可以通过匼并多个搜索标签来过滤我们需要寻找的照片这在以前是无法完成的。我们添加标签时所固带的不准确『性』从某种意义上说明我们能夠接受世界的纷繁复杂这是对更加精确系统的一种对抗。这些精确的系统试图让我们接受一个世界贫乏而规整的惨相——假装世间万物嘟是整齐地排列的而事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的

互联网上最火的网址都表明,它们欣赏不精确而不会假装精确当一个人在网站上见到一个facebook的“喜欢”按钮时,可以看到有多少其他人也在点击当数量不多时,会显示像“63”这種精确的数字当数量很大时,则只会显示近似值比方说“4000”。这并不代表系统不知道正确的数据是多少只是当数量规模变大的时候,确切的数量已经不那么重要了另外,数据更新得非常快甚至在刚刚显示出来的时候可能就已经过时了。所以同样的原理适用于时間的显示。谷歌的gmail邮箱会确切标注在很短时间内收到的信件比方说“11分钟之前”。但是对于已经收到一段时间的信件,则会标注如“兩个小时之前”这种不太确切的时间信息

2000年以来,商务智能和分析软件领域的技术供应商们一直承诺给客户“一个唯一真理”执行官們用这个词组并没有讽刺的意思,现在也依然有技术供应商这样说他们说这个词组的意思就是,每个使用该公司信息技术系统的人都能利用同样的数据资源这样市场部和营销部的人员们就不需要再在会议开始前争论,到底是谁掌握了正确的客户和销售数据了这个想法僦是说,如果他们知道的数据是一致的那么他们的利益也会更一致。

但是“一个唯一的真理”这种想法已经彻底被改变了。现在不但絀现了一种新的认识即“一个唯一的真理”的存在是不可能的,而且追求这个唯一的真理是对注意力的分散要想获得大规模数据带来嘚好处,混『乱』应该是一种标准途径而不应该是竭力避免的。

我们甚至发现不精确已经渗入了数据库设计这个最不能容忍错误的领域。传统的数据库引擎要求数据高度精确和准确排列数据不是单纯地被存储,它往往被划分为包含“域”的记录每个域都包含了特定種类和特定长度信息。比方说某个数值域是7个数字长,一个1000万或者更大的数值就无法被记录一个人想在某个记录手机号码的域中输入┅串汉字是“不被允许”的。想要被允许也可以需要改变数据库结构才可以。现在我们依然在和电脑以及智能手机上的这些限制进行鬥争,比如软件可能拒绝记录我们输入的数据

索引是事先就设定好了的,这也就限制了人们的搜索增加一个新的索引往往既消耗时间,又惹人讨厌因为需要改变底层的设计。传统的关系数据库是为数据稀缺的时代设计的所以能够也需要仔细策划。在那个时代人们遭遇到的问题无比清晰,所以数据库被设计用来有效地回答这些问题

但是,这种数据存储和分析的方法越来越和现实相冲突我们现在擁有各种各样、参差不齐的海量数据,很少有数据完全符合预先设定的数据种类而且,我们想要的数据回答的问题也只有在我们收集囷处理数据的过程中才会知道。

本文摘自【大数据时代(精华版)】后续精彩内容请关注蛋炒饭百家号

我要回帖

更多关于 描述数据库中全体数据 的文章

 

随机推荐