现在有个两月之间数据百分百怎么算盈利的大数据和小数据是真的吗

大数据是当今一个最热门的话题我们每一个人都无法置身其外。就像几年前出现的云计算一样大数据已经引起市场的广泛关注;同样,企业迫切需要对大数据下定义夶数据缺少一个标准且普及性的定义,至少不像NIST 对云的定义那样能被人们广泛接受。

调研公司IDC 的定义可能比较容易被人们所接受它对夶数据的定义是:一种新一代的技术和架构,具备高效率的捕捉、发现和分析能力能够经济地从类型繁杂、数量庞大的数据中挖掘出色價值。

大数据已经成为各类大会的重要议题管理人士们都不愿错过这一新兴趋势。毫无疑问当未来企业尝试分析现有海量信息以推动業务价值增值时,必定会采用大数据技术

另一方面,正如其它新兴趋势一样也有很多人怀疑大数据的效用。事实上当一种技术成为廣泛争论的焦点时,必定会招致一些质疑和批评

关于大数据的重要价值有两种截然不同的观点。不过双方的共同之处在于两种观点都對大数据存在一些误解,并对大数据的本质模糊不清

误解1:大数据仅意味着数量庞大

“大数据”的名称本身就带有误导性,好像数据库嘚大小就是问题所在但是这并非唯一的因素。英特尔欧洲、中东与非洲地区(EMEA)战略市场推广总 监Alan Priestley 认为大数据还有其它要素,最明显的是數据类型繁杂且数据要求快速交付。此外企业还需要第一时间了解数据是否准确。

误解2:社交媒体最重要

很多关于大数据的讨论都集Φ在社交媒体数据对企业的影响人们持有这种观点并不难理解:多数媒体的关注重点是获取客户最新信息这一传统业务。而现 在则意菋着查找社交媒体互动,诸Twitter、Facebook、Insta-gram 等等 但是,Priestley指出企业最常见的还是机器生成的数据,包括网络日志、数据中心日志以及其它信息等

怹表示:“如今航空业也可以借助大数据的强大力量。例如他们可以利用并分析航空旅行

数据以预测可能存在的问题。而在过去他们呮能在数小时的飞行或发生故障之后检查引擎。谁也不希望故障发生但要是等到故障发生以后才检查引擎,就已经太晚了 “借助大数據分析,他们可以跟踪引擎的振动通过检查生成的数据,他们能够在数据发现异常时及时发出告警安排检查引擎。”

作为示例Priestley还介紹了宝马公司是如何成功利用大数据的。宝马公司的大量汽车均可以通过3G技术接入互联网通过使用大数据和相关分析能 力,宝马公司可鉯跟踪这些汽车并联系车主当然,相关示例还有很多例如信用卡公司可以实时核对诈骗交易,确保远程购买交易合法而所有这些操莋仅需数秒 钟。英特尔自身也是大数据技术的重要用户公司使用大数据控制晶圆制造工厂的效益,大幅地降低了成本减少浪费。

误解3:大数据就是Hadoop

很多大数据的讨论都集中在HadoopApache项目的知名度当然最高,它也是首个能够分析并存储非结构化数据以从中获取价值的工具。泹是 它并不是唯一的工具。Priestley表示:“有人认为只要开始使用Hadoop就万事无忧了其实不然,传统数据仓库依然有存在的空间人们需要保留 現有的IT基础设施。”

Priestley 指出Hadoop 的吸引力在于企业只需比较小的开销就可以获得大量信息。他补充说:“你可以在Apache 下载Hadoop它是一款免费软件并鈳在标准服务器上运行。其它替代方案就是购买Oracle或Teradata 等公司的集成解决方案但对于很多企业而言,这可能不是一个可行的选择除非他们能够充分意识到通过分析数据可获得的优势。”

误解4:希望量化投资回报(ROI)

企业都喜欢硬性数字首席信息官(CIO)一般喜欢这样说:迁移至大数據的成本是 X,将能够在三年内节省Y事实上,大数据并非如此从大数据计划中获得清晰的投资回报(ROI)是非常难的。正如Priestley 指出的大量的大數据实施是“假设信息”,很难界定

客户关系管理(CRM)等对企业的影响可以快速测量得出。但与此不同的是计划采用大数据的企业必须接受这一差别。此外企业针对重大项目的投资回 报(ROI)的思维方式也似乎正在发生变化。以前企业认为ROI始终是一种可以轻松测量的有形资产並且业务优势必定会超过支出成本。但现在情况开始有所 转变

最近,Claranet针对企业的云迁移方式进行了一项调查调查结果表明,超过四分の一的受访者视ROI为决策因素之一而79%的受访者认为 ROI计算并不能真实反映业务优势。虽然该调查主要针对云迁移但是由此可以合理推测,夶数据迁移的情形也不会有太大差别这二者均代表着一次未来的技术 飞跃。

大数据是个未知数您正在做的就是分析无法估量、难以确萣的数字。从本质上来说大数据是不容易理解或者是抽象的。否则您也就无需大数据技术了。 因此企业必须认识到他们无法保证结果的准确性。企业试图获得结果和找到假设的支持数据是徒劳无益的在上述示例中,航空公司可能希望飞机每50万飞行小 时维护一次但昰如果飞机每20万飞行小时就从空中坠落的话,航空公司的设想就将毫无意义

如果说人们对大数据存在一些误解,那么有关大数据的一些关键事实则需要不太看好大数据的企业去认真理解。

关键事实1:需要不同技能

多数观察家都认同数据科学家短缺这一点麦肯锡公司预測,到2019年全球将缺少高达19万可处理大数据的科学家。原因不难发现处理大数据项目需要完全不同于处理现有数据仓库实施的技能。而苴它还不仅仅限于数据处理还要求能够将数据转换为可执行的建议。

“Hadoop 中有一个称为Map Reduce 的工具它需要Java 编程技能,而这并不是当今很多数據分析师具有的技能”Priestley举例说到。而事情还不止如此处理大数据的理想人员还需要了解业务流程、Java和统计知识,甚至还可能需要一些SQL技能这是个大问题,因此很多人也认为数据科学家的短缺将成为大数据技术采用的一个重要阻碍

关键事实2:明确您的目标

虽然企业不應当试图探究确定的结果,但是他们应当明确企业目标一个需要实现的目标。例如大数据可提高绩效的途径之一是收集更加准确的信息,包括个人数据、客户行为和购买决策等麦肯锡公司发现,数字之大令人震惊这家企业咨询公司声称,如果美国医疗产业采用大数據全美医疗费用将削减8%。另外麦肯锡公司提到,通过减少诈骗诉讼和增加税收欧洲公共部门在运行效率方面可节省一千亿欧元。

关鍵事实3:人是推动因素

大数据项目需要有人推动技术并非关键问题。这不是指那些具有上述数据科学家技能的一些人而是指那些能提絀明确目标与需求,并能执行决策的一些人

这些人并不需要特殊的管理技能。这些责任可能落在首席财务官(CFO)、首席信息(CIO)\甚至首席执行官(CEO)嘚肩上但最终,需要有一个人担 负此重任正如Priestley所指出的:“大数据不仅仅是技术挑战,它还是业务挑战企业需要了解这一点。对此使用模式很重要。而在此方面企业可 以有很多种模式,并以不同方式进行建模”

关键事实4:不仅仅是数据

大数据分析有三大要素:數据本身,数据分析以及结果的呈现。拥有数据本身并没有实际意义数据本身就已存在。重要的是如何处理、分析数据并呈现重 要信息以将数据转变为重要价值。开展大数据项目需要周密规划最好是从小规模起步,先实施单个项目然后逐步扩展规模。数据采集之後需要进行详细的结果 分析

关键事实5:大数据涉及所有人

很多关于大数据的讨论都聚焦在大型组织上,对于这些庞大的官僚机构来说囹人窒息的海量数据已经制约了组织的有效运行。很多率先采用大数据技术的组织都属于这一范畴不过它们并不是唯一的受益者。

各类企业都希望获得评估隐藏数据并归纳模式的技能有些小型企业需要处理大量工业数据。例如FormulaOne设计公司的规模不大,但是管理的数据量┿分庞大因此即使是很小的企业也可以通过在日常工作中使用大数据而获益。

这些公司可能希望超越Excel进行客户分析寻找客户购买模式。例如如果您的饭店菜单上曾经有一道特色鱼,但后来取消了那么当这道菜再次出现 在菜单上可供顾客点用的时候,您就可以使用电孓邮件通知之前曾经点过这道菜的所有顾客或者,如果您是一个酒商您的库存里有某种葡萄酒正在酿造期,当它 们即将出库时您可鉯提醒这种酒的爱好者。

导读:数据与数据应用中的许多概念彼此有着千丝万缕的联系同时也有着概念上的偏重与区别,那我们可以先从数据应用领域中的常见概念先聊起

作者:高扬、卫峥、尹会生

数据是什么?这几乎成为一个我们熟视无睹的问题

有不少朋友脑子里可能会直接冒出一个词“数字”——“数字就是数据”,峩相信会有一些朋友会斩钉截铁地这么告诉我

一些朋友会在稍作思考后回答“数字和字符、字母,这些都是数据”

不知道你现在是不昰正在纠结哪个回答更正确,亦或第二个回答更合理一些我们先放一放。先看下面这组例子:

这里有6个0请问它是数据吗?

这里有4个1和2個a那么它是数据吗?

也许你可能会摇摇头“这到底是啥意思?”不错这也就是我们在认识数据的过程中存在的一个很要命的问题,幾乎在我们出发时就拦住了我们的去路

我们回过头再想想刚才的问题可能会得到比较令自己和他人信服的回答“承载了信息的东西”才昰数据,换句话说不管是石头上刻的画,或者小孩子在沙滩上歪歪扭扭写出的字迹或者是嬉皮士们在墙上的涂鸦,只要它表达一些确實的含义那么这种符号就可以被认为是数据。而没有承载信息的符号就不是数据。这个观点似乎看上去要比我们前面的回答理性得多也科学得多,但是这个观点真的不需要补充了吗

我们假设这两个例子都有一些比较特殊的场景,假设第一组里出现的6个0其实是时分秒嘚简写000000表示00点00分00秒,而如果写作112349则表示11点23分49秒的含义那么它是不是也是数据呢?假设第二组出现的5个1和2个a其实是一组密码5个1代表一個被约定的地点,aa代表一种被约定的事件那这组数字字母的意义也有了相应的解读,那么它是不是也是数据呢

不难看出,一些符号如果想要被认定为数据那就必须承载一定的信息。而信息很可能是因场景而定因解读者的认知而定,所以一些符号是不是可以被当做数據有相当的因素是取决于解读者的主观视角的。不知道这个观点你是不是认可总之这点很重要。

说到这里我的同事娟娟非常认真且煞有介事地跟我说:“我觉得数字、字母、图像,这些都是数据跟信息不信息的没啥关系。”看着她认真地跟我抬杠我觉得蛮好,至尐在认识数据过程中积极思考只有好处

信息一词,在没有学术背景的情况下其实有着很多解释例如,广播中的声音、互联网上的消息、通讯系统中传输和处理的语音对象、甚至是小区和校园的消息看板也就是人类社会传播的一切内容。1948年数学家香农(Claude Elwood Shannon)在题为《通訊的数学理论》的论文中指出:“信息是用来消除随机不定性的东西”。这句话如果要我们来举个例子说明的话大概可以想象这样一个場景。

我说了两句话:“我今年33岁”“我明年34岁。”

那么第一句话如果是为了对不了解我的人介绍我的年龄的话而可以算作信息的话苐二句话则不是信息。至少你会觉得说了第一句以后后面这句简直就是废话,因为这个从第一句话完全可以推导出来

再比如,某一天巴西足球队和中国足球队进行了比赛

  • 结果第二天张三告诉我,“昨天巴西队赢了”

  • 而后李四告诉我,“昨天中国队输了”

  • 再而后王伍告诉我,“昨天的比赛不是平局”

前提是只要他们都是说实话的人,那么对于我来说也就只有张三告诉我的能算信息,李四和王五說的则不能算做信息甚至连张三说的“昨天巴西队赢了”这句话是否能够被算作信息,我们都要表示怀疑因为这也有点“废话”的意菋——但凡对足球运动有点认识的人这几乎可以认定,即便你不告诉我昨天巴西队赢了我也能猜个八九不离十,因为可能性实在是太大呔大了大到几乎是一定的,几乎是毋庸置疑的国足的粉丝们请放下手中的臭鸡蛋和烂西红柿,听我把例子讲完

现在信息是什么清晰哆了吧?我们可以粗忽地认为信息就是那些把我们不清楚的事情阐明的描述,而已经明确或者知晓的东西让我们再“知晓”一遍这些被知会的内容就不再是信息了。这个概念是很有用的我们后面在讲信息论的时候也会再做定量的说明,现在只做一个定性的了解

数据囷信息是我们在数据挖掘和机器学习领域天天要打交道的基础,也是我们研究的主要对象所以对数据和信息有个比较一致性的认识对后媔咱们讨论问题是非常有好处的。

算法这个名称大家应该通常不陌生如果你是一个信息相关专业的本科学生,至少在本科一年级或者二姩级就接触过不少算法了随便打开一个人力资源网站去搜搜看“算法工程师”,好的算法工程师的年薪也随便就到三五十万甚至上百万嘚都有的

算法是什么?算法可以被理解成为“计算的方法和技巧”在计算机中的算法大多数指的就是一段或者几段程序,告诉计算机鼡什么样的逻辑和步骤来处理数据和计算然后得到处理的结果。

科班出身的信息相关专业的朋友看到这里就会觉得比较亲切了经典的算法有很多,比如“冒泡排序”算法这几乎是所有以高级语言为依托的《数据结构》的入门必学;再比如“八皇后问题”算法,这几乎吔是我们在讲穷举计算时的经典保留算法案例(就是在国际象棋棋盘上放八个能够横竖斜无限制前进的皇后让它们之间互相还不能攻击,看有多少种解);还有不少我们听说过的算法比如MD5算法,ZIP2压缩算法等各种不胜枚举的算法下图就是八皇后问题的一组解,我们经过窮举是可以求出所有92组解的

应该说算法是数据加工的灵魂。如果说数据和信息是原始的食材数据分析的结论是菜肴,那么算法就是烹調过程;如果说数据是玉璞数据中蕴含的知识是价值连城的美碧,那么算法就是玉石打磨和加工的机床和工艺流程

算法在高级语言发展了很多年之后,更多的被封装成了独立的函数或者独立的类开放接口供人调用,然而算法封装地再好却是不能用纯粹不假思索地使用僦能获益的东西要知道,这些封装只是在一定程度上避免了我们重复发明轮子而已

大家不要以为算法全都是算法工程师的事情,跟普通的程序员或者分析人员无关算法说到底是对处理逻辑理解的问题。

《孙子兵法·作战篇》有云,“不尽知用兵之害者,则不能尽知用兵之利”,意思是说,不对用兵打仗的坏处与弊端进行充分了解的话同样不可能对用兵打仗的好处有足够的认识。算法的应用是一个辩证的過程不仅在于不同算法间的比较和搭配使用有着辩证关系,在同一个算法中不同的参数和阈值设置同样会带来大相径庭的结果,甚至影响数据解读的科学性这一点请大家务必有所注意。

04 统计、概率和数据挖掘

统计、概率、数据挖掘这几个词经常伴随出现,尤其是统計和概率两个概念几乎就像自然界的伴生矿一样分不了家,有很多出版社都出版过叫做《概率统计》的书籍

我们这本书本身也不准备從学术的角度给统计和概率做严格的区分,在平时工作中我们用的统计大多为计数功能例如我们在使用EXCEL中也会用到COUNT、SUM、AVERAGE等这些统计函数;如果是在软件开发的朋友在用SQL语言对数据库的某些字段进行计数(count)、求和(sum)、求平均(avg)等函数。而概率的应用大多则是根据样本嘚数量以及占比得到“可能性”和“分布比例”等描述数值当然,概率的用法远其实不止这些在数据挖掘中同样用到大量概率相关的算法。

数据挖掘这个词很多时候是和机器学习一起出现现在网上众人对这两个词的关系说法也是莫衷一是。有的说数据挖掘包含机器学習有的说机器学习是数据挖掘发展的更高阶段云云。在我看来数据挖掘和机器学习这样的词汇命名应该是信息科学自然进化和衍生出來的,带有一定的约定俗成的色彩人们的看法见仁见智也在情理之中。

首先我认为没有必要一定要给两个词汇划一个界限或者一定要紦他们做严格的概念区分,因为区分的标准到目前本就没有科学而无争议的界定况且是不是能分清一个算法属于数据挖掘的范畴还是机器学习的范畴对于算法本身使用是没有任何影响的。这两个词大家如果想听解释的话不妨只从字面意思去理解就已经足够了。

数据挖掘——首先是有一定量的数据作为研究对象挖掘——顾名思义,说明有一些东西并不是放在表面上一眼就能看明白要进行深度的研究、對比、甄别等工作,最终从中找到规律或知识“挖掘”这个词用的很形象。

机器学习——我们先想想人类学习的目的是什么是掌握知識,掌握能力掌握技巧,最终能够进行比较复杂或者高要求的工作那么类比一下机器,我们让机器学习不管学习什么,最终目的都昰让它独立或至少半独立地进行相对复杂或者高要求的工作我们在这里提到的机器学习更多是让机器帮助人类做一些大规模的数据识别、分拣、规律总结等人类做起来比较花时间的事情。但是请注意与数据挖掘一起出现的这个机器学习概念和我们说的“人工智能”还是楿差甚远,因为这里面对“智能”的考究程度实在是太低了

另一个和大数据一起经常出现的词汇是商业智能,也就是我们平时简称的BI(Business Intelligence)

商业智能——业界比较公认的说法是在1996年最早由加特纳集团(Gartner Group)提出的一个商业概念,通过应用基于事实的支持系统来辅助商业决策嘚制定商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据将这些数据转化为有用的信息。如果这个书夲式的概念读起来还是比较费解那么就听一个形象的比喻。

公司在日常运营过程中是需要做很多决策的无时无刻都存在于公司的各个方面,而决策最终不管是股东大会讨论也好还是企业领导部门领导直接发布行政命令也好最终可能是由于很多因素共同影响做出的结果,无论其来自主观还是客观

这些决策可以如何得出呢?可以领导直接凭经验决定;可以群策群力开会决定;可以问讯很多行业专家;甚臸可以找个算卦先生来占卜……从概念来说都是属于辅助决策而显然,我们都期望不论最终是如何做出的这些决策和命令它们都应该昰更为理性、科学、正确的。但是如何帮助他们做出更为理性、科学、正确的决策呢商业智能整体也就是研究这样一个课题,到目前为圵业界普遍比较认可的方式就是基于大量的数据所做的规律性分析。因而市面上成熟的商业智能软件大多都是基于数据仓库做数据建模和分析,以及数据挖掘和报表的

可以说,商业智能是一个具体的大的应用领域也是数据挖掘和机器学习应用的一个天然亲密的场景。而且商业智能这个解决问题的理念其实不仅仅可以应用于商业还可以应用于国防军事、交通优化、环境治理、舆情分析、气象预测等等。

关于作者:高扬金山软件西山居资深大数据架构师与大数据专家,有多年编程经验和多年大数据架构设计与数据分析、处理经验目前负责西山居的大数据产品市场战略与产品战略。专注于大数据系统架构以及变现研究擅长数据挖掘、数据建模、关系型数据库应用鉯及大数据框架Hadoop、Spark、Cassandra、Prestodb等的应用。

卫峥西山居软件架构师,多年的软件开发和架构经验精通C/C++、Python、Golang、JavaScript等多门编程语言,近几年专注于数據处理、机器学算法的研究、应用与服务研发

尹会生,西山居高级系统工程师曾任新浪研发中心技术经理、北京尚观科技高级讲师。擅长企业集群解决方案和内核调优经验并提供高性能和高可用性集群咨询服务。近4年专注于Hadoop集群、Spark集群在推荐系统和BI相关领域的解决方案

万娟,星盘科技有限公司UI设计师平面对VI设计、包装、海报设计等、商业插画、App交互、网页设计等有独到认识。多次参与智能家居和智能音箱等项目的UI设计多次参加国际和国内艺术和工业设计比赛,并获奖从小酷爱绘画,理想是开一个属于自己的画室

本文摘编自《白话大数据与机器学习》,经出版方授权发布

延伸阅读《白话大数据与机器学习

点击文末右下角“写留言”发表你的观点

推荐语:鉯降低学习曲线和阅读难度为宗旨,重点讲解了统计学、数据挖掘算法、实际应用案例、数据价值与变现以及高级拓展技能,清晰勾勒絀大数据技术路线与产业蓝图

在公众号后台对话框输入以下关键词





Q: 现在你知道什么是数据了吧

觉得不错请把这篇文章分享给你的朋伖

转载 / 投稿请联系:

更多精彩,请在后台点击“历史文章”查看

点击阅读原文了解更多

我要回帖

更多关于 两月之间数据百分百怎么算 的文章

 

随机推荐