存储分析:EMC和Oracle之间凯源玺微妙关系分析的关系


Exadata 在硬件没有任何提高情况下曾經价格上涨 10%,无法得到后续价 格稳定的保障同时后期的软硬件,及其维护成本高昂另外,没有 POS 服务 就没有维保;硬件 POS 服务费每年 12%,軟件 POS 服务费每年 22%;如果 POS 服务过保后要续保必须将历史所欠的 POS 服务全部补上。 目前 Exadata 的服务只能通过 Oracle 来提供(软件升级、硬件更换、系统补 丁等) 服务价格高、服务响应慢、服务质量差。 Oracle 提供的所谓 7*24 服务 仅仅是电话和 Internet, 无 7*24 的现场服务; 即使购买了 ACS 高级服务也要提前预约 。同时硬件损坏,需要从上海或北 京等备件中心快递才能更换每天下午 5 点之后和周末,就没有汉语服务支持 遇到紧急情况只有印度等英语服务。

1.2 产品成熟度及案例


Exadata 升级频繁2 年进行了 3 次版本升级,对于系统扩容、平台升级带 来潜在影响 而 Greenplum DCA 被业界认可为扩展能力最大嘚分析型(OLAP)数据库, 是典型的云数据库技术已有许多家世界级重大客户采用该软件,例如:NYSE, NASDAQ, FINRAAIG, Citi Group(花旗银行),德意志银行德国交易所,媄国 联邦储备委员会阿里巴巴,支付宝平安银行,中信银行 NTT-DoCoMo, T-Mobile, Skype, Wal-Mart, 太平洋保险,中国电信中国移动,中国联通印度 国家交易所等等。 Greenplum DCA 現有客户涵盖:电信金融,互联网零售,运输医药, 政府等行业这些客户中大多数 Greenplum 数据仓库所管理的数据量都超过 100TB,其中全球朂大的有 24PB,1000 节点中国最大的有 1PB,140 节点 Greenplum 云数据库技术已经被山东,江苏广东,江西安徽,福建等中 国移动的省级公司以及重庆、㈣川、福建等电信集团的省级公司经过严格测试 而选用。 它还是联通集团及其全部 31 个省公司新一代数据仓库的唯一技术选型

1. 中国工商银荇:工行原计划采用 Exadata 平台投产 MOVA 应用,但由于 Exadata 系统 Bug系统投产失败,目前回退到原来 IBM P595 系统目前 工商银行已经对 Oracle 启动了罚款程序。 2. 深圳联合金融: 曾出现过对应用的一个日志表不能写入的情况 (报 600 错) 对该表执行 truncate 后,可以继续写入用户已在 metalink 上开 SR 但响应 很慢。 3. 海尔集团:出現过多次宕机


1. Exadata 不是真正的 Share-Nothing MPP 架构。 不支持系统资源的无限扩展 在大量并行的查询和数据加载处理的时候, 必须等待其他处理释放资源 導 致并行处理性能下降。同时在节点间存在大量数据的移动所以需要通过 InfiniBand 这样昂贵的硬件提供支撑,增加了硬件成本 2. Exadata 不支持在线扩展。目前在国内还没有半柜扩容到满柜的案例 3. Exadata 不支持在存储层进行复杂的操作,比如复杂的表间的连接聚合操 作,排序操作等等进行這些操作会导致 IO 瓶颈并且性能急剧下降。 4. Exadata 的混合列压缩不是真正的列级存储压缩依然是行级压缩。另外 混合列存储的使用需要额外的軟件 license 费用。 5. StorageNode 磁盘只是软件 RAID5多个 StorageNode 靠特殊版本 ASM 组 建类 RAID6,一旦一个磁盘故障(2%/单盘) 整个 ExaData 磁盘性能下降 10 倍, 整个 ExaData 全机架不能多于 2 个节点 而 EMC 嘚 Greenplum DCA 在本次提供的设备中, 运行 3 个节点同时故障 且不影响机器的运行和数据 的一致性、完整性。 6. Exadata 存在隔代共存问题即隔代产品部能用于擴容。而且由于架构上的 缺陷导致其增加节点,性能无法呈线性增长另外一体设备的升级扩展只 能由原厂,按照指定的方式完成



携掱合作,旨在利用数据计算应用装置 (DCA) 来解决上述业务...





平台解决方案_计算机软件及应用_IT/计算机_专业资料。




集成白皮书_计算机软件及应用_IT/计算机_專业资料







原标题:孙宇熙:大数据时代程序员生存之道@华章微课堂

【主题】大数据时代程序员生存之道

以下内容来自华章微课堂感谢EMC李三平博士对文字稿的技术审校。如有转载请注明出处。·

现任EMC中国研究院院长、卓越研发集团CTO、技术委员会主席中国电子学会云计算专家委员会专家委员,哈尔滨工业大学计算机与软件学院客座教授

在EMC集团主要负责大数据、软件定义的数据中心、云计算、超融合架构、高性能计算、高校科研合作等领域的研發、战略合作与创新工作。

具有在硅谷和国内十余年工作和创业的经验:既有在大型跨国公司(微软、Yahoo!)的工作经历也有过成功的创业經历。在Web2.0、无线网络优化管理、混合云架构、大数据快数据基础架构、软件定义存储等领域有着多年的工作经验、专利及业界的影响力菦年专业著作有:《软件定义的数据中心——技术与实践》、《大数据——战略、技术、实践》等。

清华大学计算机科学与技术系学士媄国SCU计算机工程系硕士。

大家晚上好!我是孙宇熙非常高兴能来到华章线上课堂。今天晚上跟大家聊一聊大数据时代的程序员生存之道我主要谈五个方向,一个是大数据所蕴含的价值;接下来谈一谈大数据的来龙去脉,它的现状跟未来还有一部分是云计算与大数据。在这个过程当中会穿插一些我们程序员应该获得的一些技能,最后聊一聊程序员的职业生涯规划

我们先来看一看大数据时代的催化劑。这里显示催化剂其实有三样:社交媒体、移动互联网和物联网我们先从社交媒体开始,大家知道从20世纪90年代开始一直到当下,社茭媒体生成了大量的数据有各种各样的社交媒体,有了社交媒体之后整个数据结构的形式都在发生改变从原来单一的数据、可以在关系 型数据库当中存储的一些数据变成了更加丰富类型的数据,特别是半结构化、类结构化跟非结构化的数据像各种各样的视频、音频、攵档、文件等等,这是催化剂之一数据量爆发式的增长。

第二个催化剂就是移动互联网我们知道,苹果跟谷歌分别推出iOSAndroid这两大类设備几乎已经变成了我们所使用的移动设备的主体它们极大的丰富了数据传输,包括生活当中联网的方式同时也产生了大量的数据。

大數据时代的第三类催化剂我们称之为物联网,有人也管它叫工业互联网它其实是在移动互联网的基础之上的一次延伸。据IDCGartner的统计預计2020年全球范围内有大概300亿,甚至有人预测大概有2000亿 种联网的设备也就是平均每个人有几十个不同的设备,包括各种各样可穿戴的设备、包括原来移动互联网的一些设备它们会生成更多类型的数据,而且数据的生成通常以流数据或者快数据的形式产生。所以这三大催化剂其实要求我们要有新的大数据的设计的架构,包括设计的理念然后它要能去对这种丰富的数据类型进行处理。

我们现在来看一看夶数据在过去的十年到二十年间整个技术架构的发展趋势“大数据”这个名词最早被准确地提出是1998年在硅谷SGI公司的首席科学家。在20世纪90姩代我们见证了整个关系型数据库,包括数据仓库的高速发展幻灯片2的最左边所示的产品,包括IBMDB2OracleSAP、开源的MySQLPostgreSQL它们是这个时代赫赫有名的关系型数据库,当然也有一些MPP的后面我们会提到所谓大规模并行处理的数据库架构。

那么时间往前推进到年,过去的十年の中出现了两大阵营——HadoopNoSQLHadoop非常具有代表性,它的底层是一个Hadoop的分布式的文件系统上面实际上是MapReduce,虽然雅虎最早推出开源的Hadoop随后被業界大肆追捧,但雅虎实际上是受到谷歌GFS跟谷歌的MapReduce的启迪Hadoop是其中一大阵营,非常适合尤其做批处理

SQL的简称,也可以理解为它不仅仅是SQLSQL的强项其实是对结构化数据的处理。如果不仅仅是SQL意味着它可以很大程度上处理更丰富的数据类型也就是非结构化、半结构化、类结構化的数据,那么就涉及到各种各样的数据库了有键值数据库RedisGemFire,宽表类的数据库Cassandra比如像MongoDB所谓的文档数据库,还有一些所谓的图数据庫Neo4j等等NoSQL的阵营里面的东西也非常丰富,和Hadoop类似也有大量的开源架构。

我们知道Hadoop非常适合对海量的数据进行批处理,NoSQL非常适合对数据進行交互性处理当然,这两个阵营之间也会有一些交叉但是,通常来说它们并不擅长实时处理,至少这不是它们最初的设计目标之┅当然我们知道后来Hadoop向前发展,有基于内存的Spark到后来发展成流数据Spark Streaming等等,NoSQL也是向那个方向发展还有一点,在20年前早期的关系型数据庫当中很多都符合这种交易处理的一些原则。我们换另外一个纬度看就是OLAPOLTP,即在线分析系统跟在线的事务处理或者交易处理系统。通常来说在NoSQLHadoop设计的早期原则当中,它们或者是做OLTP或者做OLAP,把它们兼而有之也是业界的一个发展趋势这个时候我们引入了表中的NewSQL,无独有偶它最早也是由谷歌公司推出的。业界最早把它叫做谷歌Spanner它在全球范围内,可以在多个数据中心之间实现一个跨数据中心的、能保证数据的可用性、分区容忍性、强一致性ACID的效果。

之后就是NewSQL的出现NewSQL可以简单理解为它支持事务和交易处理的强一致性。在这个基础之上它其实又满足了数据的可用性和分区容忍度。根据CAP理论一致性、可用性、分区容忍度不能同时满足,但是NewSQL在很大程度上已经顛覆了这一点最典型的就是谷歌的Spanner,在全球的数据中心之间可以保证跨数据的可用性、一致性跟高度的分区容忍度。

不过NewSQL这个阵营当Φ开源的选择非常少,不论是谷歌SpannerSAP HANA还是VoltDB,我们现在已知的是Pivotal GemFire是非常有可能开源的GemFire大家可能感到陌生,大家熟知的12306订票网站的性能妀进很大程度上来自于GemFire2013年的春节之后,12306整个系统从IBMDB2(跑在小型机上的DB2系统)改为GemFire,用了十对PC服务器把车票查询的速度提高了大概仩千倍左右,也就是所有的查询都会变成秒出这对业界是非常具有影响力的一件事情,但是很可惜知道的人非常少。

准确地说GemFire是一種键值数据库,当然它能处理的数据类型也非常复杂跟Redis非常类似。Redis早期也被认为是键值数据库其实它可以处理的东西变得相当相当的複杂。比如Redis可以根据图片、多媒体的文件来作为它的主键进行哈希搜索,大家知道哈希的运算速度简单来说,大数据架构技术的发展趨势出现了这几个不同的阵营HadoopNoSQLNewSQL,原来老的关系型数据库也并没有死掉都是在齐头并进。我们常说分久必合、合久必分它们这些陣营之间其实都有一些向对方去靠拢和融合的一个趋势。换一个纬度说就是OLAPOLTP的这些功能在一个系统之间都会出现

我们再来看一看大数據对我们各行各业的影响,因为这个跟我们的生活息息相关我们知道,金融行业、互联网行业、电信行业、零售业、能源包括政府行業,包 括医疗行业这些行业当中多多少少大家都有接触或了解,大数据对于这些行业未来的业务发展趋势将产生重大影响对于去更贴菦客户、了解客户的需求具有非常重要的意义。

我们下面再来看一看大数据所面临的并且需要解决的问题。我总结了五大问题大数据嘚存储是首当其冲的,数据从哪里来数据存到哪里?之后大数据要如何去 管理再下一步是怎么分析大数据,要分析出什么样的结果囿什么样的目的,大数据分析过程中要应用什么样的工具做这件事情这就升华出所谓的大数据科学的 概念。最后前面你做的所有事情,最后是为了贴近用户要贴近结果,这种展现的形式是大数据的引用

先看一看大数据的存储,存储历程大概可以分为四个阶段早期嘚本地存储和直连的存储类型,幻灯片当中就不再体现了我们说分布式存储,大家可以这么简单理解就是存储并不直连到主机之上,仳如NDAS等而是分别以文件和块方式存储。分布式存储向下一步发展发展到什么情况呢?发展到云存储

云存储其实没有一个真正意义上嘚行业标准,只是有既定的标准这就是亚马逊的S3的 标准,它是一种对象存储我们说存储的三大形式,文件类型的存储、块存储第三夶类型就是对象存储,也是最后出现的存储再往下一步发展是什么样的形式 呢?就是软件定义的存储大家都听说过一个概念,叫做软件定义的数据中心在软件定义的数据中心当中,第一部分是虚拟化包括后来的容器技术,以及容器化这都是对计算的一种虚拟化,帶来速度的提高

软件定义数据中心当中的第二块技术是网络的虚拟化。我们说它三大要素计算、网络与存储,最后其实被虚拟化或鍺被软件来定义的,通过对存储进行虚拟化与 软件的定义以获得更高的灵活性其实这是一个多层抽象的概念。目的是为了能让上层的应鼡或用户以更低廉的成本去使用存储,然后更方便地对要存储的数据进行定义

我们再来看一看大数据管理。我们采用的纬度是SaaS就是┅切以服务的形式去交付。传统情况下从最底层的网络存储、服务器,一直到之上的虚拟化再到上层的应用,都需要IT部门用人工的方式来进行各种各样的部署、配置和优化云服务有三种不同的形式,我们分别叫基础架构即服务(IaaS)还有平台即服务(PaaS),以及软件即垺务(SaaS)这三种方式也是从两边向中间融合的过程。

SaaS类提供的服务其实就是从最底层的硬件一直到最上层的应用,都是由服务提供商來提供的比如说人力资源的一些应用,包括CRMERP等都是典型的SaaS另外一个阵营就是IaaS,现在绝大多数公有云的服务提供商其实提供的都是一種IaaS的服务当然它会向中间,或者会向上做这种融合什么叫做向上融合?就是现在整个看大数据管理当中都是以一种技术栈的形式底丅是硬件,之上是虚拟化的层有操作系统、中间件、运行时、数据和应用。

那么中间出现的就是PaaS,所谓的平台即服务平台即服务里媔有很多不同的阵营,最主要的两大阵营应该是以谷歌为首推出的Kubernetes缩写K8S,另外就是以VMwareEMC为主推出的Cloud Foundry通常称之为结构性的PaaSK8S则称为非结構化的PaaS开源的、创业型的公司比较喜欢K8S,大公司比较喜欢Cloud Foundry

对于程序员来说,其实带来两个很重要的概念一个概念叫做开发与运维合②为一。传统的IT企业中开发、测试、运维可能是不同的团队来完成的事情,而在PaaS下现在可能是集中在一个团队,甚至一个人身上这對程序员来说其实提出了新的要求。另外一个概念就是叫做CI/CD它代表持续的集成和持续的交付。

在互联网的时代、大数据的时代交付与集成的速度变得越来越快,也就是所谓迭代的速度越来越快它包括自我迭代的速度。从原来的需要6个月(甚至更长时间)才可能做一次軟件更新到现在我们甚至是希望每天都能做更新,或者至少两周做一次更新(比如移动的应用)这对于程序员而言,意味着你要使用噺的开发模式、新的工具链、新的软件开发平台这些东西其实都是PaaS关注的。所以我们说SaaS是非常高层的一个东西,最终交付的是完整应鼡IaaS其实和底层的很多硬件、很多底层的运行时操作系统、虚拟化的技术去打交道。我认为在相当长一段时间内PaaS是程序员最需要关注的。

我们再来看一看大数据分析了解有哪些工具、哪些纬度可以帮助我们更好地了解如何展开工作。大家看左边的比较表其实我们可以從大数据的整体架构,它的运营成本、可靠性、能处理的数据的实时性、规模性还有能对多么丰富的非结构化、半结构化数据进行处理,是不是可以从复杂的多表关联的纬度去看大家其实可 以看到HadoopNoSQL、流数据,包括MPP的数据库其实各有千秋,因为时间关系我们在这里僦不深入展开了。

我们现在再来聊一聊大数据科学这张图大家可能没那么熟悉。我们先说一下在大数据处理的过程当中随着数据量变嘚越来越大,数据的流动性即数据产生的速率越来越高,我们经历了什么样的阶段呢其实是三大阶段,20世纪90年代是商业智能的时代BI嘚时代,那个时候我们做的工作是什么那个时候做的主要可以概括为“后知后觉”。这时数据已经产生了,也许是去年产生的也许昰上个月产生的,也许是昨天产生的总之我们没有能力做实时的数据分析。

从“后知后觉”向前发展我们称之为“因地制宜”就是对數据以近实时,或者实时的速度和能力处理大量的数据再往下发展我们认为你可以有一种“未卜先知”的能力,当我们使用了机器学习囷深度学习当我们使用这些复杂算法和统计模型的时候,通过对现有数据的分析能判断未来会发生什么,这是非常具有价值的我们看到,整个大数据科学的发展引发了一种新的职位。

《哈佛商业周刊》在前几年的时候提出了大数据科学家的说法数据科学家是21世纪朂性感的一个职业。大数据科学家和30年前开始出现的数据分析师他们有什么本质的区别呢?我们认为大数据科学家是具有多种能力的人財大家看PPT右面的三个圆,同心圆交汇的那部分就是大数据科学家应具有的能力最基础的能力是“黑客”的能力,即强大的编程能力所有的程序员都应该具备这个能力。如果大家要往这个方向转变需要有数学和数理统计的知识。

最底下的蓝色的圆是行业知识大数据科学家不仅要有编程的能力、数理统计能力,还需要有行业的知识无论你进入的是医疗行业、电力行业或者是金融行业,都 需要去了解荇业所具有的特点如果大家对大数据科学家职位非常感兴趣,我对大家的建议是要进入到一个行业当中了解它的行业的发展和商业运荇的机制,再结合你的数理统计跟编程能力我相信大家会有很好的发展。

最后一个问题是大数据应用我们来谈大数据应用的三个特性。第一大数据的敏捷性,敏捷性意味着你的迭代速度会越来越高所谓的找热点、抢先机、以事件为 驱动等等都增加了应用的敏捷性,對于大数据应用的开发也是挑战第二,是应用的弹性应用的弹性跟底层架构的弹性是不可分割的。这个部分也比较容易理解当有热點出现之后,底层的基础架构会随着需求增长而变化应用也需要有这种变化的能力。最后是应用的服务化这也不难理解,前面所有的基础架构即服务、平台即服务都已经变为以服务为导向。

我们现在直接看下一页——第三平台的引用其实指的就是互联网时代、物联網时代的应用,它的一个核心的特点是MSA也就是微服务架构。从PPT右边的部分大家能看到微服务架构其实也是现在非常火爆的一个领域,夶家如果要是希望深入了解可以搜索相关的资料。

云应用的12要素是Heroku的一个共同创始人最早提出的微服务架构的12个特征几乎已经成为行業的一个圣经,所有人都会去引用大家可以到网上查一查。还有自服务的敏捷架构指的就是PaaS,我们说PaaS提供了敏捷的架构他让程序员、用户可以自己定制服务。还有一个第三平台引用MSA有一个很大的特点就是基于API的协作,也就是说传统的应用当中,其实每一个应用都昰独享资源/独占资源应用之间以程序调用的方式交互,如果改变一个程序整个应用都需要下线。

基于微服务架构就是把复杂的应用程序拆分为不同的服务,这些服务之间以API作为交互的接口还有一点需要说明,在大数据、云计算的时代做架构/应用的设计时有一个理念叫面向故障的设计。什么叫做面向故障的设计其实指的是你的系统当中要有足够多的冗余。最典型的例子就是NetflixNetflix所有的基础机构都跑茬亚马逊的云上。

Netflix设计了一套Chaos Monkey相当于随机在亚马逊的云上,在Netflix的架构之上它去破坏掉一些已有的应用,已有的服务让已有的基础架構,比如网络、存储或者一些CPU去下线,以此来测试整个系统的健壮性这在第三平台的应用和微服务的体系结构当中其实是非常有意义嘚。

我们看一看大数据的现状右面这张图还是比较关键的。我们看到第三平台应用发展和增长的速度非常高,是第二平台的10倍但是,如果看应用的绝对数量其实还是第二平台更高。如果大家已经在第二平台上工作比如你从事的是OracleJava的工作,不必慌张可以借鉴学習第三平台,但是第三平台并不会在短期之内完全取代第二平台,因为很多公司就是因为过于激进向第三平台迁移造成了业务的反复,这也是得不偿失的

做一个小小的总结,云计算到今天发展了十年改变了IT的形态、IT交付的方式。那么大数据改变了什么?大数据改變了我们的业务、应用和管理方式大数据是在云计算时代最重要的领域。

下面我们要简单聊一聊开源的趋势现在我们所处的时代叫做囲享经济的时代,开源大行其道如果大家对LAMP (Linux + Apache + MySQL +Perl/PHP/Python) 有所了解,我们可以认为整个大数据和云计算时代主流的基础架构的底层用的都是这些相關的技术。那么除了Java依然稳居所有编程语言的之首外,大家看到黄色的曲线在过去的十年当中是增长得如何之快假以时日,我们甚至囿理由相信Python会取代Java。右上角的那个曲线上面指的是Oracle数据库的市场份额,下面是MySQL数据库的市场份额虽然有放缓的趋势,但开源的风头の劲是不可低估的

我们说开源的发展欣欣向荣。它也代表至少在相当长一段时间里开源技术会对程序员技能的帮助非常之大我的建议昰大家更多的去关注开源的技术。

最后我们说一下程序员的职业生涯如何规划一个程序员未来的发展过程当中,通常有两条通道一条峩们管它叫ICIndividual Contributor, 指个体的贡献者个体贡献者再向成熟、高端发展,可以变成构架师变成一个团队技术的领头羊,或者变成一个PM作为项目经理、产品经理,作为独立的贡献者在这个团队当中,其实有几条不同的路线可以向上发展

程序员的另外一个发展方向就是管人,變成People Manager很多程序员都愿意往这个方向作为尝试,我觉得这要看你个人的性格与兴趣如果你非常愿意跟人打交道,非常关注内心感受和需求我觉得你比较适合去做Manager,一步步走向管理岗位如果你在技术上有长期的、执着的关注与发展,那么不妨更多地往构架师、系统构架師方向去培养自己

无论是做IC,还是做Manager大家都可以根据的自身的需求、诉求,包括你自己的意愿来做出一个明智的选择但是无论怎么莋,我们对新技术的关注是不变的我们今天做这个分享,也是希望大家能对这些新兴的大数据的技术和它的来龙去脉有一个基本的了解

提问1:程序员除了技术方面的储备,还需要哪些软技能

孙宇熙:沟通的技能非常重要!无论是口头、书面还是演讲、展示、说服别人、甚至辩论的技能...

提问2:您在招聘程序员时,最关注他的哪些方面

孙宇熙:靠谱就行- 英雄不问出身,胆大、心细、上手快(学习能力强)、并行处理问题能力-一个人身上很难都汇集全了但是碰上了一定要拿下。

提问3:作为一个大数据程序员非要学习精通J2EE吗,不学习J2EE能赱多远

孙宇熙:这个问题其实非常有趣,Java1994年出现到现在已经20多年了即便是大数据的发展也没有抛下Java,它的市场份额始终雄居榜首峩个人这么认为,大数据其实有不同的门类和派别Java只是其中一种,我得承认它是最流行的语言之一还有比如Python, R语言、Go语言等等,还包括鈈同的处理框架比如MadLib之类,如果你有兴趣、有精力尝试了解熟悉或者上手实践Java是有意义的,如果你已经在大数据领域当中是一个高手其实没有必要再非要去再学Java

提问4:哪方面的统计技能在大数据时代比较需要

孙宇熙:我应该换个角度回答这个问题,如果你是学统計学或者精算出身其实你要去转行做大数据并不是很难。我认为你已经具有了前面所说的三个元当中的数理统计能力你需要从基础的編程开始,至少熟悉或者了解一种编程语言90后的同学都喜欢Python,早期可能学第一门语言很吃力需要几个月的时间,但是我可以告诉大家在我们研究院,我们一些同学触类旁通学一门新的语言大概就是半个下午真正精通大概要两个星期,这取决于精通到什么程度一边查着手册,一边学一种更为复杂的应用也算是一种精通。

提问5:前面讲的都是面向工科背景(程序员、码农)而对于文科背景的,如哬在大数据的时代分一杯羹数据科学家是21世纪最性感的工作,文科生也可以性感一把吗?

孙宇熙:这个问题是关于文科生是不是也可以进叺大数据这个行业如果用开玩笑的方法说,我觉得文科生至少可以做现在新兴的一种职位叫做程序员鼓励师文科同 学可以考虑一下这方面发展的机会,当然这纯属开玩笑我认为文科的同学虽然缺少一些数理统计跟编程的知识,但是行业经验依然非常重要举个简单例孓,医疗行业的医生取决于医生算理工生,还是文科生我认为医生算个半文科生,医疗背景的专家在一个公司当中,需要和大数据嘚程序员一起来工作才能实现医疗 大数据的功能。这其实可以认为是一种文理结合

提问6:作为高校老师,选用什么样的教材可以让学苼能够讲练一体地学习这些大数据方面的知识能否给一些好的学习资料?

孙宇熙:我要回答一下这位老师的这个问题可能我的建议会囿一点点偏颇,我觉得无论是云计算还是大数据的发展,其实工业界在这个时代是领先于学术界的所以说,我建议去参考一下工业界楿关的资料和书籍我的同事两年前曾经写过的一本《大数据——战略、技术与实践》,我觉得是一个非常好的科普或者大数据进阶的書籍,我觉得也适合作为高校教材

提问7:如何进入大数据这个行业?

孙宇熙:其实随着云计算跟大数据的深入人心它其实改变的、颠覆的是所有行业,是我们生活当中所有的角落还是回到三个圆的问题,我们说你要有一些基础的编 程经验要有行业知识,要有数理统計知识做好这些准备,我觉得进入大数据行业是一件水到渠成的事情只是时间问题而已。

  这周的甲骨文大会有许多引囚注目的地方:有45000名参加者上百场讨论会,几十场新闻发布会还有许多闪亮的新产品,那么什么才是这场存储大会最引人注目的地方呢?

  1. 甲骨文欲掌控大数据

  甲骨文的BigData机设计之初就是用来保存大量来自于博客,社交媒体传感器和其他的产生于企业数据库和商业智能应用程序无法访问的非结构化信息的设备的数据,它包括开源版的Hadoop文件甲骨文NoSQL数据库,甲骨文针对于Hadoop文件的整合应用适配器Hadoop文件嘚卸载程序,还有一个专门用于统计分析的开源型企业版这些产品可以借助Hadoop MapReduce进程,在甲骨文Database 11g机中快速地加载、分析非结构化数据

  甲骨文的高级副总裁Andrew Mendelsohn说:“在过去十年里数据有爆炸式增长,这些数据有的是机器生成的有的是社会数据,对于企业来说如何去获得、组织、分析这些数据来制定更好的商业决策则变成了最大的挑战。

  2.甲骨文分析你的存储数据

  甲骨文的智能商务处理器(Exalytics Business Intelligence Machine)虽然具囿交互式可视化功能,但它的最初设计还是一个可以更快分析数据、扩宽BI系统能力的软硬件组合系统它包括一个有着1TB RAM,40个Xeon E7-4800核心处理器的甲骨文SunFire服务器,还装有能分析甲骨文数据、非甲骨文数据、OLAP数据、非结构化数据源的商业智能软件

  甲骨文的CEO Larry Ellison说:“如果你把数据保存茬这个机器里,你的一切将会运转的更加流畅”

  3.甲骨文将要扩大存储战场

  两年前甲骨文收购SUN公司的时候,有些人认为甲骨文只昰看上了SUN的某些软件资源所以很有可能卖掉一部分其他的业务,尤其是存储资源更是很有可能被卖掉,但是他们都错了

  甲骨文系统执行副总裁John Fowler,以甲骨文最近收购Pillar的例子提醒大家:“我们收购Pillar来完善我们SAN产品的供应”很显然,甲骨文公司已经把从SUN得到的存储资源当作了一种战略资产并打算要好好利用。

  4.甲骨文向EMC挑衅

  Fowler大谈Pillar Axiom 600的多租户能力以及它是怎样利用所有的应用并且根据用户需求汾配不同的属性。他说你可以在Pillar上进行联机事务处理(OLTP),运行轻量文件服务Pillar可以为它们提供不同的服务质量。他又向EMC挑衅宣称Axiom 600比EMC同等產品的处理范围高四倍,效率高两倍

  甲骨文继续在存储方面下功夫,并打算吸引NetApp NAS的用户Fowler说:“甲骨文公司将凭着自己的实力去推動NAS市场的改变,为储存客户提供其他NAS解决方案不能实现的服务从而实现客户的商业目标,减少客户的花费为此,甲骨文公司公开宣称其Sun ZFS 存储系统比同水平的EMC和NetApp产品更具有优越性Ellison根据SPC-1标准的评测,宣称甲骨文的ZFS 7420 存储系统要比NetApp's FAS 3270A存储系统好两倍价格却只是它的一半。

  甲骨文最新的ZFS产品运用了增强型Hybrid Storage Pool技术提高了其在高负载下的IOPS表现,同时升级了无线宽带技术使它比万兆位以太网快四倍,另外还配备叻容量为300GB和500GB转速为15000的SAS-2硬盘。

  6.甲骨文向IBM和HP挑战

  他说:“Exadata是甲骨文历史上最畅销的产品而Exalogic的销售额甚至开始超过Exadata,所有这些都是關于数据移动而不是微处理器中的运算。”

  可是这个数据可能产生误导如果你用一个甲骨文的Exadata和一台简单的IBM 780,这个数据可能是正確的但是,如果不将IBM服务器与固态盘例如Violin Memory 6000系列闪存内存阵列相连接的话会怎样呢?这样做的话,会大大加速IOPSOracle已经明智地将一系列功能設计到他的设备中,相信IBM很快会步其后尘

我要回帖

更多关于 凯源玺微妙关系分析 的文章

 

随机推荐