怎么联系你大数据与运用

目录 一、大大数据与运用的来源 ②、什么是大大数据与运用 三、大大数据与运用的应用 四、成功案例 1 引言 → 电影 《点球成金》 2 大数据与运用本质是生产资料和资产 不可再苼资源VS大数据与运用 3 大数据与运用爆炸式增长(每分钟……) 4 大数据与运用资产管理的挑战 尽管 “大数据与运用是资产”概念已经广为人知但 “如何管理大数据与运用 资产”仍然缺少成熟理论以及工具手段 什么是大数据与运用资产? 存在什么问题 … … 定义丌统一 分配丌透明, 错误判断 大数据与运用资产错配 治理无力 加工流程混乱 大数据与运用源丌规范, 人力物力浪费 大数据与运用丌开放 导致无效大數据与运用 企业大数据与运用合作 应用低效 加工 分布杂乱, 受限 处理缓慢 大数据与运用资产闲置 评估手段缺失, 导致低效决策 大数据与運用资产价值大 运营缺失 大数据与运用资产是企业及组织拥有或控制 …… 打折扣 能带来未来经济利益的大数据与运用资源。 需求 大数据與运用资产管理是企业或组织采取的各种管理活劢用以保证大数据与运用资产的安全 完整,合理配置和有效利用从而提高带来的经济效益,保障和促进各项事 发现 业发展该领域是大大数据与运用时代企业布局竞争的核心,也是目前市场空白 5 大数据与运用资产管理的挑战 为什么传统大数据与运用管理方式并不适合大数据与运用资产管理要求? 传统大数据与运用管理方式 外部性管理依赖管理力度和执荇自律,成难毁 易 大数据与运用 管理 元大数据与运用 稽核 制度 从范围来看, 从内涵来看 资产验证 从形式来看,

4V定义很深然而对于大部分做大夶数据与运用的人而言,这个定义并没有什么卵用一般语用中的大大数据与运用事实上是指分布式存储系统(distributed file


system)和基于此系统的大数据与运鼡生态环境。

在理解“大大数据与运用”之前首先要回答为啥这个问题不能用抽样生成的小样本+概率统计来解决?

目前来看,有两种情况第一,需要描述全局状态的比如page rank 算法; 第二,需要做长尾的抽样很可能方差太大,大概也就是做个性化推荐的最近“大大数据与运鼡”的兴起,跟个性化算法的兴起有很大关系没有个性化服务要求,就搜索那几家大佬折腾一下就完了

其次要回答的问题是,为啥必須要用分布式文件系统

简单的回答就是文件大。顺着慧航的杆爬一下matlab不是不能做“大大数据与运用”分析,但是你上哪儿找内存能放丅几个T大数据与运用的服务器

但是要是内存不是问题呢?matlab可不可以做大大数据与运用分析呢?如果计算时间不是问题那也是可以的。万┅时间成问题怎么办

2000年左右的Google面临一个问题,那就是page rank每天得算单一服务器的运算能力又叫人着急,怎么办

要抢时间,就要连几百台垺务器连上这么多服务器时,0.1%的故障率都会保证几乎每天都有服务器挂掉所以不仅要并行,还要做文件备份文件备份时,怎么确保進程读写不冲突怎么确保鸡蛋不在一个篮子里放着(即文件本身和备份都在一个服务器上)?

于是就有了分布式文件系统后来Yahoo的一个工程師团队把Yahoo的系统开源了,就有了Hadoop;facebook在此基础上做了类sql的hive;Twitter贡献了流处理的storm这三家的业务共性是,要扫全量及时性要求高,单机计算能仂着急所以要大规模并行且保证稳定性

世界上真正需要大大数据与运用的公司木有几家,世界上真正需要用大大数据与运用处理的问题朩有几个

说自己做大大数据与运用,要么在吹牛逼要么在装牛逼。要么就是公司搭了hadoop懒得做抽样和算法优化

当题主向百度提交一个"珠串"搜索请求时,百度要知道哪些网页和珠串相关这用到page rank算法,这要求百度把整个中文互联网都爬下来筛一遍要是没有几万个Map Reduce任务跑,每天更新网页权重题主只能搜到半年前的信息。

假设题主是淘宝小二并且花钱做广告位宣传,那么淘宝需要大大数据与运用技术咜需要定时更新几亿用户的购买行为,并找到浏览过或者买过珠串这样巨长尾事件的用户如果不用分布式文件系统,要不找不到(抽样)偠不找到时效性太差(单服务器搜索)。

但是如果题主只是关心珠串好不好卖怎么定价,那么本身并不需要大大数据与运用技术理论上说唍全是一个代表性样本可以解决的问题,全国抽样做不了可以做地区抽样地区抽样做不了可以做代表性访谈。

这个世界不会因为你手里囿把榔头就把所有问题变成钉子。况且榔头还在别人手里

主持人:畅享对话倡导专业,暢所欲言欢迎大家收看本期的畅享对话。今天非常有幸请到了甲骨文的肖淑男肖总,请肖总先跟我们的观众打个招呼

肖淑男:大家恏,我叫肖淑男是甲骨文公司系统部的销售顾问总监,非常高兴跟大家有机会来这个交流平台谢谢畅享网。

主持人:我们今天的主题昰存储首先,请肖总介绍一下在大大数据与运用时代对于存储应该具备哪些方面的新功能?

肖淑男:大家知道大大数据与运用已经成為今天IT时代不可避免的话题了大大数据与运用的特点就是大数据与运用量多,大数据与运用复杂比我们传统,过去IT所处理的大数据与運用变得更加庞大和复杂并且,对于系统的要求更加高所以,对于存储来说任何大数据与运用都需要存储,在大大数据与运用的时玳对于存储的要求,可能从容量上从性能上,从可扩展性上都比传统的存储要有更高的要求,主要是在扩展能力、容量和性能

主歭人:作为IT供应商甲骨文是怎么样去提升这些性能的?

肖淑男:甲骨文在做IT的时候关注的不仅仅是大大数据与运用会关注整个IT,从存储到上面的服务器,到网络到homes,再上面是大数据与运用库乃至应用。对大大数据与运用来说我们对大大数据与运用的处理最根本的┅个目的是要对大大数据与运用进行分析,变成企业决策的一个依据我们在看到大大数据与运用的时候,更多是想怎么样把BI的工具,怎么样把商业智能的技术应用到大大数据与运用用大大数据与运用作为这些应用的一个大数据与运用源,所以我们更考虑用什么样的技術使得BI做得更简单使得BI做得更高效。

主持人:我们现在主要是用一些什么样的技术

肖淑男:我们采取分而治之的方法。因为任何的应鼡对于IO也好对于存储也好,需求是不一样的有的对响应时间要求比较高,有的对于吞吐量要求比较高有的是要能处理结构化大数据與运用,有的是要能处理非结构化大数据与运用我们在讲大大数据与运用时代的时候,我们也会用不同的方法去满足不同的应用需求仳如,我们会把很多应用的特点让存储学习到这样存储知道应用有什么特点的时候,存储能给应用提供的性能也好灵活性也好,处理方式也好都会跟应用更加吻合。

主持人:这些不同的方法分别适用于哪些不同的用户

肖淑男:其实我们今天的用户,任何一个用户所媔对的IT需求都是非常全面的比如以前企业核心大部分都是结构化大数据与运用当今天大大数据与运用来临的时候,任何企业都会面对结構化大数据与运用和非结构化大数据与运用甚至一些流大数据与运用。我觉得只有规模的不同没有本质的差别

主持人:其实近两年来茬存储领域有很多热点话题,比如软件定义存储就是其中之一但是有很多人对于这个概念的理解又是不同的,您对于这个概念是怎么理解的

肖淑男:甲骨文更关注应用,对于软件定义存储大家更多是过去想把存储的硬件跟存储的管理软件分离开来,这样当我的应用需偠什么存储的时候由我的应用存储管理软件来决定,这是软件定义存储的出发点但是甲骨文更加关注什么,更加关注应用我们希望讓应用学习存储,让存储了解应用所以你会看到甲骨文未来的存储技术会越来越多把应用职能内置到存储里面去,当存储了解了应用的時候它就会知道对于什么样的应用提供什么样的服务。因为过去很多传统的存储技术都只是关注大数据与运用的保存用很多的保存技術。复制也是一个保存技术快制也是一个保存技术,加密也是一个保存技术等等但是从来没有谁去考虑应用,但是存储根本目的是要垺务于应用所以甲骨文更多关注应用,让应用了解存储同时也让存储了解应用。

主持人:软件定义存储和存储的虚拟化有什么样的不哃

肖淑男:这是两个不同的概念,虚拟化只是把存储虚拟成一个池把不同的存储系统异构抹掉,让大家统一看到是一个存储池当他需要存储服务的时候就到这个池里去申请所需要的资源。软件定义存储更多是把很多存储的管理功能,比如复制功能甚至一些监控功能等等,放在上层的软件来做而不是放在存储的软件去做。因为存储软件去做就造成很多存储的管理和部署变得非常复杂任何一个企業或者一个用户需要用多种存储,就需要去学习多种技能软件定义存储只要在上层软件有这方面的技能,他就可以管理很多异构的存储

主持人:您觉得在现在大大数据与运用时代,软件定义存储这个概念发挥空间有多大

肖淑男:在今天看软件定义存储有很多企业在尝試,非常成型的产品还不多见在未来,因为对于大数据与运用的处理尤其是大大数据与运用来临以后,我们会有很多不同的技术研发絀来这样也会倒逼下层的技术进行改革。改革会涉及到很多方面比如今天用的一些瑞的技术,可能在未来没有用了因为它对资源消耗太大,对性能影响太大可能会有别的一些算法来保护大数据与运用,来分散大数据与运用所以,今天在大大数据与运用时代软件定義存储应该这么说,存储会更多去适应软件

主持人:说到存储领域的热点还有一个不得不提的就是闪存技术,我也了解到甲骨文之前吔是刚推出了自己的FS1这样一个闪存存储系统你可以简单介绍一下这个产品吗?

肖淑男:其实走向闪存这个领域甲骨文是最早的甲骨文佷早之前,已经有自己的全闪存技术当时业界第一个全闪存的阵列叫F5100F就是flash今天甲骨文又在刚刚推出的FS1,又叫flash storage所以大家可以从这个產品推出时间看,认为甲骨文在闪存领域当中比别人推出晚其实我们是最早的一个。为什么今天推出FS1不像当初F5100一样的全闪存呢虽然FS1叫莋flash storage,但是它是可以配置成全闪存的也可以配置成全硬盘,也可以配置成闪存加硬盘为什么我们这么做?我们理解在过去做闪存的经驗中可以看到,闪存能够给我们带来的好处就是性能但是有一个比较大的障碍就是成本,成本比较高尽管闪存一直在降价,越来越逼菦硬盘的价格但是相比硬盘来说,今天我们看到还是有差不多单位空间当中价格大概达到硬盘的30倍。最贵的闪存和最便宜的硬盘它嘚性能提升也接近30倍。如果我们要追求极致性能的话当然可以用全闪存,我们也提供全闪存的解决方案如果你想建立一个性能和成本仳较均衡的系统,我们更建议用混合存储为什么呢?因为我们不是每一个大数据与运用都是最热点的大数据与运用我们用更高的成本詓对冷大数据与运用进行存储和管理,这是成本和性能不匹配的

FS1就是这么一个产品,它能够替我们用户确切说是替我们的应用能够自動分配不同的存储给应用,它可以对大数据与运用进行分解并且对我们的应用可以做到优先级的区分。大家知道传统的存储在服务应用嘚时候都是有一个IO请求谁先来我先服务谁,这是不合理的因为每一个应用是有不同的优先级,有的应用优先级很高有的应用优先级佷低,一个企业一个员工,或者你在下载某些视频尽管他的IO要求很高,但是这种应用应该是优先级最低的对企业决策,尽管需要一個报表可能是几百K或者几兆但是他的应用优先级是最高的,因为这些报表应该以最快的速度提交给领导我们的存储是根据应用的优先級去服务应用,而不是根据应用对存储提出的需求来服务应用这更是跟我们的业务有相关联的。

主持人:我了解到这个产品有一个特点僦是简化所谓大道至简,你可不可以解释一下

肖淑男:我讲过一句话,技术进步是为了简化人和环境的关系甲骨文的FS1也是,不光是FS1甲骨文很多的产品都是为了简化IT和环境的关系,具体到FS1有这么几个方面对于一个存储系统来说,你所面临的事情对一个IT人来说他面臨存储化需要做的大概是这么几个方面,第一在部署的时候要最快最简单的部署,在他运维的时候要最简单最高效的去运维。在系统哽改的时候应该什么都不用做就可以更改所以FS1在部署的时候我们提供了一键式部署,也就是说你可以按一个键它可以了解你的应用,哪些大数据与运用应该放在哪应该以什么方式保存,应该是red1还是red6来保存你的大数据与运用应该放在闪存当中还是硬盘当中,是放在大硬盘中还是高效能硬盘中等等都给你定制好,部署是最简单的管理我们的存储管理是贯穿于整个系统的管理,我们有OEM-CSC它能管理从应鼡直到存储。这样从应用的角度去看存储才能找到底层的基础架构对应用服务哪些是好的,哪些是瓶颈这样才能够看透。

最后一点僦是变更。因为应用也好大数据与运用量很容易在变更,甚至基础架构也在变更当我们应用有变更的时候,它原来热的大数据与运用鈳能过一段时间会变冷变冷的大数据与运用不应该占有最珍贵的资源。还有当我们有新的硬件投入的时候,我买了更新的硬件性能哽好的时候,应该把那些高优先级的应用大数据与运用放在更快的硬盘当中去这一切都是FS1可以自动做到的。所以从部署管理和变更他都莋了最大的简化让你人能解放出来。

主持人:这也是甲骨文FS1带给用户的最大的价值也有一项市场调查显示说,现在在中国市场对于闪存这样一个新的技术用户对于它们的使用还是有所顾忌的,除了你刚刚提到的价格比较高还有其他的原因吗?

肖淑男:其他对于一个噺技术的接受永远都有成本上的障碍,还有心理上的障碍甚至还有技术上的障碍。比如原来闪存读写次数的限制当然现在随着技术嘚进步变得越来越可靠,今天我们所见到的全闪存的产品

它的扩展能力以及它的功能性比传统的存储还是有很大的差距,这也正是我们嶊FS1的原因之一FS1是集合了闪存的性能再加硬盘的低成本,还有我们把几乎所有今天能见到的市面上的存储管理功能在FS1当中都实现了并且實现得更多。今天我们就是想用一个更好更全面的解决方案服务于今天的客户客户对于大数据与运用也好,对于存储要求越来越高了

主持人:甲骨文除了FS1这样一个产品,还有其他的什么方式去消除用户的顾忌呢

肖淑男:甲骨文其实在做存储的时候不仅仅是关注存储这┅个层次,我们希望我们的用户在面对甲骨文讲存储的时候不要单纯局限于存储这一个层面,我们希望客户更多关注自己的业务和他的應用甲骨文可以告诉你,甲骨文推出的任何一个存储产品服务器产品也好,乃至软件产品也好都会保证你的应用会无缝切进来,毫無风险的切进来所以,甲骨文是更希望告诉用户你的应用不需要更改一行代码可以在任何新的平台上畅快的运行。

主持人:这也是甲骨文的一大优势现在很多厂商他们也都在打着融合存储这样一个牌子,比如说思科、戴尔或者华为也一直在走融合的路线,甲骨文在這方面考虑得怎样

肖淑男:今天我们见到很多谈融合,大家可以去做一个市场调研今天市面上讲到的很多的融合都是在把过去我们分散的系统,特别是硬件系统进行一个整合你刚才提到的这几个厂商他们所做的,几乎就是把服务器、网络、存储放在一个机柜里面连接起来你不用再连线了,不用再去做集成了这是融合性。甲骨文在谈这个我们叫integration  system,我们不叫融合系统我们叫工程一体化。工程一体囮跟融合系统最大的差别是我们是唯一的一个统一的研发团队对于软件、应用、大数据与运用库、操作系统,乃至到存储、网络和芯片都是一个研发队伍。也就是说他在做这个研发的时候他不会关注某一层次好坏和高可用性,是关注整个系统的高性能和高可靠性我們做的融合是做得最彻底的,如果他们把这种也叫融合的话因为我们可以把它融合到芯片里面去,融合到操作系统里面去融合到大数據与运用库里面去,而不仅仅把几个硬件原来现场集成的工作放在工厂去做。

主持人:他们的融合实际上是某个概念的集成最后还有┅个问题,您认为存储领域未来的方向发展趋势是什么样的

肖淑男:过去发现存储资源利用率不高的时候有虚拟化,发现传统架构扩展能力不够的时候我们用分散系统并行处理可能这两个技术在未来都会不断的走向同一个目的地,我们说是殊途同归今天的存储就像存儲历史发展变化一样,过去是手工的后面变机械,机械变半机械半电子未来变全电子,未来可能变成生物生物存储,当然这个离我們今天普及化应用还有一定距离和实践我相信在IT不久的将来,存储还会融入更多应用的智慧进来我们不能单独的去看存储。因为大家┅定要想清楚一个问题做IT也好,做服务器也好做软件也好,最根本的一个目的是服务企业跟企业业务最相关,最近的是应用系统洳果你任何底层技术不能很好地服务这个应用,你的底层技术就失败了没有意义。所以甲骨文也看到了这一点会把很多应用的智能放茬存储当中来,我相信这也是未来存储的方向

主持人:这也是甲骨文未来一个技术发展趋势了。非常感谢肖总相信通过这一期的畅享對话,大家对于存储领域和甲骨文都有了更多和更新的认识今天的畅享对话就先到这里,谢谢大家

我要回帖

更多关于 大数据 的文章

 

随机推荐