Spark-Hadoop,Hive,Spark 之间仁坂和高崎是什么关系系

你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!
第一课_Spark概述的相关问题都在下面进行提问回帖
1、大家在这个帖子上回复自己想要提的问题。(相同的问题,请点赞表示自己关注这个问题,不用重复提问)
2、提出的问题,老师在直播课的最后30分钟统一回答。
3、课后会整理出参考答案,给每个问题回帖。
第一课课后调查问卷:
或者扫二维码进行填写
董老师,您好!我想问2个问题
1、如何控制spark代码运行时的权限。例如,可以读写那些hive或hbase的表。或者那些hdfs目录
2、目前我能想到的访问和操作hadoop eco cluster 的方式有三种1、rest, 2、CLI,3、代码。请有其他方式吗?
我们目前采用的是HDP2.5,通过ambari2.4部署的。希望控制住三条路线上的权限,分别是:restful、CLI、代码 的读写hdfs、Hive、Hbase等几个组件的权限。
目前看到的一套安全解决方案是通过knox + ranger + kerberos来实现的。整套框架如图所示。我的需求是构建一个安全的大数据据平台。希望做到安全的数据管理,其实就是做到各种方式的数据操作都受控就行了。
附件里面的那套方案能否实现我们的目标,无论通过那种方式访问集群的任何服务,必须要有认证授权才可以。否则连hdfs 50070 和 yarn 8088这样的界面都打不开
Spark1.6和Spark2.1的主要区别有哪些?
1.请问老师,是如何关注国外IT技术的发展,主要关注国外哪些网站或者论坛,或者博客,能列举一些么,
老师,之后的spark RDD会被DataFrame和dataset替代吗?ML会替代MLlib吗
我有个问题, 现在使用spark 2.1 在dataset上做sql操作,数据已经cache到内存中,有用一些复杂数据结构,arrary,和map。时间消耗都大部分都是反序列化的开销。dataset 的存储不再是对象,变成了byte array。 我有办法修改spark 去除掉反序列化开销么
请问,在spark-submit提交任务的时候yarn-client运行成功,但是yarn-cluster无法运行,提示某些包找不到。但是这些jar包已经配置在环境变量里面了,yarn-client模式也运行成功了,yarn-cluster却运行失败,这是为什么?
RDD-partition 和 HDFS-block 的关系是?两者的大小是一样的吗?比如Block 128M,对应的Partition也是128M吗?
1.对于数据依赖的两个spark任务,市面上有没有比较好的任务调度框架?
2.业界的spark任务提交方式?不会是打成jar再通过命令提交吧?
1、Spark除了读取hdfs外,能不能读取mongodb数据源,进行数据分析处理??
2、Spark相关应用,可不可以脱离hadoop环境? 单独在生产中工作呢?
3、Spark开发环境,介绍一下myeclipse开发环境搭建过!!!
spark 2.0和2.1有什么改变,为什么2.0没过多久就发布了2.1?
董老师您好,我问一个传统业务往大数据平台的迁移问题。对于传统业务(目前的数据都是关系型的,保存在ms sqlserver中,每天新增1千万条记录,每条记录的数据量都很少,只用了一台DB Server,现在出现了查询访问延迟较大的问题),要做性能优化,同时考虑到以后的业务扩展,倾向于采用大数据平台,但是不知道怎么下手。请问如果用大数据平台的话,是用那几个组件呢?还是说大数据平台不适合处理这种传统的海量关系型数据,而应该用传统的分库/分表的方法来优化?
请董老师给我们从宏观上普及一下大数据平台里面的数据存储管理再到后面的分析方面的目前通用做法,对于传统企业,在做业务和数据的迁移的过程中,应该注意哪些问题?非常谢谢!
还想问一下,各个partition的计算结果会回到driver节点吗,如果会,什么情况下会,如果不会,是什么情况下不会?谢谢
董老师您好,
1.我要部署一个新集群,预计12台,
CPU32核,内存32G*12=384G,硬盘4T插满,需要配置尽量高,利用率最大化。
这个配置需要调整吗,短板在哪,怎么调整更好?
2.我写自定义tez程序,处理了hdfs数据,当我想用tez处理hbase数据时,无从下手,请问是否有tez处理hbase的资料?或者说我还是放弃tez,改用spark来做?
回答第一个提问者的问题,希望一起讨论学习。
1、Spark除了读取hdfs外,能不能读取mongodb数据源,进行数据分析处理??
spark 可以读取hadoop 支持读写的所有文件,当然包括mongodb,spark sql 可以读取Hive, Avro, Parquet, ORC, JSON, and JDBC 等等等等
2、Spark相关应用,可不可以脱离hadoop环境? 单独在生产中工作呢?
不知道你想在那种场景下使用spark。不过跟你的问题来回答。spark的应用必须在spark环境下工作,可以脱离hadoop环境。spark 支持standalone,on yarn 和 on mesos 三种部署模式。现在 hadoop 主要提供两种服务,一种是hdfs 用于存储,一种是yarn用于资源调度和MR计算执行
3、Spark开发环境,介绍一下myeclipse开发环境搭建过!!!
spark的开发环境搭建,可以使用maven,在maven中添加好相关的依赖就行了。如果只是使用scala开发的spark程序的也可以直接把assembly这个jar包添加到项目的依赖中就行了。
我知道spark是基于hadoop的,那么spark有自带调度器吗?如果我自己改了hadoop的调度器,那么使用spark的时候是用的我改过的调度器还是spark自带的调度器?
1.问题1 如何 用spark streaming
做热点分布的运算? 假如可以一直收集到大量车的运行GPS数据
董老师您好,我想问一下,咱们Spark2.1的课程 会包括DataFrame和DataSet吗?
董老师对出现的与spark在使用场景上是高度重合的flink框架有什么看法?
请问董老师是怎么把hive的查询分解成mr任务的
问下董老师,如何自定义并在RDD的操作里打印日志,或者获取异常?
spark sql支持类似 hive udf 的自定义函数吗
老师 好! 像我这种只懂数据库的,关于spark的相关环境都没有配置好!老师能简单说一下如果要搭建环境,需要做哪些工作么。这样我也有点方向去自己在网上查一下! 谢谢!
spark 在shuffle的时候会吧的中间数据落地磁盘吗? 默认都是写磁盘吗,
问一下董老师,当运行在yarn-cluster模式下的时候,怎么终止spark job?除了在web UI点击kill按钮,还有别的方式kill掉job吗?
请问:在RDD在经过transformation知道action才执行,是不是意味着action之前各个stage的状态都不记录?如果挂了是否是完全从头开始计算?
董老师,我们公司用的是spark2.0.2,没有用hadoop,资源管理是准备用mesos,这样会不会有什么缺陷么????
请问董老师spark.local.dir这个目录主要是存放什么文件,如果放到yarn client和yarn cluster应该如何定期清理?谢谢!
老师我在安装ssh的时候,当ssh localhost 的时候为什么还需要输入密码
老师,您说spark的 transformation不是分布式计算,需要一个action触发才是分布式计算,这里的一个rdd转换为一个新的rdd而且可能分布在不同的节点上,不也是分布式么,您意思是没有涉及到计算么,关键字是计算是这意思么?
比如说我的文件是1M的大小,要加载到spark内存中是需要1M的内存还是需要更多的内存呢
请推荐学习实验环境?是阿里云,还是买服务器?
老师,你好。我想问下,如果我用python来写spark程序,那么也需要maven进行程序大包吗?
麻烦问:基于Hadoop的Mapreduce进行预测模型训练,训练好的模型怎么实现测试数据的预测分析?我是用reduce函数实现的模型训练过程,但不知道怎么进行测试?
1.spark把数据写入到关系型数据库中时,在处理驱动加载时,为什么用--jars把驱动加后,spark在yarn-cluster时怎么也识别不出来,提示找不到驱动.
2.在写数据到关系型数据时,有时由于联接关系型数据库时间过长提示connect reset错误,如果在spark这处理这个问题呢?
我想问一下 您刚才说是只有一个mapreduce的程序 spark会快 可是 只要有 reduce 就有shallf 就会写磁盘 我觉得应该是只有 map的程序 spark和mapreduce 性能一样 麻烦老师给讲解下
如何通过Spark UI定位性能问题?
请问老师 spark-env.sh,spark-defaults.conf 是driver调用的还是executor调用的环境变量
Hulu的spark和Hadoop集群部署和运维有什么最佳实践和运维工具没?
比如,有没有自动部署的工具,如ansible类似的工具
一般集群的规划是怎么样子的?
Spark的standalone可以看到stage和task, Yarn看不到这些详细信息,怎样在Yarn看到信息和Spark ui看到的类似信息呢?
我想问一下 您刚才说是只有一个mapreduce的程序 spark会快 可是 只要有 reduce 就有shallf 就会写磁盘 我觉得应该是只有 map的程序 spark和mapreduce 性能一样 麻烦老师给讲解下
董老师,您好,有两个问题向您请教一下:
1.spark on standalone 这种运行模式可以对hdfs进行计算吗? 这种模式是通过什么对集群资源进行管理和调度?
2.hive on spark 和spark sql之间的有哪些异同?
董老师,你好
请问用Python写的程序提交到Spark集群上,可以分布式执行吗?
董老师,你好
我想问下几个问题:
1.Spark REPL 内部使用的sparkSession 在 REPL 外部可以使用吗?
2.如果(可以的话)把sparkSession 通过参数传递到REPL里面去,然后在REPL内部对sparkSession 注册UDF,那么外部的sparkSession可以使用内部定义的UDF吗?
董老师,我是单台机器32核,384G,部署HDP,用于内存密集型计算,对单个container要求很低
这样采买机器是否合理呢
董老师您好。这样一个错误,一般是什么造成?
ERROR CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
要回复问题请先或
浏览: 1285
关注: 56 人大数据(2)
早在大数据概念出现以前就存在了各种各样的关于数学、统计学、算法、编程语言的研究、讨论和实践。这个时代,算法以及各种数学知识作为建筑的原料(比如钢筋、砖块),编程语言作为粘合剂(比如水泥)构成了一座座小房子(比如一个应用程序),形成了一小片一小片的村庄(比如一台服务器)。这个时代村与村之间还没有高速公路(GFS, HDFS, Flume, Kafka等),只有一条泥泞不好走的土路(比如RPC),经济模式也是小作坊式的经济。一开始互联网并不发达,网速也不快,这种老土的方式完全应付得来,可是随着社交网络和智能手机的兴起,改变了这一切。网站流量成百上千倍的提高,数据变得更加多样化,计算机硬件性能无法按照摩尔定律稳定的提升,小村庄,小作坊生产的模式注定受到限制。人们需要更强大的模式...
起开始,人们以为只要有一个强大的中央数据库,也就是在所有的村庄之间建一座吞吐量巨大,并且兼容并蓄(非关系型,NoSQL)的仓库,用来中转每个村庄生产的大量异质货物就能够拉动经济的增长。可是没过多久,人们就意识到这是一个too young to simple的想法,因为这个仓库的大小也总是有上限的。
之后MapReduce的概念最早由google提出,用来解决大规模集群协同运算的问题,既然一台计算机性能有限,何不将他们联合起来?其野心勃勃,希望为每个村庄都建立一条”村村通“公路,也就是GFS了,就是Google分布式文件系统的意思,将不同服务器的硬盘连接起来,在外面看起来就好像一块巨大的硬盘。然后构建与其上的MapReduce就是一座工厂调度每个村庄的劳动力和物资,让这些村庄作为一个经济体运转起来。居民变得富裕起来了。
不过,富裕起来的只有”谷歌镇“,世界的其他村镇仍然过着原始的生活。这个时候雅虎和Apache的一帮人本着独乐乐不如众乐乐的精神,仿造google的思想,创建了HDFS(Hadoop 分布式文件系统,对应GFS)、Hadoop(对应google的MapReduce),并公开了全部的蓝图,供全世界免费使用。这样整个世界到处都建立起来了工厂,人们变得富裕起来了。这个时代,Hadoop叫做大数据基础设施。
俗话说:饱暖思淫欲,工厂的领导不满足于村镇工厂的粗放型生产,也不再想雇用那么多的劳动力,所以Mahout、HBase、Hive、Pig应运而生,他们都是数控机床,加工中心,只需要几名操作手就能够让整个工厂运转起来,自此人们安居乐业,丰衣足食。
当然,少数更有野心的资本家,不满足于现在的生产力,为了追求更高的利润(这是资本主义的本质),开发了效率更高的系统Spark,可以10倍于Hadoop的速度生产产品,新的时代才刚刚拉开序幕...
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:3289次
排名:千里之外
原创:10篇
(3)(3)(1)(1)(3)(2)1473人阅读
技术层-spark(33)
http://mp./s?__biz=MzAwNzIzMDY5OA==&mid=&idx=1&sn=ae80ad83c3c2f16d406a03e9b47f44ca&scene=5&srcid=07309uszQbKFaBJxnKSwVRul#rd
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。
大数据,首先你要能存的下大数据
传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。
存的下数据之后,你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦,比如整个东京热有史以来所有高清电影的大小甚至更大),一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说,单机处理是不可忍受的,比如微博要更新24小时热博,它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce
/ Tez / Spark的功能。MapReduce是第一代计算引擎,Tez和Spark是第二代。MapReduce的设计,采用了很简化的计算模型,只有Map和Reduce两个计算过程(中间用Shuffle串联),用这个模型,已经可以处理大数据领域很大一部分问题了。
那什么是Map,什么是Reduce?
考虑如果你要统计一个巨大的文本文件存储在类似HDFS上,你想要知道这个文本里各个词的出现频率。你启动了一个MapReduce程序。Map阶段,几百台机器同时读取这个文件的各个部分,分别把各自读到的部分分别统计出词频,产生类似(hello, 12100次),(world,15214次)等等这样的Pair(我这里把Map和Combine放在一起说以便简化);这几百台机器各自都产生了如上的集合,然后又有几百台机器启动Reduce处理。Reducer机器A将从Mapper机器收到所有以A开头的统计结果,机器B将收到B开头的词汇统计结果(当然实际上不会真的以字母开头做依据,而是用函数产生Hash值以避免数据串化。因为类似X开头的词肯定比其他要少得多,而你不希望数据处理各个机器的工作量相差悬殊)。然后这些Reducer将再次汇总,(hello,12100)+(hello,12311)+(hello,345881)=
(hello,370292)。每个Reducer都如上处理,你就得到了整个文件的词频结果。
这看似是个很简单的模型,但很多算法都可以用这个模型描述了。
Map+Reduce的简单模型很黄很暴力,虽然好用,但是很笨重。第二代的Tez和Spark除了内存Cache之类的新feature,本质上来说,是让Map/Reduce模型更通用,让Map和Reduce之间的界限更模糊,数据交换更灵活,更少的磁盘读写,以便更方便地描述复杂算法,取得更高的吞吐量。
有了MapReduce,Tez和Spark之后,程序员发现,MapReduce的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了Pig和Hive。Pig是接近脚本方式去描述MapReduce,Hive则用的是SQL。它们把脚本和SQL语言翻译成MapReduce程序,丢给计算引擎去计算,而你就从繁琐的MapReduce程序中解脱出来,用更简单更直观的语言去写程序了。
有了Hive之后,人们发现SQL对比Java有巨大的优势。一个是它太容易写了。刚才词频的东西,用SQL描述就只有一两行,MapReduce写起来大约要几十上百行。而更重要的是,非计算机背景的用户终于感受到了爱:我也会写SQL!于是数据分析人员终于从乞求工程师帮忙的窘境解脱出来,工程师也从写奇怪的一次性的处理程序中解脱出来。大家都开心了。Hive逐渐成长成了大数据仓库的核心组件。甚至很多公司的流水线作业集完全是用SQL描述,因为易写易改,一看就懂,容易维护。
自从数据分析人员开始用Hive分析数据之后,它们发现,Hive在MapReduce上跑,真鸡巴慢!流水线作业集也许没啥关系,比如24小时更新的推荐,反正24小时内跑完就算了。但是数据分析,人们总是希望能跑更快一些。比如我希望看过去一个小时内多少人在充气娃娃页面驻足,分别停留了多久,对于一个巨型网站海量数据下,这个处理过程也许要花几十分钟甚至很多小时。而这个分析也许只是你万里长征的第一步,你还要看多少人浏览了跳蛋多少人看了拉赫曼尼诺夫的CD,以便跟老板汇报,我们的用户是猥琐男闷骚女更多还是文艺青年/少女更多。你无法忍受等待的折磨,只能跟帅帅的工程师蝈蝈说,快,快,再快一点!
于是Impala,Presto,Drill诞生了(当然还有无数非著名的交互SQL引擎,就不一一列举了)。三个系统的核心理念是,MapReduce引擎太慢,因为它太通用,太强壮,太保守,我们SQL需要更轻量,更激进地获取资源,更专门地对SQL做优化,而且不需要那么多容错性保证(因为系统出错了大不了重新启动任务,如果整个处理时间更短的话,比如几分钟之内)。这些系统让用户更快速地处理SQL任务,牺牲了通用性稳定性等特性。如果说MapReduce是大砍刀,砍啥都不怕,那上面三个就是剔骨刀,灵巧锋利,但是不能搞太大太硬的东西。
这些系统,说实话,一直没有达到人们期望的流行度。因为这时候又两个异类被造出来了。他们是Hive on Tez / Spark和SparkSQL。它们的设计理念是,MapReduce慢,但是如果我用新一代通用计算引擎Tez或者Spark来跑SQL,那我就能跑的更快。而且用户不需要维护两套系统。这就好比如果你厨房小,人又懒,对吃的精细程度要求有限,那你可以买个电饭煲,能蒸能煲能烧,省了好多厨具。
上面的介绍,基本就是一个数据仓库的构架了。底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求。
那如果我要更高速的处理呢?
如果我是一个类似微博的公司,我希望显示不是24小时热博,我想看一个不断变化的热播榜,更新延迟在一分钟之内,上面的手段都将无法胜任。于是又一种计算模型被开发出来,这就是Streaming(流)计算。Storm是最流行的流计算平台。流计算的思路是,如果要达到更实时的更新,我何不在数据流进来的时候就处理了?比如还是词频统计的例子,我的数据流是一个一个的词,我就让他们一边流过我就一边开始统计了。流计算很牛逼,基本无延迟,但是它的短处是,不灵活,你想要统计的东西必须预先知道,毕竟数据流过就没了,你没算的东西就无法补算了。因此它是个很好的东西,但是无法替代上面数据仓库和批处理系统。
还有一个有些独立的模块是KV Store,比如Cassandra,HBase,MongoDB以及很多很多很多很多其他的(多到无法想象)。所以KV Store就是说,我有一堆键值,我能很快速滴获取与这个Key绑定的数据。比如我用身份证号,能取到你的身份数据。这个动作用MapReduce也能完成,但是很可能要扫描整个数据集。而KV Store专用来处理这个操作,所有存和取都专门为此优化了。从几个P的数据中查找一个身份证号,也许只要零点几秒。这让大数据公司的一些专门操作被大大优化了。比如我网页上有个根据订单号查找订单内容的页面,而整个网站的订单数量无法单机数据库存储,我就会考虑用KV
Store来存。KV Store的理念是,基本无法处理复杂的计算,大多没法JOIN,也许没法聚合,没有强一致性保证(不同数据分布在不同机器上,你每次读取也许会读到不同的结果,也无法处理类似银行转账那样的强一致性要求的操作)。但是丫就是快。极快。
每个不同的KV Store设计都有不同取舍,有些更快,有些容量更高,有些可以支持更复杂的操作。必有一款适合你。
除此之外,还有一些更特制的系统/组件,比如Mahout是分布式机器学习库,Protobuf是数据交换的编码和库,ZooKeeper是高一致性的分布存取协同系统,等等。
有了这么多乱七八糟的工具,都在同一个集群上运转,大家需要互相尊重有序工作。所以另外一个重要组件是,调度系统。现在最流行的是Yarn。你可以把他看作中央管理,好比你妈在厨房监工,哎,你妹妹切菜切完了,你可以把刀拿去杀鸡了。只要大家都服从你妈分配,那大家都能愉快滴烧菜。
你可以认为,大数据生态圈就是一个厨房工具生态圈。为了做不同的菜,中国菜,日本菜,法国菜,你需要各种不同的工具。而且客人的需求正在复杂化,你的厨具不断被发明,也没有一个万用的厨具可以处理所有情况,因此它会变的越来越复杂。
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:129585次
积分:1737
积分:1737
排名:千里之外
原创:10篇
转载:253篇
评论:13条
(5)(14)(8)(16)(29)(17)(12)(15)(3)(25)(23)(26)(3)(13)(30)(24)后使用快捷导航没有帐号?
随时随地,快速访问
只要手机在手,您都可以快速、方便地看贴发帖,与论坛好友收发短消息。
极致优化,畅快"悦"读
独有的论坛界面和触屏设计,手机论坛也变得赏心悦目,操作自如。
即拍即发,分享生活
不管是风景图画,还是新闻现场,拍照发帖一气呵成,让您在论坛出尽风头。
下载客户端后,拍摄二维码快速访问本站:
或者通过以下地址访问:

我要回帖

更多关于 刘邦和刘备是什么关系 的文章

 

随机推荐