http://www.dangdang.com/schema/ddframe/rdb

16、经验:不要随意格式化HDFS这会帶来数据版本不一致等诸多问题,格式化前要清空数据文件夹 

解决方法:清除ES中跟scala数据类型不兼容的脏数据 

134、改了linux定时脚本里边部分任务順序导致有些任务未执行,而有些重复执行 

解决方法:Linux脚本修改后实时生效务必在脚本全部执行完再修改,以免产生副作用 

135、经验:spark兩个分区方法coalesce和repartition前者窄依赖,分区后数据不均匀后者宽依赖,引发shuffle操作分区后数据均匀 

解决方法:去掉以hdfs开头的IP端口号前缀,直接寫HDFS中的绝对路径并用单引号括起来 

142、crontab中启动的shell脚本不能正常运行,但是使用手动执行没有问题 

解决方法:集群资源不够确保真实剩余內存大于spark job申请的内存 

145、启动presto服务器,部分节点启动不成功 

解决方法:JVM所分配的内存必须小于真实剩余内存 

149、大数据ETL可视化有哪些主流方案 

150、经验:presto集群没必要采用on yarn模式,因为hadoop依赖HDFS如果部分机器磁盘很小,HADOOP会很尴尬而presto是纯内存计算,不依赖磁盘独立安装可以跨越多个集群,可以说有内存的地方就可以有presto 

我要回帖

 

随机推荐