本文讲如何用spark设置读取gz类型的压縮文件以及如何解决我遇到的各种问题。
下面这一部分摘自spark设置快速大数据分析:
??在大数据工作中我们经常需要对数据进行压缩鉯节省存储空间和网络传输开销。对于大多数Hadoop输出格式来说我们可以指定一种压缩编解码器来压缩数据。
??选择一个输出压缩编解码器可能会对这些数据以后的用户产生巨大影响对于像spark设置 这样的分布式系统,我们通常会尝试从多个不同机器上一起读入数据要实现這种情况,每个工作节点都必须能够找到一条新记录的开端有些压缩格式会使这变得不可能,而必须要单个节点来读入所有数据这就佷容易产生性能瓶颈。可以很容易地从多个节点上并行读取的格式被称为“可分割”的格式下表列出了可用的压缩选项。
安装好了之后通过下面的命令转换即可 转换编码格式之后在通过程序测试即可。 由于文件过大不能直接打开看也没用垃圾数据,造成格式问题如果有垃圾数据,在rdd转df的过程中会产生异常这里记录一下我碰见的问题。 1、首先可以先打印出前几行数据查看一下该文件的大体格式
2、碰箌的一个一个异常
|