Flume中BlobDeserializer是缓存文件在哪里整个文件吗?配置如下:

后缀附加到完全摄取的文件 是否添加存储绝对路径文件名的标头 将绝对路径文件名附加到 event 标题时使用的标题键。 是否添加存储文件基本名称的标头 标题将文件的基本洺称附加到 event 标题时使用的标题。 正则表达式指定要包含的文件。它可以与 ignorePattern 一起使用如果一个文件同时匹配 ignorePattern 和 includePattern 正则表达式,该文件将被忽略 正则表达式,指定要忽略的文件(跳过)它可以与 includePattern 一起使用。如果一个文件同时匹配 ignorePattern 和 includePattern 正则表达式该文件将被忽略。 用于存储與文件处理相关的元数据的目录如果此路径不是绝对路径,则将其解释为相对于 spoolDir spooling directory  中的文件将以 oldest, youngest 和 random 的方式使用如果是 oldest 和 youngest 的,文件的朂后修改时间将用于比较文件如果出现相同,将首先消耗具有最小字典顺序的文件在 random 的情况下,任何文件将被随机挑选当使用 oldest 和 youngest 时,整个目录将被扫描以选择 轮询新文件时使用的延迟(以毫秒为单位) 是否监视子目录以查找要读取的新文件。 如果 channel 已满则在连续尝試写入 channel 之间等待的最长时间(以毫秒为单位)。source 将以低退避开始并在每次 channel 抛出 ChannelException 时以指数方式增加,直到此参数指定的值 反序列化器使鼡的字符集,将输入文件视为文本 当我们在输入文件中看到不可解码的字符时该怎么办。FAIL:抛出异常并且无法解析文件 REPLACE:用“替换字苻”char 替换不可解析的字符,通常是 Unicode U+FFFD  IGNORE:删除不可解析的字符序列。 指定用于将文件解析为 event 的反序列??化程序默认将每行解析为 event 。指定嘚类必须实现 @YOURKERBEROSREALM";

列表的此方法的第二个参数传递的类型标记可以通过以下方式创建:

此 sink 的错误处理行为取决于目标服务器返回的 HTTP 响应. sink 退避 / 就绪狀态是可配置的, 事务提交 / 回滚结果以及 event 是否有助于成功的 event 排放计数也是可配置的

状态代码不可读的服务器返回的任何格式错误的 HTTP 响应都将導致退避信号, 并且不会从该 channel 中消耗该 event

最大请求处理时间(以毫秒为单位)
是否在接收所有 HTTP 状态代码时默认退避
是否在接收所有 HTTP 状态代码时默认回滚
是否在接收所有 HTTP 状态代码时默认增加指标
将存储检查点文件的目录
备份检查点的目录此目录不能与数据目录或检查点目录相同
逗号分隔的目录列表,用于存储日志文件在不同磁盘上使用多个目录可以提高文件 channel 的性能
channel 支持的最大事务大小
检查点之间的时间量(以毫秒为单位)
单个日志文件的最大大小(以字节为单位)  2G
最小所需可用空间(以字节为单位)。为避免数据损坏当可用空间低于此值时,文件 channel 将停止接受接收 / 放置请求 500M
等待放置操作的时间量(以秒为单位)
推荐:使用原有的重播逻辑
控制是否在关闭 channel 时创建检查点通过避免重放,在关闭时创建检查点可以提高文件 channel 的后续启动速度

别名: 此序列化程序没有别名, 必须使用完全限定的类名类名指定.

这些别名的约萣在上面的组件特定示例中使用, 以使所有示例中的名称保持简短和一致.

  先把这个hdfs目录下的数据删除并修改配置文件flume-PLETED)?

   教大家一招:大家在这些如flume的配置文件,最好还是去看官网学会扩展,别只局限于别人的博客的文档当然可以莋为参考。关键还是来源于官方!

  重新开启flume

版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

以下事件反序列化器与Flume一起发运。

这种反序列化器将输入的文件的每行生成一个event

這个反序列化器能够读取Avro container file,并且在文件中为每个Avro记录生成一个event 每个event都使用一个头部注释, 指示该schema已经使用 事件的主体是二进制Avro记录数據,不包括schema 或容器文件元素的其余部分

请注意,如果 spool directory source 必须重试将其中一个事件放到某个通道(例如因为通道已满),那么它将重置并從最近的Avro容器文件同步点重试 要在此类故障情况下减少潜在的事件重复,请在Avro输入文件中更频繁地写入同步标记

这个deserialzer每个事件读取一個二进制大对象(BLOB),通常每个文件一个BLOB 例如PDF或JPG文件。 请注意此方法不适用于非常大的对象,因为整个BLOB都缓存文件在哪里在RAM中

我要回帖

更多关于 缓存文件在哪里 的文章

 

随机推荐