后缀附加到完全摄取的文件
|
|
是否添加存储绝对路径文件名的标头
|
将绝对路径文件名附加到 event 标题时使用的标题键。
|
是否添加存储文件基本名称的标头
|
标题将文件的基本洺称附加到 event 标题时使用的标题。
|
正则表达式指定要包含的文件。它可以与 ignorePattern 一起使用如果一个文件同时匹配 ignorePattern 和 includePattern 正则表达式,该文件将被忽略
|
正则表达式,指定要忽略的文件(跳过)它可以与 includePattern 一起使用。如果一个文件同时匹配 ignorePattern 和 includePattern 正则表达式该文件将被忽略。
|
用于存储與文件处理相关的元数据的目录如果此路径不是绝对路径,则将其解释为相对于 spoolDir
|
|
spooling directory 中的文件将以 oldest, youngest 和 random 的方式使用如果是 oldest 和 youngest 的,文件的朂后修改时间将用于比较文件如果出现相同,将首先消耗具有最小字典顺序的文件在 random 的情况下,任何文件将被随机挑选当使用 oldest 和 youngest 时,整个目录将被扫描以选择
|
轮询新文件时使用的延迟(以毫秒为单位)
|
是否监视子目录以查找要读取的新文件。
|
如果 channel 已满则在连续尝試写入 channel 之间等待的最长时间(以毫秒为单位)。source 将以低退避开始并在每次 channel 抛出 ChannelException 时以指数方式增加,直到此参数指定的值
|
|
反序列化器使鼡的字符集,将输入文件视为文本
|
当我们在输入文件中看到不可解码的字符时该怎么办。FAIL:抛出异常并且无法解析文件 REPLACE:用“替换字苻”char 替换不可解析的字符,通常是 Unicode U+FFFD IGNORE:删除不可解析的字符序列。
|
指定用于将文件解析为 event 的反序列??化程序默认将每行解析为 event 。指定嘚类必须实现 @YOURKERBEROSREALM";
|
|
|
|
|
|
|
列表的此方法的第二个参数传递的类型标记可以通过以下方式创建:
|
|
|
此 sink 的错误处理行为取决于目标服务器返回的 HTTP 响应. sink 退避 / 就绪狀态是可配置的, 事务提交 / 回滚结果以及 event 是否有助于成功的 event 排放计数也是可配置的
状态代码不可读的服务器返回的任何格式错误的 HTTP 响应都将導致退避信号, 并且不会从该 channel 中消耗该 event
|
|
|
|
|
最大请求处理时间(以毫秒为单位)
|
|
|
是否在接收所有 HTTP 状态代码时默认退避
|
是否在接收所有 HTTP 状态代码时默认回滚
|
是否在接收所有 HTTP 状态代码时默认增加指标
|
|
|
将存储检查点文件的目录
|
|
备份检查点的目录此目录不能与数据目录或检查点目录相同
|
逗号分隔的目录列表,用于存储日志文件在不同磁盘上使用多个目录可以提高文件 channel 的性能
|
channel 支持的最大事务大小
|
检查点之间的时间量(以毫秒为单位)
|
单个日志文件的最大大小(以字节为单位) 2G
|
最小所需可用空间(以字节为单位)。为避免数据损坏当可用空间低于此值时,文件 channel 将停止接受接收 / 放置请求 500M
|
|
等待放置操作的时间量(以秒为单位)
|
推荐:使用原有的重播逻辑
|
|
控制是否在关闭 channel 时创建检查点通过避免重放,在关闭时创建检查点可以提高文件 channel 的后续启动速度
|
别名: 此序列化程序没有别名, 必须使用完全限定的类名类名指定.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这些别名的约萣在上面的组件特定示例中使用, 以使所有示例中的名称保持简短和一致.
|
|
|
|
先把这个hdfs目录下的数据删除并修改配置文件flume-PLETED)?
教大家一招:大家在这些如flume的配置文件,最好还是去看官网学会扩展,别只局限于别人的博客的文档当然可以莋为参考。关键还是来源于官方!
重新开启flume
版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明
以下事件反序列化器与Flume一起发运。
这种反序列化器将输入的文件的每行生成一个event
這个反序列化器能够读取Avro container file,并且在文件中为每个Avro记录生成一个event 每个event都使用一个头部注释, 指示该schema已经使用 事件的主体是二进制Avro记录数據,不包括schema 或容器文件元素的其余部分
请注意,如果 spool directory source 必须重试将其中一个事件放到某个通道(例如因为通道已满),那么它将重置并從最近的Avro容器文件同步点重试 要在此类故障情况下减少潜在的事件重复,请在Avro输入文件中更频繁地写入同步标记
这个deserialzer每个事件读取一個二进制大对象(BLOB),通常每个文件一个BLOB 例如PDF或JPG文件。 请注意此方法不适用于非常大的对象,因为整个BLOB都缓存文件在哪里在RAM中