使用 Pulsar 示例
部署Apache Pulsar 集群可以参考官方安装指引.
安装 Hive
Hive 是运行的必备组件。如果您的机器上没有 Hive,这里推荐使用 Docker 进行快速安装,详情可见 这里。
- 按照 ,使用 Docker 进行快速部署。(推荐)
- 按照 这里的说明,使用二进制包依次安装各组件。
创建数据接入
在创建数据接入时,数据流 Group 可选用的消息中间件选择 Pulsar,其它跟 Pulsar 相关的配置项还包括:
- Write quorum:消息写入的副本数
- Ack quorum:确认写入 Bookies 的数量
- retention time:已被 consumer 确认的消息被保存的时间
- ttl:未被确认的消息的过期时间
- retention size:已被 consumer 确认的消息被保存的大小
进入审批管理页面,点击我的审批,审批上面提交的接入申请,审批结束后会在 Pulsar 集群同步创建数据流需要的 Topic 和订阅。 我们可以在 Pulsar 集群使用命令行工具检查 Topic 是否创建成功。
配置 Agent 采集文件
接下来我们可以新建 /data/collect-data/test.log
,并往里面添加内容,来触发 agent 向 dataproxy 发送数据了。
可以观察审计数据页面,看到数据已经成功采集和发送。
最后,我们登入 Hive 集群,通过 Hive 的 SQL 命令查看 表中是否成功插入了数据。
问题排查
- 检查
InLong DataProxy
的 文件夹中是否正确写入该数据流对应的Topic 信息:
b_test_group/test_stream=persistent://public/b_test_group/test_stream