使用 Pulsar 示例

    部署Apache Pulsar 集群可以参考官方安装指引.

    安装 Hive

    Hive 是运行的必备组件。如果您的机器上没有 Hive,这里推荐使用 Docker 进行快速安装,详情可见 这里

    1. 按照 ,使用 Docker 进行快速部署。(推荐)
    2. 按照 这里的说明,使用二进制包依次安装各组件。

    创建数据接入

    使用 Pulsar 示例 - 图2 在创建数据接入时,数据流 Group 可选用的消息中间件选择 Pulsar,其它跟 Pulsar 相关的配置项还包括:

    • Write quorum:消息写入的副本数
    • Ack quorum:确认写入 Bookies 的数量
    • retention time:已被 consumer 确认的消息被保存的时间
    • ttl:未被确认的消息的过期时间
    • retention size:已被 consumer 确认的消息被保存的大小

    使用 Pulsar 示例 - 图4

    进入审批管理页面,点击我的审批,审批上面提交的接入申请,审批结束后会在 Pulsar 集群同步创建数据流需要的 Topic 和订阅。 我们可以在 Pulsar 集群使用命令行工具检查 Topic 是否创建成功。

    配置 Agent 采集文件

    接下来我们可以新建 /data/collect-data/test.log ,并往里面添加内容,来触发 agent 向 dataproxy 发送数据了。

    可以观察审计数据页面,看到数据已经成功采集和发送。

    最后,我们登入 Hive 集群,通过 Hive 的 SQL 命令查看 表中是否成功插入了数据。

    问题排查

    • 检查 InLong DataProxy 的 文件夹中是否正确写入该数据流对应的Topic 信息:
    1. b_test_group/test_stream=persistent://public/b_test_group/test_stream