使用指导

    • 需要保证用户提供的历史日志及待预测负载的格式符合要求,可以使用数据库GUC参数开启收集,也可以通过监控工具采集。
    • 为保证预测准确率,用户提供的历史语句日志应尽可能全面并具有代表性。
    • 按照要求配置python环境。

    文件结构

    1. sklearn
    2. gensim

    SQL流水采集方法

    • log_statement = all
    • log_statement_stats=on

    参数开启后,可能占用一定的系统资源,但一般不大。持续的高并发场景可能产生5%以内的损耗,数据库并发较低的场景,性能损耗可忽略。开启参数后,会向数据库日志文件中记录具体的执行语句以及其开销。

    1. 提供历史日志以供模型训练:

      训练数据格式为:

      测试数据格式为:

      1. SQL语句文本
    2. 进行训练与预测操作:

      • train: 训练模式。

    使用方法示例

    使用提供的训练数据进行训练:

    使用提供的测试数据进行预测:

    1. status: 预测状态
    2. data:
    3. time: sql执行时间
    4. point: sql空间点坐标
    5. background: 模板化模型总结
    6. stmts: 对应类别的sql样例
    7. center: 对应类别的sql的中心点坐标
    8. points: 样例sql的空间点坐标