函数简介

    函数名: TIMESTAMPREPAIR

    输入序列: 仅支持单个输入序列,类型为 INT32 / INT64 / FLOAT / DOUBLE

    参数:

    • : 标准时间间隔(单位是毫秒),是一个正整数。在缺省情况下,将根据指定的方法推算。
    • method:推算标准时间间隔的方法,取值为 ‘median’, ‘mode’ 或 ‘cluster’,仅在interval缺省时有效。在缺省情况下,将使用中位数方法进行推算。

    输出序列: 输出单个序列,类型与输入序列相同。该序列是修复后的输入序列。

    使用示例

    指定标准时间间隔

    在给定interval参数的情况下,本函数将按照指定的标准时间间隔进行修复。

    输入序列:

    用于查询的SQL语句:

    1. select timestamprepair(s1,'interval'='10000') from root.test.d2

    输出序列:

    1. +-----------------------------+----------------------------------------------------+
    2. | Time|timestamprepair(root.test.d2.s1, "interval"="10000")|
    3. +-----------------------------+----------------------------------------------------+
    4. |2021-07-01T12:00:00.000+08:00| 1.0|
    5. |2021-07-01T12:00:10.000+08:00| 2.0|
    6. |2021-07-01T12:00:20.000+08:00| 3.0|
    7. |2021-07-01T12:00:30.000+08:00| 4.0|
    8. |2021-07-01T12:00:40.000+08:00| 5.0|
    9. |2021-07-01T12:00:50.000+08:00| 6.0|
    10. |2021-07-01T12:01:00.000+08:00| 7.0|
    11. |2021-07-01T12:01:10.000+08:00| 8.0|
    12. |2021-07-01T12:01:20.000+08:00| 9.0|
    13. |2021-07-01T12:01:30.000+08:00| 10.0|
    14. +-----------------------------+----------------------------------------------------+
    自动推算标准时间间隔

    如果interval参数没有给定,本函数将按照推算的标准时间间隔进行修复。

    输入序列同上,用于查询的 SQL 语句如下:

    1. select timestamprepair(s1) from root.test.d2

    输出序列:

    1. +-----------------------------+--------------------------------+
    2. | Time|timestamprepair(root.test.d2.s1)|
    3. +-----------------------------+--------------------------------+
    4. |2021-07-01T12:00:00.000+08:00| 1.0|
    5. |2021-07-01T12:00:10.000+08:00| 2.0|
    6. |2021-07-01T12:00:20.000+08:00| 3.0|
    7. |2021-07-01T12:00:30.000+08:00| 4.0|
    8. |2021-07-01T12:00:40.000+08:00| 5.0|
    9. |2021-07-01T12:00:50.000+08:00| 6.0|
    10. |2021-07-01T12:01:00.000+08:00| 7.0|
    11. |2021-07-01T12:01:10.000+08:00| 8.0|
    12. |2021-07-01T12:01:20.000+08:00| 9.0|
    13. |2021-07-01T12:01:30.000+08:00| 10.0|
    14. +-----------------------------+--------------------------------+

    函数简介

    函数名: ValueFill

    输入序列: 单列时序数据,类型为INT32 / INT64 / FLOAT / DOUBLE

    参数:

    • method: {“mean”, “previous”, “linear”, “likelihood”, “AR”, “MA”, “SCREEN”}, 默认为 “linear”。其中,“mean” 指使用均值填补的方法; “previous” 指使用前值填补方法;“linear” 指使用线性插值填补方法;“likelihood” 为基于速度的正态分布的极大似然估计方法;“AR” 指自回归的填补方法;“MA” 指滑动平均的填补方法;”SCREEN” 指约束填补方法;缺省情况下使用 “linear”。

    输出序列: 填补后的单维序列。

    备注: AR 模型采用 AR(1),时序列需满足自相关条件,否则将输出单个数据点 (0, 0.0).

    使用示例

    使用 linear 方法进行填补

    method缺省或取值为 ‘linear’ 时,本函数将使用线性插值方法进行填补。

    输入序列:

    1. +-----------------------------+---------------+
    2. | Time|root.test.d2.s1|
    3. +-----------------------------+---------------+
    4. |2020-01-01T00:00:02.000+08:00| NaN|
    5. |2020-01-01T00:00:03.000+08:00| 101.0|
    6. |2020-01-01T00:00:04.000+08:00| 102.0|
    7. |2020-01-01T00:00:06.000+08:00| 104.0|
    8. |2020-01-01T00:00:08.000+08:00| 126.0|
    9. |2020-01-01T00:00:10.000+08:00| 108.0|
    10. |2020-01-01T00:00:14.000+08:00| NaN|
    11. |2020-01-01T00:00:15.000+08:00| 113.0|
    12. |2020-01-01T00:00:16.000+08:00| 114.0|
    13. |2020-01-01T00:00:18.000+08:00| 116.0|
    14. |2020-01-01T00:00:20.000+08:00| NaN|
    15. |2020-01-01T00:00:22.000+08:00| NaN|
    16. |2020-01-01T00:00:26.000+08:00| 124.0|
    17. |2020-01-01T00:00:28.000+08:00| 126.0|
    18. +-----------------------------+---------------+
    1. select valuefill(s1) from root.test.d2

    输出序列:

    使用 previous 方法进行填补

    method取值为 ‘previous’ 时,本函数将使前值填补方法进行数值填补。

    输入序列同上,用于查询的 SQL 语句如下:

    1. select valuefill(s1,"method"="previous") from root.test.d2

    输出序列:

    1. +-----------------------------+-------------------------------------------+
    2. | Time|valuefill(root.test.d2,"method"="previous")|
    3. +-----------------------------+-------------------------------------------+
    4. |2020-01-01T00:00:02.000+08:00| NaN|
    5. |2020-01-01T00:00:03.000+08:00| 101.0|
    6. |2020-01-01T00:00:04.000+08:00| 102.0|
    7. |2020-01-01T00:00:06.000+08:00| 104.0|
    8. |2020-01-01T00:00:08.000+08:00| 126.0|
    9. |2020-01-01T00:00:10.000+08:00| 108.0|
    10. |2020-01-01T00:00:14.000+08:00| 110.5|
    11. |2020-01-01T00:00:15.000+08:00| 113.0|
    12. |2020-01-01T00:00:18.000+08:00| 116.0|
    13. |2020-01-01T00:00:20.000+08:00| 116.0|
    14. |2020-01-01T00:00:22.000+08:00| 116.0|
    15. |2020-01-01T00:00:26.000+08:00| 124.0|
    16. |2020-01-01T00:00:28.000+08:00| 126.0|
    17. |2020-01-01T00:00:30.000+08:00| 128.0|
    18. +-----------------------------+-------------------------------------------+

    函数简介

    本函数用于对时间序列的数值进行修复。目前,本函数支持两种修复方法:Screen 是一种基于速度阈值的方法,在最小改动的前提下使得所有的速度符合阈值要求;LsGreedy 是一种基于速度变化似然的方法,将速度变化建模为高斯分布,并采用贪心算法极大化似然函数。

    函数名: VALUEREPAIR

    输入序列: 仅支持单个输入序列,类型为 INT32 / INT64 / FLOAT / DOUBLE。

    参数:

    • method:修复时采用的方法,取值为 ‘Screen’ 或 ‘LsGreedy’. 在缺省情况下,使用 Screen 方法进行修复。
    • minSpeed:该参数仅在使用 Screen 方法时有效。当速度小于该值时会被视作数值异常点加以修复。在缺省情况下为中位数减去三倍绝对中位差。
    • maxSpeed:该参数仅在使用 Screen 方法时有效。当速度大于该值时会被视作数值异常点加以修复。在缺省情况下为中位数加上三倍绝对中位差。
    • center:该参数仅在使用 LsGreedy 方法时有效。对速度变化分布建立的高斯模型的中心。在缺省情况下为 0。
    • sigma :该参数仅在使用 LsGreedy 方法时有效。对速度变化分布建立的高斯模型的标准差。在缺省情况下为绝对中位差。

    输出序列: 输出单个序列,类型与输入序列相同。该序列是修复后的输入序列。

    提示: 输入序列中的NaN在修复之前会先进行线性插值填补。

    使用示例

    使用 Screen 方法进行修复

    method缺省或取值为 ‘Screen’ 时,本函数将使用 Screen 方法进行数值修复。

    输入序列:

    1. +-----------------------------+---------------+
    2. | Time|root.test.d2.s1|
    3. +-----------------------------+---------------+
    4. |2020-01-01T00:00:02.000+08:00| 100.0|
    5. |2020-01-01T00:00:03.000+08:00| 101.0|
    6. |2020-01-01T00:00:04.000+08:00| 102.0|
    7. |2020-01-01T00:00:06.000+08:00| 104.0|
    8. |2020-01-01T00:00:08.000+08:00| 126.0|
    9. |2020-01-01T00:00:10.000+08:00| 108.0|
    10. |2020-01-01T00:00:14.000+08:00| 112.0|
    11. |2020-01-01T00:00:15.000+08:00| 113.0|
    12. |2020-01-01T00:00:16.000+08:00| 114.0|
    13. |2020-01-01T00:00:18.000+08:00| 116.0|
    14. |2020-01-01T00:00:20.000+08:00| 118.0|
    15. |2020-01-01T00:00:22.000+08:00| 100.0|
    16. |2020-01-01T00:00:26.000+08:00| 124.0|
    17. |2020-01-01T00:00:28.000+08:00| 126.0|
    18. |2020-01-01T00:00:30.000+08:00| NaN|
    19. +-----------------------------+---------------+

    用于查询的 SQL 语句:

    1. select valuerepair(s1) from root.test.d2

    输出序列:

    1. +-----------------------------+----------------------------+
    2. | Time|valuerepair(root.test.d2.s1)|
    3. +-----------------------------+----------------------------+
    4. |2020-01-01T00:00:02.000+08:00| 100.0|
    5. |2020-01-01T00:00:03.000+08:00| 101.0|
    6. |2020-01-01T00:00:04.000+08:00| 102.0|
    7. |2020-01-01T00:00:06.000+08:00| 104.0|
    8. |2020-01-01T00:00:08.000+08:00| 106.0|
    9. |2020-01-01T00:00:10.000+08:00| 108.0|
    10. |2020-01-01T00:00:14.000+08:00| 112.0|
    11. |2020-01-01T00:00:15.000+08:00| 113.0|
    12. |2020-01-01T00:00:16.000+08:00| 114.0|
    13. |2020-01-01T00:00:18.000+08:00| 116.0|
    14. |2020-01-01T00:00:20.000+08:00| 118.0|
    15. |2020-01-01T00:00:22.000+08:00| 120.0|
    16. |2020-01-01T00:00:26.000+08:00| 124.0|
    17. |2020-01-01T00:00:28.000+08:00| 126.0|
    18. |2020-01-01T00:00:30.000+08:00| 128.0|
    19. +-----------------------------+----------------------------+
    使用 LsGreedy 方法进行修复

    method取值为 ‘LsGreedy’ 时,本函数将使用 LsGreedy 方法进行数值修复。

    输入序列同上,用于查询的 SQL 语句如下:

    1. select valuerepair(s1,'method'='LsGreedy') from root.test.d2

    输出序列:

    函数简介

    本函数实现基于主数据的时间序列数据修复。

    输入序列: 支持多个输入序列,类型为 INT32 / INT64 / FLOAT / DOUBLE。

    参数:

    • omega:算法窗口大小,非负整数(单位为毫秒), 在缺省情况下,算法根据不同时间差下的两个元组距离自动估计该参数。
    • eta:算法距离阈值,正数, 在缺省情况下,算法根据窗口中元组的距离分布自动估计该参数。
    • k:主数据中的近邻数量,正整数, 在缺省情况下,算法根据主数据中的k个近邻的元组距离自动估计该参数。
    • output_column:输出列的序号,默认输出第一列的修复结果。

    **输出序列:**输出单个序列,类型与输入数据中对应列的类型相同,序列为输入列修复后的结果。

    使用示例

    输入序列:

    1. +-----------------------------+------------+------------+------------+------------+------------+------------+
    2. | Time|root.test.t1|root.test.t2|root.test.t3|root.test.m1|root.test.m2|root.test.m3|
    3. |2021-07-01T12:00:01.000+08:00| 1704| 1154.55| 0.195| 1704| 1154.55| 0.195|
    4. |2021-07-01T12:00:02.000+08:00| 1702| 1152.30| 0.193| 1702| 1152.30| 0.193|
    5. |2021-07-01T12:00:03.000+08:00| 1702| 1148.65| 0.192| 1702| 1148.65| 0.192|
    6. |2021-07-01T12:00:04.000+08:00| 1701| 1145.20| 0.194| 1701| 1145.20| 0.194|
    7. |2021-07-01T12:00:07.000+08:00| 1703| 1150.55| 0.195| 1703| 1150.55| 0.195|
    8. |2021-07-01T12:00:08.000+08:00| 1694| 1151.55| 0.193| 1704| 1151.55| 0.193|
    9. |2021-07-01T12:01:09.000+08:00| 1705| 1153.55| 0.194| 1705| 1153.55| 0.194|
    10. +-----------------------------+------------+------------+------------+------------+------------+------------+

    用于查询的 SQL 语句:

    1. select MasterRepair(t1,t2,t3,m1,m2,m3) from root.test

    输出序列:

    1. +-----------------------------+-------------------------------------------------------------------------------------------+
    2. | Time|MasterRepair(root.test.t1,root.test.t2,root.test.t3,root.test.m1,root.test.m2,root.test.m3)|
    3. +-----------------------------+-------------------------------------------------------------------------------------------+
    4. |2021-07-01T12:00:01.000+08:00| 1704|
    5. |2021-07-01T12:00:02.000+08:00| 1702|
    6. |2021-07-01T12:00:03.000+08:00| 1702|
    7. |2021-07-01T12:00:04.000+08:00| 1701|
    8. |2021-07-01T12:00:07.000+08:00| 1703|
    9. |2021-07-01T12:00:08.000+08:00| 1704|
    10. |2021-07-01T12:01:09.000+08:00| 1705|
    11. |2021-07-01T12:01:10.000+08:00| 1706|
    12. +-----------------------------+-------------------------------------------------------------------------------------------+

    函数简介

    本函数用于对周期性时间序列的数值进行基于分解的修复。目前,本函数支持两种方法:Classical使用经典分解方法得到的残差项检测数值的异常波动,并使用滑动平均修复序列;Improved使用改进的分解方法得到的残差项检测数值的异常波动,并使用滑动中值修复序列。

    函数名: SEASONALREPAIR

    输入序列: 仅支持单个输入序列,类型为 INT32 / INT64 / FLOAT / DOUBLE。

    参数:

    • method:修复时采用的分解方法,取值为’Classical’或’Improved’。在缺省情况下,使用经典分解方法进行修复。
    • period:序列的周期。
    • k:残差项的范围阈值,用来限制残差项偏离中心的程度。在缺省情况下为9。
    • max_iter:算法的最大迭代次数。在缺省情况下为10。

    输出序列: 输出单个序列,类型与输入序列相同。该序列是修复后的输入序列。

    提示: 输入序列中的NaN在修复之前会先进行线性插值填补。

    使用示例

    使用经典分解方法进行修复

    method缺省或取值为’Classical’时,本函数将使用经典分解方法进行数值修复。

    输入序列:

    1. +-----------------------------+---------------+
    2. | Time|root.test.d2.s1|
    3. +-----------------------------+---------------+
    4. |2020-01-01T00:00:02.000+08:00| 100.0|
    5. |2020-01-01T00:00:04.000+08:00| 120.0|
    6. |2020-01-01T00:00:06.000+08:00| 80.0|
    7. |2020-01-01T00:00:08.000+08:00| 100.5|
    8. |2020-01-01T00:00:10.000+08:00| 119.5|
    9. |2020-01-01T00:00:12.000+08:00| 101.0|
    10. |2020-01-01T00:00:14.000+08:00| 99.5|
    11. |2020-01-01T00:00:16.000+08:00| 119.0|
    12. |2020-01-01T00:00:18.000+08:00| 80.5|
    13. |2020-01-01T00:00:20.000+08:00| 99.0|
    14. |2020-01-01T00:00:22.000+08:00| 121.0|
    15. |2020-01-01T00:00:24.000+08:00| 79.5|
    16. +-----------------------------+---------------+

    用于查询的SQL语句:

    1. select seasonalrepair(s1,'period'=3,'k'=2) from root.test.d2

    输出序列:

    1. +-----------------------------+--------------------------------------------------+
    2. | Time|seasonalrepair(root.test.d2.s1, 'period'=4, 'k'=2)|
    3. +-----------------------------+--------------------------------------------------+
    4. |2020-01-01T00:00:02.000+08:00| 100.0|
    5. |2020-01-01T00:00:04.000+08:00| 120.0|
    6. |2020-01-01T00:00:06.000+08:00| 80.0|
    7. |2020-01-01T00:00:08.000+08:00| 100.5|
    8. |2020-01-01T00:00:10.000+08:00| 119.5|
    9. |2020-01-01T00:00:12.000+08:00| 87.0|
    10. |2020-01-01T00:00:14.000+08:00| 99.5|
    11. |2020-01-01T00:00:16.000+08:00| 119.0|
    12. |2020-01-01T00:00:18.000+08:00| 80.5|
    13. |2020-01-01T00:00:20.000+08:00| 99.0|
    14. |2020-01-01T00:00:22.000+08:00| 121.0|
    15. |2020-01-01T00:00:24.000+08:00| 79.5|
    16. +-----------------------------+--------------------------------------------------+
    使用改进的分解方法进行修复

    method取值为’Improved’时,本函数将使用改进的分解方法进行数值修复。

    输入序列同上,用于查询的SQL语句如下:

    1. +-----------------------------+-------------------------------------------------------------+
    2. | Time|valuerepair(root.test.d2.s1, 'method'='improved', 'period'=3)|
    3. +-----------------------------+-------------------------------------------------------------+
    4. |2020-01-01T00:00:02.000+08:00| 100.0|
    5. |2020-01-01T00:00:04.000+08:00| 120.0|
    6. |2020-01-01T00:00:06.000+08:00| 80.0|
    7. |2020-01-01T00:00:08.000+08:00| 100.5|
    8. |2020-01-01T00:00:10.000+08:00| 119.5|
    9. |2020-01-01T00:00:12.000+08:00| 81.5|
    10. |2020-01-01T00:00:14.000+08:00| 99.5|
    11. |2020-01-01T00:00:16.000+08:00| 119.0|
    12. |2020-01-01T00:00:18.000+08:00| 80.5|
    13. |2020-01-01T00:00:20.000+08:00| 99.0|
    14. |2020-01-01T00:00:22.000+08:00| 121.0|