Adagrad

    Adaptive Gradient 优化器(自适应梯度优化器,简称Adagrad)可以针对不同参数样本数不平均的问题,自适应地为各个参数分配不同的学习率。

    其参数更新的计算过程如下:

    相关论文:。

    引入epsilon参数依据:Per-parameter adaptive learning rate methods

    参数:

    • learning_rate (float|Tensor) - 学习率,用于参数更新的计算。可以是一个浮点型值或者一个值为浮点型的Tensor.

    • grad_clip (GradientClipBase, 可选) – 梯度裁剪的策略,支持三种裁剪策略: cn_api_fluid_clip_GradientClipByGlobalNorm 、 cn_api_fluid_clip_GradientClipByNorm 、 cn_api_fluid_clip_GradientClipByValue 。 默认值为None,此时将不进行梯度裁剪。

    • initial_accumulator_value (float, 可选) - moment累加器的初始值,默认值为0.0