Adagrad

Adaptive Gradient 优化器(自适应梯度优化器，简称Adagrad)可以针对不同参数样本数不平均的问题，自适应地为各个参数分配不同的学习率。

其参数更新的计算过程如下：

相关论文：。

参数：

learning_rate (float|Tensor) - 学习率，用于参数更新的计算。可以是一个浮点型值或者一个值为浮点型的Tensor.
grad_clip (GradientClipBase, 可选) – 梯度裁剪的策略，支持三种裁剪策略： cn_api_fluid_clip_GradientClipByGlobalNorm 、 cn_api_fluid_clip_GradientClipByNorm 、 cn_api_fluid_clip_GradientClipByValue 。默认值为None，此时将不进行梯度裁剪。
initial_accumulator_value (float, 可选) - moment累加器的初始值，默认值为0.0