AdamaxOptimizer

Adamax优化器是参考 Adam论文第7节Adamax优化相关内容所实现的。Adamax算法是基于无穷大范数的算法的一个变种，使学习率更新的算法更加稳定和简单。

其参数更新的计算公式如下:

注解

目前 AdamaxOptimizer 不支持 Sparse Parameter Optimization（稀疏参数优化）。

为网络添加反向计算过程，并根据反向计算所得的梯度，更新parameter_list中的Parameters，最小化网络损失值loss。

参数

tuple(optimize_ops, params_grads)，其中optimize_ops为参数优化OP列表；param_grads为由(param, param_grad)组成的列表，其中param和param_grad分别为参数和参数的梯度。该返回值可以加入到接口的 fetch_list 参数中，若加入，则会重写 use_prune 参数为True，并根据和 fetch_list 进行剪枝，详见 Executor 的文档。

代码示例

注意：

清除需要优化的参数的梯度。

代码示例

注意：

获取当前步骤的学习率。当不使用LearningRateDecay时，每次调用的返回值都相同，否则返回当前步骤的学习率。

返回当前步骤的学习率。

返回类型 float

代码示例