AdamaxOptimizer
Adamax优化器是参考 Adam论文 第7节Adamax优化相关内容所实现的。Adamax算法是基于无穷大范数的 算法的一个变种,使学习率更新的算法更加稳定和简单。
其参数更新的计算公式如下:
相关论文:Adam: A Method for Stochastic Optimization
注解
目前 AdamaxOptimizer
不支持 Sparse Parameter Optimization(稀疏参数优化)。
为网络添加反向计算过程,并根据反向计算所得的梯度,更新parameter_list中的Parameters,最小化网络损失值loss。
参数
返回
tuple(optimize_ops, params_grads),其中optimize_ops为参数优化OP列表;param_grads为由(param, param_grad)组成的列表,其中param和param_grad分别为参数和参数的梯度。该返回值可以加入到 接口的 fetch_list
参数中,若加入,则会重写 use_prune
参数为True,并根据 和 fetch_list
进行剪枝,详见 Executor
的文档。
代码示例
注意:
清除需要优化的参数的梯度。
代码示例
注意:
获取当前步骤的学习率。当不使用LearningRateDecay时,每次调用的返回值都相同,否则返回当前步骤的学习率。
返回 当前步骤的学习率。
返回类型 float
代码示例