AdamaxOptimizer

    Adamax优化器是参考 Adam论文 第7节Adamax优化相关内容所实现的。Adamax算法是基于无穷大范数的 算法的一个变种,使学习率更新的算法更加稳定和简单。

    其参数更新的计算公式如下:

    AdamaxOptimizer - 图2

    AdamaxOptimizer - 图4

    相关论文:Adam: A Method for Stochastic Optimization

    注解

    目前 AdamaxOptimizer 不支持 Sparse Parameter Optimization(稀疏参数优化)。

    为网络添加反向计算过程,并根据反向计算所得的梯度,更新parameter_list中的Parameters,最小化网络损失值loss。

    参数

    返回

    tuple(optimize_ops, params_grads),其中optimize_ops为参数优化OP列表;param_grads为由(param, param_grad)组成的列表,其中param和param_grad分别为参数和参数的梯度。该返回值可以加入到 接口的 fetch_list 参数中,若加入,则会重写 use_prune 参数为True,并根据 和 fetch_list 进行剪枝,详见 Executor 的文档。

    代码示例

    注意:

    清除需要优化的参数的梯度。

    代码示例

    注意:

    获取当前步骤的学习率。当不使用LearningRateDecay时,每次调用的返回值都相同,否则返回当前步骤的学习率。

    返回 当前步骤的学习率。

    返回类型 float

    代码示例