5-7,优化器optimizers

    拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。

    不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。

    机器学习也是一样,模型优化算法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或者模型设计的问题,很可能就是优化算法的问题。

    深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。

    详见《一个框架看懂优化算法之异同 SGD/AdaGrad/Adam》

    https://zhuanlan.zhihu.com/p/32230623

    对于一般新手炼丹师,优化器直接使用Adam,并使用其默认参数就OK了。

    此外目前也有一些前沿的优化算法,据称效果比Adam更好,例如LazyAdam, Look-ahead, RAdam, Ranger等.

    优化器主要使用apply_gradients方法传入变量和对应梯度从而来对给定变量进行迭代,或者直接使用minimize方法对目标函数进行迭代优化。

    当然,更常见的使用是在编译时将优化器传入keras的Model,通过调用model.fit实现对Loss的的迭代优化。

    初始化优化器时会创建一个变量optimier.iterations用于记录迭代的次数。因此优化器和tf.Variable一样,一般需要在@tf.function外创建。

    1. import numpy as np
    2. #打印时间分割线
    3. @tf.function
    4. def printbar():
    5. ts = tf.timestamp()
    6. today_ts = ts%(24*60*60)
    7. hour = tf.cast(today_ts//3600+8,tf.int32)%tf.constant(24)
    8. minite = tf.cast((today_ts%3600)//60,tf.int32)
    9. second = tf.cast(tf.floor(today_ts%60),tf.int32)
    10. def timeformat(m):
    11. if tf.strings.length(tf.strings.format("{}",m))==1:
    12. return(tf.strings.format("0{}",m))
    13. else:
    14. return(tf.strings.format("{}",m))
    15. timestring = tf.strings.join([timeformat(hour),timeformat(minite),
    16. timeformat(second)],separator = ":")
    17. tf.print("=========="*8,end = "")
    18. tf.print(timestring)
    1. # 求f(x) = a*x**2 + b*x + c的最小值
    2. # 使用optimizer.apply_gradients
    3. x = tf.Variable(0.0,name = "x",dtype = tf.float32)
    4. optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)
    5. @tf.function
    6. def minimizef():
    7. a = tf.constant(1.0)
    8. c = tf.constant(1.0)
    9. while tf.constant(True):
    10. with tf.GradientTape() as tape:
    11. y = a*tf.pow(x,2) + b*x + c
    12. dy_dx = tape.gradient(y,x)
    13. optimizer.apply_gradients(grads_and_vars=[(dy_dx,x)])
    14. #迭代终止条件
    15. if tf.abs(dy_dx)<tf.constant(0.00001):
    16. break
    17. if tf.math.mod(optimizer.iterations,100)==0:
    18. printbar()
    19. tf.print("step = ",optimizer.iterations)
    20. tf.print("x = ", x)
    21. tf.print("")
    22. y = a*tf.pow(x,2) + b*x + c
    23. return y
    24. tf.print("y =",minimizef())
    25. tf.print("x =",x)
    1. # 求f(x) = a*x**2 + b*x + c的最小值
    2. # 使用model.fit
    3. tf.keras.backend.clear_session()
    4. def __init__(self,a,b,c):
    5. super(FakeModel,self).__init__()
    6. self.b = b
    7. self.c = c
    8. def build(self):
    9. self.x = tf.Variable(0.0,name = "x")
    10. self.built = True
    11. def call(self,features):
    12. loss = self.a*(self.x)**2+self.b*(self.x)+self.c
    13. return(tf.ones_like(features)*loss)
    14. def myloss(y_true,y_pred):
    15. return tf.reduce_mean(y_pred)
    16. model = FakeModel(tf.constant(1.0),tf.constant(-2.0),tf.constant(1.0))
    17. model.build()
    18. model.summary()
    19. model.compile(optimizer =
    20. tf.keras.optimizers.SGD(learning_rate=0.01),loss = myloss)
    21. history = model.fit(tf.zeros((100,2)),
    22. tf.ones(100),batch_size = 1,epochs = 10) #迭代1000次
    1. tf.print("x=",model.x)
    2. tf.print("loss=",model(tf.constant(0.0)))

    二,内置优化器

    深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。

    在keras.optimizers子模块中,它们基本上都有对应的类的实现。

    • SGD, 默认参数为纯SGD, 设置momentum参数不为0实际上变成SGDM, 考虑了一阶动量, 设置 nesterov为True后变成NAG,即 Nesterov Accelerated Gradient,在计算梯度时计算的是向前走一步所在位置的梯度。

    • RMSprop, 考虑了二阶动量,对于不同的参数有不同的学习率,即自适应学习率,对Adagrad进行了优化,通过指数平滑只考虑一定窗口内的二阶动量。

    • Adadelta, 考虑了二阶动量,与RMSprop类似,但是更加复杂一些,自适应性更强。

    • Adam, 同时考虑了一阶动量和二阶动量,可以看成RMSprop上进一步考虑了一阶动量。

    • Nadam, 在Adam基础上进一步考虑了 Nesterov Acceleration。

    如果对本书内容理解上有需要进一步和作者交流的地方,欢迎在公众号”Python与算法之美”下留言。作者时间和精力有限,会酌情予以回复。

    也可以在公众号后台回复关键字:加群,加入读者交流群和大家讨论。