6.9. 深度循环神经网络

    个隐藏层的深度循环神经网络,每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。

    深度循环神经网络的架构 图 6.11 深度循环神经网络的架构

    具体来说,在时间步

    里,设小批量输入 6.9. 深度循环神经网络 - 图4 (样本数为 ,输入个数为 6.9. 深度循环神经网络 - 图6 ),第 隐藏层( 6.9. 深度循环神经网络 - 图8 )的隐藏状态为 (隐藏单元个数为 6.9. 深度循环神经网络 - 图10 ),输出层变量为 (输出个数为 6.9. 深度循环神经网络 - 图12 ),且隐藏层的激活函数为 。第1隐藏层的隐藏状态和之前的计算一样:

    6.9. 深度循环神经网络 - 图14

    6.9. 深度循环神经网络 - 图16 和偏差 分别为第1隐藏层的模型参数。

    6.9. 深度循环神经网络 - 图18 时,第 隐藏层的隐藏状态的表达式为

    6.9. 深度循环神经网络 - 图20

    其中权重

    最终,输出层的输出只需基于第

    隐藏层的隐藏状态:

    6.9. 深度循环神经网络 - 图26

    其中权重

    和偏差 6.9. 深度循环神经网络 - 图28 为输出层的模型参数。

    和隐藏单元个数 6.9. 深度循环神经网络 - 图30 都是超参数。此外,如果将隐藏状态的计算换成门控循环单元或者长短期记忆的计算,我们可以得到深度门控循环神经网络。

    6.9.2. 练习