6.9. 深度循环神经网络
个隐藏层的深度循环神经网络,每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。
图 6.11 深度循环神经网络的架构
具体来说,在时间步
里,设小批量输入
(样本数为
,输入个数为
),第
隐藏层(
)的隐藏状态为
(隐藏单元个数为
),输出层变量为
(输出个数为
),且隐藏层的激活函数为
。第1隐藏层的隐藏状态和之前的计算一样:
、
和偏差
分别为第1隐藏层的模型参数。
当
时,第
隐藏层的隐藏状态的表达式为
其中权重
最终,输出层的输出只需基于第
隐藏层的隐藏状态:
其中权重
和偏差
为输出层的模型参数。
和隐藏单元个数
都是超参数。此外,如果将隐藏状态的计算换成门控循环单元或者长短期记忆的计算,我们可以得到深度门控循环神经网络。