MultiHeadAttention

    多头注意力机制

    注意力机制可以将查询(Query)与一组键值对(Key-Value)映射到输出。而多头注意力机制是将注意力机制的计算过程计算多次,以便模型提取不同子空间的信息。

    细节可参考论文 。

    • embed_dim (int) - 输入输出的维度。

    • num_heads (int) - 多头注意力机制的Head数量。

    • vdim (int,可选) - 键值对中value的维度。如果为 Nonekdim = embed_dim。默认值:。

    • weight_attr (ParamAttr,可选) - 指定权重参数属性的对象。默认值:None,表示使用默认的权重参数属性。具体用法请参见 ParamAttr

    代码示例