edit_distance
该OP计算一批给定字符串及其参照字符串间的编辑距离。编辑距离也称Levenshtein距离,通过计算从一个字符串变成另一个字符串所需的最少操作步骤来衡量两个字符串的相异度。这里的操作包括插入、删除和替换。
比如给定假设字符串A=“kitten”和参照字符串B=“sitting”,从A变换成B编辑距离为3,至少需要两次替换和一次插入:
“kitten”->“sitten”->“sittn”->“sitting”
输入为LoDTensor/Tensor,包含假设字符串(带有表示批尺寸的总数)和分离信息(具体为LoD信息或者 input_length
)。并且批尺寸大小的参照字符串和输入LoDTensor的顺序保持一致。
参数:
input (Variable) - 假设字符串的索引,rank为2的Tensor或LoDTensor,数据类型为int64。
normalized (bool)-表示是否用参照字符串的长度进行归一化,默认值为True。
name (None|str) - 该参数供开发人员打印调试信息时使用,具体用法请参见 ,默认值为None。
返回:包含有形为[batch_size,1]的编辑距离和形为[ ]的序列数元组。
返回类型:元组
代码示例