157种语言的词向量

    这些词向量是由 CBOW 训练而成,而且所使用的 CBOW 模型考虑了位置权重,包含了 300个 维度,并且也考虑了长度为 5,包含十个负样本的大小为 5 的窗体的字符 N 元模型。

    并且我们也发布了三种新的可供分析的数据集,分别是法语,印地语和波兰语。

    我们可以按照二进制和文本格式查看这些词向量

    当使用二进制时,可以用如下命令查看在词汇表以外的单词向量

    其中 oov_words.txt 文件包含了词汇表之外的单词

    每个值都被空格分开,并且单词按照出现次数降序排列

    只需要使用如下的代码,这些文本模型能在Python中轻松的下载:

    分词

    我们使用 对汉语分词,使用 Mecab 对日语分词,使用 对越南语分词

    对于使用拉丁文,西里尔文,希伯来文或希腊文的语言,我们用来自于 Europarl 的预处理工具进行分词

    剩下的语言,我们用 ICU 进行分词

    这些词向量发布在 上面

    参考资料

    如果你使用这些词向量,请引用下面这些文章:

    E. Grave*, P. Bojanowski*, P. Gupta, A. Joulin, T. Mikolov,

    在上面所描述的可供分析的评估数据集可以在下面的地址中得到:
    法语, , 波兰语.

    模型

    这些词向量可以从如下地址下载