自然语言处理介绍

    • 语言是知识和思维的载体
    • 自然语言处理 (Natural Language Processing, NLP) 是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

    场景案例

    例句:致毕业和尚未毕业的同学。

    分词:

    1. 毕业 尚未 毕业
    2. 毕业 和尚 毕业 同学

    推荐:

    1. 本科 未 毕业 可以 当 和尚 吗

    命名实体识别(Named Entity Recognition):识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等)

    例句:天使爱美丽在线观看

    实体: 天使爱美丽 -> 电影

    推荐:

    1. 网页:天使爱美丽 土豆 高清视频
    2. 网页:在线直播爱美丽的天使

    词性标注(Part-Speech Tagging): 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等)
    依存句法分析(Dependency Parsing):自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分)

    评论:房间里还可以欣赏日出

    歧义:

    1. 房间还可以
    2. 可以欣赏日出

    词向量与语义相似度(Word Embedding & Semantic Similarity):对词汇进行向量化表示,并据此实现词汇的语义相似度计算。

    例如:西瓜 与 (呆瓜/草莓),哪个更接近?

    向量化表示: 西瓜(0.1222, 0.22333, .. )
    相似度计算: 呆瓜(0.115) 草莓(0.325)
    向量化表示:(-0.333, 0.1223 .. ) (0.333, 0.3333, .. )

    文本语义相似度(Text Semantic Similarity):依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力

    例如:车头如何防止车牌 与 (前牌照怎么装/如何办理北京牌照),哪个更接近?