篇章分析-内容标签

    1. 新闻稿,打出关于该报道的各种各样的标签,来表示其关键信息
    2. 论文中,我们也会表明一些文章的以及关键词等标签
    3. 微博用#代表一个话题,这是典型的社会化标签
    1. 关键信息展示

      • 用户可以大致了解文章的主要信息,从而决定要不要对信息进行进一步深入地浏览
    2. 频道划分

    3. 话题聚合

      • 标签也可以用来做话题聚合(例如:#人民的名义# 集合所有关于这个话题的信息,让用户更深入的了解信息)

    应用:个性化推荐

    • 标签可以用来建立用户的画像
    • 标签可以对内容进行建模

    通过标签技术,我们能够提取文章中的关键信息标签。这样来看标签就作为了用户和内容的一个共同表示。

    • 推荐的时候,我们通过对用户画像的标签和内容模型的标签进行匹配,就能够对用户进行一个精准的个性化推荐

    标签体系:面向推荐的标签图谱

    • 标签图谱刻画了用户的兴趣点,以及兴趣点之间的关联关系。
    • 节点表示了用户的兴趣点,而边表示了兴趣点之间的关联关系(边是带有权重的,表示关联强度)。
    • 包括3种节点:主题标签-绿色,话题标签-紫色,实体标签-蓝色。
    • 有了关联关系,我们可以进行一定程度的探索和泛化。(例如:无人驾驶和人工智能关联很强,如果有人看了无人驾驶,我们就给他推荐人工智能)

    面向推荐的标签图谱

    • 用户信息来源:贴吧、微博
    • 标签的相关性分析:通过关联规则,发现2个标签总同时出现,我们觉得这是高相关的。

    标签计算

    • 主题标签的计算,是一种很典型的文本分类问题:传统的朴素贝叶斯、最大熵、SVM 等解决方案。
    • 当前我们主要采用的是:基于神经网络的方法(可以看右侧的示意图)

    通用标签

    • 通用标签主要是计算内容中的实体和话题,我们综合了两种策略。
    • 第一种策略: 针对比较热门的高频标签
      • 这种标签我们主要通过一些预测的方法得到,预测的方法:基于相似度计算得到的—-这种方法并不要求标签一定在文章中出现
      • 例如:美国大选这种标签,如果一篇文章出现了 希拉里 辩论 等一些词,即使没有出现美国大选,我们通过语义相似度的方法也能把这个标签计算出来。
    • 第二种策略: 面向中低频的标签
      • 这种标签相关的信息,不是那么丰富,所以我们计算的时候更多依赖的是标签在文章中的信息
      • 比如:这个标签在文章中出现的频率 或 出现的位置;如果出现在标题,那么它可能就会比较重要。
    • 通过融合这2种策略,形成我们通用标签的结果。
    1. 标签可以用来话题聚合:比如表示人工智能的标签全部都会集合到同一个话题下面。这样用户可以对人工智能这个话题进行非常充分的浏览。
    2. 话题频道划分:比如我们在手机百度上面就可以看到,Feed流上面有多个栏目,用户可以点击 体育 等频道

    内容标签在Feed流中的应用