基于语义标签的文档推荐方法和装置制造方法及图纸

技术编号：20425499 阅读：19 留言：0更新日期：2019-02-23 08:36

本申请提出一种基于语义标签的文档推荐方法和装置，其中，方法包括：通过获取每一个文档对应的第一候选标签集合，对每一个文档对应的第一候选标签集合中的每个第一候选标签进行处理得到每一个文档对应的第二候选标签集合，接着对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合，并对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，形成具有语义标签的文档库，根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此，本实施例中的语义标签都是无重复无歧义的，从而使文档推荐更加精准，提高用户使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义标签的文档推荐方法和装置
本申请涉及推荐
，尤其涉及一种基于语义标签的文档推荐方法和装置。
技术介绍
随着互联网技术的不断发展，信息流服务已经逐步取代传统媒体成为用户获取信息的重要手段，但是，信息流承载着太多的信息，容易造成用户信息量过载，无法及时获取用户感兴趣的信息。相关技术中，基于内容关注点的个性化推荐技术能够实现信息的精准推送，然而，上述方式中的标签并不是语义级别的，存在比较严重的歧义问题，导致推荐精度低等问题。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种基于语义标签的文档推荐方法和装置，用于解决现有技术中标签并不是语义级别的，存在比较严重的歧义，导致推荐精度低的技术问题。为达上述目的，本申请第一方面实施例提出了一种基于语义标签的文档推荐方法，包括：通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合；对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合；通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合；通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合；通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签，形成具有语义标签的文档库；获取用户历史行为信息，通过所述...

【技术保护点】
1.一种基于语义标签的文档推荐方法，其特征在于，包括以下步骤：通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合；对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合；通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合；通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合；通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签，形成具有语义标签的文档库；获取用户历史行为信息，通过所述用户历史行为信息获取对应的历史语义标签，根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。

【技术特征摘要】
1.一种基于语义标签的文档推荐方法，其特征在于，包括以下步骤：通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合；对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合；通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合；通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合；通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度，将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签，形成具有语义标签的文档库；获取用户历史行为信息，通过所述用户历史行为信息获取对应的历史语义标签，根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。2.如权利要求1所述的方法，其特征在于，在所述通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合之前，还包括：获取多个搜索语句；通过对所述多个搜索语句进行过滤处理，得到的事件、话题或者是实体性质的搜索语句作为所述预设关注点集合。3.如权利要求1所述的方法，其特征在于，在所述通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合之前，还包括：获取任意两个搜索语句对应的搜索结果的相似度；将相似度大于预设相似阈值的两个搜索语句作为候选归一语句；根据多个所述候选归一语句生成所述预设归一词典。4.如权利要求1所述的方法，其特征在于，通过预设消歧词典对每一个文档对应的所述第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合，包括：在候选义项列表中查询与每一个文档对应的所述第三候选标签集合中的每个第三候选标签对应的义项；计算每一个文档分别与对应的义项的相似度；根据相似度大小选取目标义项对每一个文档对应的所述第三候选标签集合中的每个第三候选标签进行扩展得到每一个文档对应的第四候选标签集合。5.如权利要求1所述的方法，其特征...

【专利技术属性】
技术研发人员：牛国成，何伯磊，刘呈祥，肖欣延，吕雅娟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人