基于语义标签的文档推荐方法和装置制造方法及图纸

技术编号:20425499 阅读:19 留言:0更新日期:2019-02-23 08:36
本申请提出一种基于语义标签的文档推荐方法和装置,其中,方法包括:通过获取每一个文档对应的第一候选标签集合,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行处理得到每一个文档对应的第二候选标签集合,接着对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合,并对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,形成具有语义标签的文档库,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此,本实施例中的语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验。

【技术实现步骤摘要】
基于语义标签的文档推荐方法和装置
本申请涉及推荐
,尤其涉及一种基于语义标签的文档推荐方法和装置。
技术介绍
随着互联网技术的不断发展,信息流服务已经逐步取代传统媒体成为用户获取信息的重要手段,但是,信息流承载着太多的信息,容易造成用户信息量过载,无法及时获取用户感兴趣的信息。相关技术中,基于内容关注点的个性化推荐技术能够实现信息的精准推送,然而,上述方式中的标签并不是语义级别的,存在比较严重的歧义问题,导致推荐精度低等问题。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种基于语义标签的文档推荐方法和装置,用于解决现有技术中标签并不是语义级别的,存在比较严重的歧义,导致推荐精度低的技术问题。为达上述目的,本申请第一方面实施例提出了一种基于语义标签的文档推荐方法,包括:通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合;对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合;通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合;通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合;通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签,形成具有语义标签的文档库;获取用户历史行为信息,通过所述用户历史行为信息获取对应的历史语义标签,根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。本申请实施例的基于语义标签的文档推荐方法,通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合,通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合,通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签,形成具有语义标签的文档库,获取用户历史行为信息,通过用户历史行为信息获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此,本实施例中的语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验。为达上述目的,本申请第二方面实施例提出了一种基于语义标签的文档推荐装置,包括:匹配模块,用于通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合;第一扩展模块,用于对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合;归一处理模块,用于通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合;第二扩展模块,用于通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合;第一处理模块,用于通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签,形成具有语义标签的文档库;推荐模块,用于获取用户历史行为信息,通过所述用户历史行为信息获取对应的历史语义标签,根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。本申请实施例的基于语义标签的文档推荐装置,通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合,对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合,通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合,通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为每一个文档的语义标签,形成具有语义标签的文档库,获取用户历史行为信息,通过用户历史行为信息获取对应的历史语义标签,根据历史语义标签在具有语义标签的文档库中获取目标文档推荐给用户。由此,本实施例中的语义标签都是无重复无歧义的,从而使文档推荐更加精准,提高用户使用体验。为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的基于语义标签的文档推荐方法。为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的基于语义标签的文档推荐方法。为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的基于语义标签的文档推荐方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例所提供的一种基于语义标签的文档推荐方法的流程示意图;图2为本申请实施例的标签归一处理的示例图;图3为本申请实施例的标签消歧处理的示例图;图4为本申请实施例的建立语义匹配模型的示例图;图5为本申请实施例所提供的一种基于语义标签的文档推荐装置的结构示意图;图6为本申请实施例所提供的另一种基于语义标签的文档推荐装置的结构示意图;图7为本申请实施例所提供的又一种基于语义标签的文档推荐装置的结构示意图;图8为本申请实施例所提供的再一种基于语义标签的文档推荐装置的结构示意图;以及图9为本申请实施例所提供的计算机设备的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的基于语义标签的文档推荐方法和装置。基于上述
技术介绍
的描述,可以了解到基于关注点的文档推荐方法中的标签并不是语义级别的,存在比较严重的歧义问题,导致推荐精度低等问题,比如一篇讲“小米手机”的文章,打上了标签“小米”,一篇讲“小米本文档来自技高网
...

【技术保护点】
1.一种基于语义标签的文档推荐方法,其特征在于,包括以下步骤:通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合;对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合;通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合;通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合;通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签,形成具有语义标签的文档库;获取用户历史行为信息,通过所述用户历史行为信息获取对应的历史语义标签,根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。

【技术特征摘要】
1.一种基于语义标签的文档推荐方法,其特征在于,包括以下步骤:通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合;对每一个文档对应的第一候选标签集合中的每个第一候选标签进行扩展处理得到每一个文档对应的第二候选标签集合;通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合;通过预设消歧词典对每一个文档对应的第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合;通过语义匹配模型获取每一个文档对应的第四候选标签集合中的每个第四候选标签和所述每一个文档之间的语义匹配度,将语义匹配度大于预设匹配阈值对应的第四候选标签作为所述每一个文档的语义标签,形成具有语义标签的文档库;获取用户历史行为信息,通过所述用户历史行为信息获取对应的历史语义标签,根据所述历史语义标签在所述具有语义标签的文档库中获取目标文档推荐给所述用户。2.如权利要求1所述的方法,其特征在于,在所述通过预设关注点集合对多个文档进行匹配得到每一个文档对应的第一候选标签集合之前,还包括:获取多个搜索语句;通过对所述多个搜索语句进行过滤处理,得到的事件、话题或者是实体性质的搜索语句作为所述预设关注点集合。3.如权利要求1所述的方法,其特征在于,在所述通过预设归一词典对每一个文档对应的第二候选标签集合中的每个第二候选标签进行归一处理得到每一个文档对应的第三候选标签集合之前,还包括:获取任意两个搜索语句对应的搜索结果的相似度;将相似度大于预设相似阈值的两个搜索语句作为候选归一语句;根据多个所述候选归一语句生成所述预设归一词典。4.如权利要求1所述的方法,其特征在于,通过预设消歧词典对每一个文档对应的所述第三候选标签集合中的每个第三候选标签进行扩展处理得到每一个文档对应的第四候选标签集合,包括:在候选义项列表中查询与每一个文档对应的所述第三候选标签集合中的每个第三候选标签对应的义项;计算每一个文档分别与对应的义项的相似度;根据相似度大小选取目标义项对每一个文档对应的所述第三候选标签集合中的每个第三候选标签进行扩展得到每一个文档对应的第四候选标签集合。5.如权利要求1所述的方法,其特征...

【专利技术属性】
技术研发人员:牛国成何伯磊刘呈祥肖欣延吕雅娟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1