实体词的热度获取方法及装置制造方法及图纸

技术编号:22261041 阅读:17 留言:0更新日期:2019-10-10 14:08
本发明专利技术揭示了一种实体词的热度获取方法及装置,该方案包括:获取搜索日志数据集;根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度;根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度。通过采用本发明专利技术提供的技术方案,将实体词的关注度和重要程度进行融合得到实体词的热度,既提高了实体词热度的获取准确性,又解决了依靠人的主观意志来判定实体词热度,造成的人力资源浪费以及判定速度慢的问题。

The Method and Device of Heat Acquisition for Substantive Words

【技术实现步骤摘要】
实体词的热度获取方法及装置
本专利技术涉及数据挖掘
,特别涉及一种实体词的热度获取方法及装置。
技术介绍
实体词热度是指实体词在当前阶段的受欢迎程度。在搜索引擎处理中,实体词热度非常重要,直接影响查询词语的检索结果。实体词的热度获取是一种数据挖掘技术。传统的实体词热度问题很大程度上依靠人的主观意志来判定,因而带来了浪费人力、速度慢且人为因素影响太严重等问题。目前主要利用知识图谱中实体词之间的链接信息,计算实体词的pagerank(佩奇排名)值,进而得到实体词的热度。到那时随着互联网的普及和飞速发展,每日海量的新闻数据在网络上涌现,网络用语由此变得越来越丰富多彩,譬如“萝莉”、“老司机”等新词层出不穷。而知识图谱更新较慢,对于一些网络新词,难以快速在知识图谱中更新其链接关系,由此计算得到的实体词的热度偏低,获得的实体词热度的准确性不高。
技术实现思路
为了解决相关技术中存在的实体词热度的获取准确性不高的问题,本专利技术提供了一种实体词的热度获取方法。本专利技术提供了一种实体词的热度获取方法,包括:获取搜索日志数据集;根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度;根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度。在一种示例性实施例中,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:根据所述实体词在所述搜索日志数据集中的查询语句,将所述查询语句与表达方式模板进行匹配,获得包含所述实体词的查询语句与所述表达方式模板之间的匹配成功次数;根据所述实体词在所述搜索日志数据集中的提及次数以及所述匹配成功次数,累计获得所述实体词的提及量。在一种示例性实施例中,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:根据已构建的实体属性关系,在所述搜索日志数据集中统计所述实体词与对应属性词同时出现的次数,获得所述实体词的正向匹配次数;根据所述实体词在所述搜索日志数据集中的提及次数以及所述正向匹配次数,累计获得所述实体词的提及量。在一种示例性实施例中,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:根据已构建的实体属性关系,在所述搜索日志数据集中统计所述实体词作为属性词与对应实体同时出现的次数,获得所述实体词的反向匹配次数;根据所述实体词在所述搜索日志数据集中的提及次数以及所述反向匹配次数,累计获得所述实体词的提及量。在一种示例性实施例中,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度,包括:对所述实体词的提及量进行归一化,得到所述实体词的关注度。在一种示例性实施例中,所述根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度,包括:根据所述实体词在百科网络中所对应网页地址的网页重要等级以及所述实体词在知识图谱中的实体重要等级,通过多源融合获得所述实体词的认知普及度;将所述实体词的认知普及度与所述实体词的关注度进行融合,获得所述实体词的当前热度。在一种示例性实施例中,所述根据所述实体词在百科网络中所对应网页地址的网页重要等级以及所述实体词在知识图谱中的实体重要等级,通过多源融合获得所述实体词的认知普及度之前,所述方法还包括:根据所述实体词的标识信息,从百科网络中获取所述标识信息对应的网页地址;根据所述百科网络中已构建的网页链接关系,通过pagerank算法计算所述网页地址对应的网页重要等级。在一种示例性实施例中,所述根据所述实体词在百科网络中所对应网页地址的网页重要等级以及所述实体词在知识图谱中的实体重要等级,通过多源融合获得所述实体词的认知普及度之前,所述方法还包括:根据所述实体词在知识图谱中的实体链接关系,通过pagerank算法计算所述实体词的实体重要等级。在一种示例性实施例中,将所述实体词的认知普及度与所述实体词的关注度进行融合,获得所述实体词的当前热度,包括:将所述实体词的认知普及度与关注度,按照预设权重系数加权求和,获得所述实体词的当前热度。本专利技术还提供了一种实体词的热度获取装置,所述装置包括:日志获取模块,用于获取搜索日志数据集;关注度获得模块,用于根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度;热度获得模块,用于根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度。在一种示例性实施例中,所述关注度获得模块还包括:第一匹配单元,用于根据所述实体词在所述搜索日志数据集中的查询语句,将所述查询语句与表达方式模板进行匹配,获得包含所述实体词的查询语句与所述表达方式模板之间的匹配成功次数;第一累计单元,用于根据所述实体词在所述搜索日志数据集中的提及次数以及所述匹配成功次数,累计获得所述实体词的提及量。在一种示例性实施例中,所述关注度获得模块还包括:第二匹配单元,用于根据已构建的实体属性关系,在所述搜索日志数据集中统计所述实体词与对应属性词同时出现的次数,获得所述实体词的正向匹配次数;第二累计单元,用于根据所述实体词在所述搜索日志数据集中的提及次数以及所述正向匹配次数,累计获得所述实体词的提及量。在一种示例性实施例中,所述关注度获得模块还包括:第三匹配单元,用于根据已构建的实体属性关系,在所述搜索日志数据集中统计所述实体词作为属性词与对应实体同时出现的次数,获得所述实体词的反向匹配次数;第三累计单元,用于根据所述实体词在所述搜索日志数据集中的提及次数以及所述反向匹配次数,累计获得所述实体词的提及量。在一种示例性实施例中,所述关注度获得模块包括:归一化单元,用于对所述实体词的提及量进行归一化,得到所述实体词的关注度。在一种示例性实施例中,所述热度获得模块包括:认知普及度获得单元,用于根据所述实体词在百科网络中所对应网页地址的网页重要等级以及所述实体词在知识图谱中的实体重要等级,通过多源融合获得所述实体词的认知普及度;热度获得单元,用于将所述实体词的认知普及度与所述实体词的关注度进行融合,获得所述实体词的当前热度。在一种示例性实施例中,所述认知普及度获得单元还包括:网址获取子单元,用于根据所述实体词的标识信息,从百科网络中获取所述标识信息对应的网页地址;第一计算子单元,用于根据所述百科网络中已构建的网页链接关系,通过pagerank算法计算所述网页地址对应的网页重要等级。在一种示例性实施例中,所述认知普及度获得单元还包括:第二计算子单元,用于根据所述实体词在知识图谱中的实体链接关系,通过pagerank算法计算所述实体词的实体重要等级。在一种示例性实施例中,所述热度获得单元包括:加权求和子单元,用于将所述实体词的认知普及度与关注度,按照预设权重系数加权求和,获得所述实体词的当前热度。本专利技术的实施例提供的技术方案可以包括以下有益效果:本专利技术提供的技术方案,通过获取实体词在搜索日志数据集中的提及量,确定实体词的关注度,进而将实体词的关注度与实体词在已有知识库中的重要程度进行多源融合,得到实体词的当前热度。通过采用本专利技术提供的技术方案,将实体词的关注度和重要程度进行融合得到实体词的热本文档来自技高网...

【技术保护点】
1.一种实体词的热度获取方法,其特征在于,包括:获取搜索日志数据集;根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度;根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度。

【技术特征摘要】
1.一种实体词的热度获取方法,其特征在于,包括:获取搜索日志数据集;根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度;根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度。2.根据权利要求1所述的方法,其特征在于,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:根据所述实体词在所述搜索日志数据集中的查询语句,将所述查询语句与表达方式模板进行匹配,获得包含所述实体词的查询语句与所述表达方式模板之间的匹配成功次数;根据所述实体词在所述搜索日志数据集中的提及次数以及所述匹配成功次数,累计获得所述实体词的提及量。3.根据权利要求1所述的方法,其特征在于,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:根据已构建的实体属性关系,在所述搜索日志数据集中统计所述实体词与对应属性词同时出现的次数,获得所述实体词的正向匹配次数;根据所述实体词在所述搜索日志数据集中的提及次数以及所述正向匹配次数,累计获得所述实体词的提及量。4.根据权利要求1所述的方法,其特征在于,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度之前,所述方法还包括:根据已构建的实体属性关系,在所述搜索日志数据集中统计所述实体词作为属性词与对应实体同时出现的次数,获得所述实体词的反向匹配次数;根据所述实体词在所述搜索日志数据集中的提及次数以及所述反向匹配次数,累计获得所述实体词的提及量。5.根据权利要求1所述的方法,其特征在于,所述根据实体词在所述搜索日志数据集中的提及量,获得所述实体词的关注度,包括:对所述实体词的提及量进行归一化,得到所述实体词的关注度。6.根据权利要求1所述的方法,其特征在于,所述根据所述实体词在已有知识库中的重要程度,将所述实体词的关注度与重要程度进行多源融合,获得所述实体词的当前热度,包括:根据所述实体词在百科网络中所对应网页地址的网页重要等级以及所述实体词在知识图谱中的实体重要等级,通过多源融合获得所述实体词的认知普及度;将所述实体词的认知普及度与所述实体词的关注度进行融合,获得所述实体词的当前热度。7.根据权利要求6所述的方法,其特征在于,所述根据所述实体词在百科网络中所对应网页地址的网页重要等级以及所述实体词在知识图谱中的实体重要等级,通过多源融合获得所述...

【专利技术属性】
技术研发人员:李潇郑孙聪
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1