时效性查询内容字段挖掘方法、装置、设备和存储介质制造方法及图纸

技术编号:26222683 阅读:21 留言:0更新日期:2020-11-04 10:53
本申请涉及一种时效性查询内容字段挖掘方法、装置、设备和存储介质。所述方法包括:获取与时效性相关的待挖掘查询内容;从待挖掘查询内容中筛选出查询内容核心字段,分别确定各查询内容核心字段在待挖掘查询内容中的时间信息熵;根据各查询内容核心字段对应的时间信息熵从查询内容核心字段中确定候选时效性查询内容字段;对候选时效性查询内容字段进行时效性校验,将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。上述方法通过计算机进行一系列的筛选和校验,在确保挖掘的时效性查询内容的准确性的同时,提高时效性查询内容字段挖掘的效率。

【技术实现步骤摘要】
时效性查询内容字段挖掘方法、装置、设备和存储介质
本申请涉及计算机
,特别是涉及一种时效性查询内容字段挖掘方法、装置、计算机设备和存储介质。
技术介绍
用户在搜索引擎中输入的不同query(询问)具有不同的显式或隐式时效性需求,此时需要引擎后台对当中包含的时效性进行识别计算,并在返回结果排序算法中,已考虑相关性,权威度相关维度因子之外,根据不同的query时效性需求强度调整相应的时效性排序因子权重,以返回更符合用户需求的排序结果。对于用户输入的某些query天然就隐含着强时效需求,例如“NBA”等,通常用户默认想要有关这些query的最新资讯,因此需要统计哪些query是具有时效性的。现有的相关技术中,通常采用人工搜集时效性query的方式形成词典,而人工搜集的方式存在覆盖不全的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够获得更全具有时效性query的时效性查询内容字段挖掘方法、装置、设备和存储介质。一种时效性查询内容字段挖掘方法,其特征在于,所述方法包括:获取与时效性相关的待挖掘查询内容;从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。一种时效性查询内容字段挖掘装置,所述装置包括:获取模块,用于获取与时效性相关的待挖掘查询内容;信息熵确定模块,用于从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;候选字段确定模块,用于根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;校验模块,用于对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取与时效性相关的待挖掘查询内容;从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取与时效性相关的待挖掘查询内容;从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。上述时效性查询内容字段挖掘方法、装置、设备和存储介质,从获取的与时效性相关的待挖掘查询内容中筛选出该待挖掘内容的查询内容核心字段,分别计算各查询内容核心字段在待挖掘查询内容中的时间信息熵;根据各时间信息熵从查询内容核心字段中筛选出更有可能具备时效性的候选时效性查询内容字段,然后对候选时效性查询内容字段进行时效性校验,通过时效性校验的候选时效性查询内容字段即确定为时效性查询内容字段。上述方法通过计算机进行一系列的筛选和校验,在确保挖掘的时效性查询内容的准确性的同时,提高挖掘时效性查询内容字段的效率。附图说明图1为一个实施例中时效性查询内容字段挖掘方法的流程示意图;图2为一个实施例中从待挖掘查询内容中筛选出查询内容核心字段,分别确定各查询内容核心字段在待挖掘查询内容中的时间信息熵的流程示意图;图3为一个实施例中根据各查询内容核心字段对应的时间信息熵从查询内容核心字段中确定候选时效性查询内容字段的流程示意图;图4为另一个实施例中在目标查询内容中识别属于筛选后查询内容字段的最大公共字串,确定为候选时效性查询内容字段的流程示意图;图5为一个实施例中对候选时效性查询内容字段进行时效性校验,将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段的流程示意图;图6为另一个实施例中对候选时效性查询内容字段进行时效性校验,将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段的流程示意图;图7为一个实施例中时效性查询内容字段挖掘装置的结构框图;图8为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在一个实施例中,如图1所示,提供了一种时效性查询内容字段挖掘方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括步骤S110至步骤S140。步骤S110,获取与时效性相关的待挖掘查询内容。时效性是指同一件事物在不同的时间具有很大的性质上的差异。查询内容与时效性相关最常见的可体现为带有“最新”、“最近”或者“**年”、“**月”、“**日”等表示时间的词语的查询内容。在本实施例中,将获取的与时效性相关的查询内容记为待挖掘查询内容,后续从待挖掘内容中挖掘出时效性查询内容字段。在一个实施例中,获取与时效性相关的待挖掘查询内容,包括:从预设数据库中获取查询内容数据;从查询内容数据中筛选与预设时间词语关联的查询内容数据,得到与时效性相关的待挖掘查询内容。其中,预设数据库可以是用于存储查询内容的数据库,例如可以是搜索引擎、浏览器对应的数据库,其中搜集并存储了大量用户在搜索引擎或浏览器中搜索查询某些内容时所输入的查询内容;可以理解地,其中可能包含有与时效性有关的搜索内容,也可能包含与时效性没有关联的搜索内容(如“西红柿炒鸡蛋的做法”)。在一个实施例中,从预设数据库中获取查询内容数据,可以获取预设时间段内的查询内容数据。与预设时间词语关联的查询内容数据是指查询内容数据中包含预设时间词语的查询内容。在一个具体实施例中,预设时间词语包括**年,**月,**周,**日,**期,**届,**季等;在一个实施例中,可基于hadoop(一个分布式系统基础架构)等离线大数据引统计所有预设时间词语。在另一个实施例中,也可以从多个不同的数据库中获取查询内容数据,并从中筛选出与预设时本文档来自技高网...

【技术保护点】
1.一种时效性查询内容字段挖掘方法,其特征在于,所述方法包括:/n获取与时效性相关的待挖掘查询内容;/n从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;/n根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;/n对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。/n

【技术特征摘要】
1.一种时效性查询内容字段挖掘方法,其特征在于,所述方法包括:
获取与时效性相关的待挖掘查询内容;
从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;
根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;
对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。


2.根据权利要求1所述的时效性查询内容字段挖掘方法,其特征在于,所述获取与时效性相关的待挖掘查询内容,包括:
从预设数据库中获取查询内容数据;
从所述查询内容数据中筛选与预设时间词语关联的查询内容数据,得到所述与时效性相关的待挖掘查询内容。


3.根据权利要求1所述的时效性查询内容字段挖掘方法,其特征在于,所述从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵,包括:
从所述待挖掘查询内容中筛选出查询内容核心字段;
分别获取各所述查询内容核心字段在所述待挖掘查询内容中与各预设时间词关联时的目标出现次数,以及所述查询内容核心字段在所述待挖掘查询内容中的所有出现次数;
根据各所述查询内容核心字段对应的各所述目标出现次数、所有出现次数,确定对应的查询内容核心字段与时间关联的出现概率;
基于各所述查询内容核心字段与时间关联的出现概率确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵。


4.根据权利要求1所述的时效性查询内容字段挖掘方法,其特征在于,所述根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段,包括:
从各所述时间信息熵中确定大于预设信息熵阈值的有效时间信息熵,得到所述有效时间信息熵对应的查询内容核心字段所在的目标查询内容;
去除所述目标查询内容中的预设特定关键词,获得筛选后查询内容字段;
在所述目标查询内容中识别属于所述筛选后查询内容字段的最大公共字串,确定为所述候选时效性查询内容字段。


5.根据权利要求4所述的时效性查询内容字段挖掘方法,其特征在于,所述在所述目标查询内容中识别属于所述筛选后查询内容字段的最大公共字串,确定为所述候选时效性查询内容字段,包括:
将与同一筛选后查询内容字段关联的目标查询内容合并...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1