【技术实现步骤摘要】
时效性查询内容字段挖掘方法、装置、设备和存储介质
本申请涉及计算机
,特别是涉及一种时效性查询内容字段挖掘方法、装置、计算机设备和存储介质。
技术介绍
用户在搜索引擎中输入的不同query(询问)具有不同的显式或隐式时效性需求,此时需要引擎后台对当中包含的时效性进行识别计算,并在返回结果排序算法中,已考虑相关性,权威度相关维度因子之外,根据不同的query时效性需求强度调整相应的时效性排序因子权重,以返回更符合用户需求的排序结果。对于用户输入的某些query天然就隐含着强时效需求,例如“NBA”等,通常用户默认想要有关这些query的最新资讯,因此需要统计哪些query是具有时效性的。现有的相关技术中,通常采用人工搜集时效性query的方式形成词典,而人工搜集的方式存在覆盖不全的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够获得更全具有时效性query的时效性查询内容字段挖掘方法、装置、设备和存储介质。一种时效性查询内容字段挖掘方法,其特征在于,所述方法包括:获取与时效性相关的待挖掘查询内容;从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。一种时效性 ...
【技术保护点】
1.一种时效性查询内容字段挖掘方法,其特征在于,所述方法包括:/n获取与时效性相关的待挖掘查询内容;/n从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;/n根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;/n对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。/n
【技术特征摘要】
1.一种时效性查询内容字段挖掘方法,其特征在于,所述方法包括:
获取与时效性相关的待挖掘查询内容;
从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵;
根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段;
对所述候选时效性查询内容字段进行时效性校验,将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。
2.根据权利要求1所述的时效性查询内容字段挖掘方法,其特征在于,所述获取与时效性相关的待挖掘查询内容,包括:
从预设数据库中获取查询内容数据;
从所述查询内容数据中筛选与预设时间词语关联的查询内容数据,得到所述与时效性相关的待挖掘查询内容。
3.根据权利要求1所述的时效性查询内容字段挖掘方法,其特征在于,所述从所述待挖掘查询内容中筛选出查询内容核心字段,分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵,包括:
从所述待挖掘查询内容中筛选出查询内容核心字段;
分别获取各所述查询内容核心字段在所述待挖掘查询内容中与各预设时间词关联时的目标出现次数,以及所述查询内容核心字段在所述待挖掘查询内容中的所有出现次数;
根据各所述查询内容核心字段对应的各所述目标出现次数、所有出现次数,确定对应的查询内容核心字段与时间关联的出现概率;
基于各所述查询内容核心字段与时间关联的出现概率确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵。
4.根据权利要求1所述的时效性查询内容字段挖掘方法,其特征在于,所述根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段,包括:
从各所述时间信息熵中确定大于预设信息熵阈值的有效时间信息熵,得到所述有效时间信息熵对应的查询内容核心字段所在的目标查询内容;
去除所述目标查询内容中的预设特定关键词,获得筛选后查询内容字段;
在所述目标查询内容中识别属于所述筛选后查询内容字段的最大公共字串,确定为所述候选时效性查询内容字段。
5.根据权利要求4所述的时效性查询内容字段挖掘方法,其特征在于,所述在所述目标查询内容中识别属于所述筛选后查询内容字段的最大公共字串,确定为所述候选时效性查询内容字段,包括:
将与同一筛选后查询内容字段关联的目标查询内容合并...
【专利技术属性】
技术研发人员:康战辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。