关键词推荐方法、装置、设备及存储介质制造方法及图纸

技术编号:34827742 阅读:21 留言:0更新日期:2022-09-08 07:19
本发明专利技术涉及搜索技术领域,公开了一种关键词推荐方法、装置、设备及存储介质,该方法包括在接收到用户输入的检索指令时,从检索指令中提取检索关键词;在检索关键词不满足预设条件时,获取用户对应的多媒体信息关键词候选集;根据预设细粒度识别策略和多媒体信息关键词候选集确定用户兴趣词语集合;根据预设召回策略分别对多媒体信息关键词候选集和用户兴趣词语集合进行召回,以获得多个关键词更新候选集;对关键词更新候选集进行粗排序,根据排序结果进行关键词推荐。本发明专利技术中,用户输入的检索词不满足预设条件即不规范或语义混淆无法识别时,通过融合综合搜索的用户行为即用户对应的多媒体信息关键词候选集,来对多媒体信息关键词进行推荐。关键词进行推荐。关键词进行推荐。

【技术实现步骤摘要】
关键词推荐方法、装置、设备及存储介质


[0001]本专利技术涉及搜索
,尤其涉及一种关键词推荐方法、装置、设备 及存储介质。

技术介绍

[0002]搜索多媒体信息中需要基于用户检索关键词query进行多媒体信息召回, 但是在一些垂直搜索场景下,缺少用户检索query或者query表达不清,此时 会导致一次请求到达多媒体信息引擎后无法召回多媒体信息,进而导致多媒 体信息主、媒体资源方、多媒体信息受众这三方的多媒体信息需求及收益低 效,媒体流量的商业化变现低。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是 现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供一种关键词推荐方法、装置、设备及存储介 质,旨在解决现有检索query不规范或语义混淆导致无法召回多媒体信息的技 术问题。
[0005]为实现上述目的,本专利技术提供一种关键词推荐方法,所述关键词推荐方 法包括以下步骤:
[0006]在接收到用户输入的检索指令时,从所述检索指令中提取检索关键词;
[0007]在所述检索关键词不满足预设条件时,获取所述用户对应的多媒体信息 关键词候选集;
[0008]根据预设细粒度识别策略和所述多媒体信息关键词候选集确定用户兴趣 词语集合;
[0009]根据预设召回策略分别对所述多媒体信息关键词候选集和所述用户兴趣 词语集合进行召回,以获得多个关键词更新候选集;
[0010]对所述关键词更新候选集进行粗排序,根据排序结果进行关键词推荐。
[0011]可选地,所述获取所述用户对应的多媒体信息关键词候选集的步骤,包 括:
[0012]获取全网用户多媒体信息关键词改写的基础训练数据;
[0013]获取用户的IP常驻地址,根据预设IP定位技术确定所述IP常驻地址的 常驻地特征;
[0014]将所述常驻地特征作为所述IP常驻地址对应的地理属性;
[0015]根据所述地理属性和所述基础训练数据生成所述用户对应的多媒体信息 关键词候选集。
[0016]可选地,所述根据所述地理属性和所述基础训练数据生成所述用户对应 的多媒体信息关键词候选集的步骤,包括:
[0017]根据所述地理属性和所述基础训练数据生成所述用户对应的初始多媒体 信息关键词候选集;
[0018]读取所述初始多媒体信息关键词候选集,并根据预设时间粒度对所述初 始多媒体信息关键词候选集进行聚合,以获得聚合多媒体信息关键词候选集;
[0019]根据预设横向切分规则将所述聚合多媒体信息关键词候选集按照时间戳 切分成横向多媒体信息关键词候选集;
[0020]根据预设纵向维度列对所述横向多媒体信息关键词候选集的列维度进行 编号,以获得纵向多媒体信息关键词候选集;
[0021]根据预设位图算法对所述纵向多媒体信息关键词候选集进行压缩,并将 压缩后的纵向多媒体信息关键词候选集作为用户对应的多媒体信息关键词候 选集。
[0022]可选地,所述获取全网用户多媒体信息关键词改写的基础训练数据的步 骤,包括:
[0023]获取所述用户的历史检索网络数据;
[0024]对所述历史检索网络数据进行反作弊流量处理,以获得反作弊检索数据;
[0025]根据所述反作弊检索数据确定历史检索词集合;
[0026]对所述历史检索词集合进行改写,以获得全网用户多媒体信息关键词改 写的基础训练数据。
[0027]可选地,所述根据所述反作弊检索数据确定历史检索词集合的步骤,包 括:
[0028]对所述反作弊检索数据进行特征提取,以获得检索特征信息;
[0029]根据所述检索特征信息生成句子表示向量,对所述句子表示向量进行多 尺度上下文聚合,以获得历史检索词集合。
[0030]可选地,获取所述用户的历史检索网络数据的步骤之前,还包括:
[0031]获取用户对应的用户检索日志以及用户点击日志;
[0032]基于预设数据仓库技术对所述用户检索日志以及所述用户点击日志进行 抽取、清洗转换、加载以及数据仓库处理,以获得所述用户的历史检索网络 数据。
[0033]可选地,所述根据预设细粒度识别策略和所述多媒体信息关键词候选集 确定用户兴趣词语集合的步骤,包括:
[0034]根据所述多媒体信息关键词候选集确定预设时间内的用户点击行为信息 和用户上下文行为信息;
[0035]根据所述用户点击行为信息和所述用户上下文行为信息构建用户搜索会 话;
[0036]对所述用户搜索会话进行细粒度特征识别,以获得若干关键词的细粒度 聚类特征;
[0037]对所述细粒度聚类特征进行线性加权,以获得用户兴趣词语集合。
[0038]此外,为实现上述目的,本专利技术还提出一种关键词推荐装置,所述关键 词推荐装置包括:
[0039]提取模块,用于在接收到用户输入的检索指令时,从所述检索指令中提 取检索关键词;
[0040]获取模块,用于在所述检索关键词不满足预设条件时,获取所述用户对 应的多媒体信息关键词候选集;
[0041]确定模块,用于根据预设细粒度识别策略和所述多媒体信息关键词候选 集确定用户兴趣词语集合;
[0042]召回模块,用于根据预设召回策略分别对所述多媒体信息关键词候选集 和所述用户兴趣词语集合进行召回,以获得多个关键词更新候选集;
[0043]推荐模块,用于对所述关键词更新候选集进行粗排序,根据排序结果进 行关键词推荐。
[0044]此外,为实现上述目的,本专利技术还提出一种关键词推荐设备,所述关键 词推荐设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上 运行的关键词推荐程序,所述关键词推荐程序配置为实现如上文所述的关键 词推荐方法的步骤。
[0045]此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上 存储有关键词推荐程序,所述关键词推荐程序被处理器执行时实现如上文所 述的关键词推荐方法的步骤。
[0046]本专利技术通过在接收到用户输入的检索指令时,从所述检索指令中提取检 索关键词;在所述检索关键词不满足预设条件时,获取所述用户对应的多媒 体信息关键词候选集;根据预设细粒度识别策略和所述多媒体信息关键词候 选集确定用户兴趣词语集合;根据预设召回策略分别对所述多媒体信息关键 词候选集和所述用户兴趣词语集合进行召回,以获得多个关键词更新候选集; 对所述关键词更新候选集进行粗排序,根据排序结果进行关键词推荐。本发 明中,用户输入的检索词不满足预设条件即不规范或语义混淆无法识别时, 通过融合综合搜索的用户行为即用户对应的多媒体信息关键词候选集,来对 多媒体信息关键词进行推荐,同时使用多媒体信息关键词改写服务进行多媒 体信息召回还提升了媒体方展现成本,从而解决了现有检索query不规范或语 义混淆导致无法召回多媒体信息的技术问题。
附图说明
[0047]图1是本专利技术实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词推荐方法,其特征在于,所述关键词推荐方法包括以下步骤:在接收到用户输入的检索指令时,从所述检索指令中提取检索关键词;在所述检索关键词不满足预设条件时,获取所述用户对应的多媒体信息关键词候选集;根据预设细粒度识别策略和所述多媒体信息关键词候选集确定用户兴趣词语集合;根据预设召回策略分别对所述多媒体信息关键词候选集和所述用户兴趣词语集合进行召回,以获得多个关键词更新候选集;对所述关键词更新候选集进行粗排序,根据排序结果进行关键词推荐。2.如权利要求1所述的关键词推荐方法,其特征在于,所述获取所述用户对应的多媒体信息关键词候选集的步骤,包括:获取全网用户多媒体信息关键词改写的基础训练数据;获取用户的IP常驻地址,根据预设IP定位技术确定所述IP常驻地址的常驻地特征;将所述常驻地特征作为所述IP常驻地址对应的地理属性;根据所述地理属性和所述基础训练数据生成所述用户对应的多媒体信息关键词候选集。3.如权利要求2所述的关键词推荐方法,其特征在于,所述根据所述地理属性和所述基础训练数据生成所述用户对应的多媒体信息关键词候选集的步骤,包括:根据所述地理属性和所述基础训练数据生成所述用户对应的初始多媒体信息关键词候选集;读取所述初始多媒体信息关键词候选集,并根据预设时间粒度对所述初始多媒体信息关键词候选集进行聚合,以获得聚合多媒体信息关键词候选集;根据预设横向切分规则将所述聚合多媒体信息关键词候选集按照时间戳切分成横向多媒体信息关键词候选集;根据预设纵向维度列对所述横向多媒体信息关键词候选集的列维度进行编号,以获得纵向多媒体信息关键词候选集;根据预设位图算法对所述纵向多媒体信息关键词候选集进行压缩,并将压缩后的纵向多媒体信息关键词候选集作为用户对应的多媒体信息关键词候选集。4.如权利要求2所述的关键词推荐方法,其特征在于,所述获取全网用户多媒体信息关键词改写的基础训练数据的步骤,包括:获取所述用户的历史检索网络数据;对所述历史检索网络数据进行反作弊流量处理,以获得反作弊检索数据;根据所述反作弊检索数据确定历史检索词集合;对所述历史检索词集合进行改写,以获得全网用户多媒体信息关键词改写的基础训练数据。5.如权利要求4所述...

【专利技术属性】
技术研发人员:卢凯敏李愈曈张绍瑞
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1