【技术实现步骤摘要】
搜索信息的处理方法、装置
本申请涉及自然语言处理
,具体涉及机器学习
、数据处理
、特征分析
和深度学习
,尤其涉及搜索信息的处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
当今社会中,为了更好的为用户提供服务,各行各业都引入了深度学习技术来实现对用户行为的分析,根据分析结果来描绘用户画像,以便于后续确定经营策略来为用户提供更好的服务。现有技术中,为实现更加准确的用户行为分析和用户画像描绘,需要采用大量的用户信息作为训练素材来对神经网络或者模型进行训练,以确保训练得到的神经网络或者模型能够准确的对用户行为进行分析,得到服务提供商需要的结果。
技术实现思路
本申请提供了一种搜索信息的处理方法、装置、电子设备以及存储介质。第一方面,本申请的实施例提供了一种搜索信息的处理方法,包括:获取目标用户集合的搜索信息集合,基于该搜索信息集合确定搜索关键字集合;基于该搜索关键字集合和对该搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;对该扩展搜索关键字集合中的内容进行聚类处理,得到多个类别的分类关键字集合;聚合各个类别的分类关键字集合的特征信息,得到该目标用户集合的搜索特征信息;获取待训练目标模型,使用该目标用户集合的搜索特征信息训练该待训练目标模型,得到训练后的目标模型。第二方面,本申请的实施例提供了一种搜索信息的装置,包括:关键字集合确定单元,被配置成获取目标用户集合的搜索信息集合,基于该搜索信息集合确定搜索 ...
【技术保护点】
1.一种搜索信息的处理方法,包括:/n获取目标用户集合的搜索信息集合,基于所述搜索信息集合确定搜索关键字集合;/n基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;/n根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合;/n聚合各个类别的分类关键字集合的特征信息,得到所述目标用户集合的搜索特征信息;/n获取待训练目标模型,使用所述目标用户集合的搜索特征信息训练所述待训练目标模型,得到训练后的目标模型。/n
【技术特征摘要】
1.一种搜索信息的处理方法,包括:
获取目标用户集合的搜索信息集合,基于所述搜索信息集合确定搜索关键字集合;
基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;
根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合;
聚合各个类别的分类关键字集合的特征信息,得到所述目标用户集合的搜索特征信息;
获取待训练目标模型,使用所述目标用户集合的搜索特征信息训练所述待训练目标模型,得到训练后的目标模型。
2.根据权利要求1所述的方法,其中,所述基于所述搜索信息集合确定搜索关键字集合包括:
对所述搜索信息集合中的搜索信息进行标准化处理,根据标准化处理的结果确定所述搜索关键字集合。
3.根据权利要求2所述的方法,其中,所述根据标准化处理的结果确定所述搜索关键字集合包括:
采用预先确定的搜索关键字提取方式从所述标准化处理的结果中提取搜索关键字,并根据提取到的搜索关键字的词频,确定搜索关键字词典;
根据所述搜索关键字词典中词频序列的排序选取第一预设数量的搜索关键字,得到所述搜索关键字集合。
4.根据权利要求3所述的方法,其中,所述采用预先确定的搜索关键字提取方式从所述标准化处理的结果中提取搜索关键字包括:
采用切词和词权重分析神经网络从所述标准化处理的结果中提取所述搜索关键字。
5.根据权利要求1所述的方法,所述基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合包括:
根据所述搜索关键字集合生成可用于word2vec神经网络的搜索关键字向量;
采用word2vec神经网络基于搜索关键字向量进行扩展,得到多个扩展搜索关键字;
根据预先确定的筛选规则,筛选出第二预设数量的扩展搜索关键字,得到所述扩展搜索关键字集合。
6.根据权利要求5所述的方法,所述根据预先确定的筛选规则,筛选出第二预设数量的扩展关键字包括:
获取第三预设数量的所述扩展搜索关键字,判断所述扩展搜索关键字与对应的搜索关键字之间的相似度是否满足预先确定的阈值条件;
响应于所述扩展搜索关键字与对应的搜索关键字之间的相似度满足预先确定的阈值条件,将所述扩展搜索关键字确定为合格扩展搜索关键字;
响应于确定获取到的所述合格扩展搜索关键字的数量满足所述第二预设数量,筛选出所述第二预设数量的扩展搜索关键字。
7.根据权利要求1所述的方法,其中,所述根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合包括:
采用均值聚类算法对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合。
8.根据权利要求1所述的方法,其中,所述聚合各个类别的分类关键字集合的特征信息,得到所述目标用户集合的搜索特征信息包括:
采用词频-逆文档计算方法,分别生成各个类别的分类关键字集合对应的特征值;
基于各个类别的所述分类关键字集合的特征值,确定所述目标用户集合的特征信息。
9.根据权利要求1所述的方法,其中,所述获取目标用户集合的搜索信息集合包括:
响应于确定输入指令指示目标用户集合,确定所述目标用户集合所对应的搜索信息集合。
10.根据权利要求9所述的方法,其中,所述确定所述目标用户集合所对应的搜索信息集合包括:
响应于确定所述目标用户集合中的至少一个目标用户在预设时间内的搜索信息条数小于预先确定的阈值条件,基于所述目标用户的搜索信息生成所述搜索信息集合。
11.根据权利要求1-10中任一项所述的方法,还包括:
获取所述目标模型,采用所述目标模型根据所述用户集合的搜素信息集合确定所述目标用户集合的推送信息集合;
向所述目标用户集合推送所述推送信息集合。
12.一种搜索信息的处理装置,包括:
关键字集合确定单元,被配置成获取目标用户集合的搜索信息集合,基于所述搜索信息集合确定搜索关键字集合;
关键字集合扩展单元,被配置成基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;
关键字集合聚类单元,被配置成根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合;<...
【专利技术属性】
技术研发人员:钟辉强,徐思琪,周厚谦,陈亮辉,方军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。