搜索信息的处理方法、装置制造方法及图纸

技术编号:26343175 阅读:36 留言:0更新日期:2020-11-13 20:42
本申请公开了搜索信息的处理方法、装置、电子设备及计算机可读存储介质,涉及自然语言处理领域、机器学习技术领域、数据处理技术领域、特征分析技术领域和深度学习技术领域。具体实现方案为:获取目标用户集合的搜索信息集合后确定搜索关键字集合,基于该搜索关键字集合进行扩展得到扩展搜索关键字集合,然后对该扩展搜索关键字集合中的内容进行聚类处理,得到多个类别的分类关键字集合,聚合各个类别的分类关键字集合的特征信息,得到目标用户集合的搜索特征信息,然后获取待训练目标模型,使用该搜索特征信息训练所述待训练目标模型,得到训练后的目标模型,可以根据目标用户集合的搜索信息完成对模型的训练,不依赖标签数据。

【技术实现步骤摘要】
搜索信息的处理方法、装置
本申请涉及自然语言处理
,具体涉及机器学习
、数据处理
、特征分析
和深度学习
,尤其涉及搜索信息的处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
当今社会中,为了更好的为用户提供服务,各行各业都引入了深度学习技术来实现对用户行为的分析,根据分析结果来描绘用户画像,以便于后续确定经营策略来为用户提供更好的服务。现有技术中,为实现更加准确的用户行为分析和用户画像描绘,需要采用大量的用户信息作为训练素材来对神经网络或者模型进行训练,以确保训练得到的神经网络或者模型能够准确的对用户行为进行分析,得到服务提供商需要的结果。
技术实现思路
本申请提供了一种搜索信息的处理方法、装置、电子设备以及存储介质。第一方面,本申请的实施例提供了一种搜索信息的处理方法,包括:获取目标用户集合的搜索信息集合,基于该搜索信息集合确定搜索关键字集合;基于该搜索关键字集合和对该搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;对该扩展搜索关键字集合中的内容进行聚类处理,得到多个类别的分类关键字集合;聚合各个类别的分类关键字集合的特征信息,得到该目标用户集合的搜索特征信息;获取待训练目标模型,使用该目标用户集合的搜索特征信息训练该待训练目标模型,得到训练后的目标模型。第二方面,本申请的实施例提供了一种搜索信息的装置,包括:关键字集合确定单元,被配置成获取目标用户集合的搜索信息集合,基于该搜索信息集合确定搜索关键字集合;关键字集合扩展单元,被配置成基于该搜索关键字集合和对该搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;关键字集合聚类单元,被配置成对该扩展搜索关键字集合中的内容进行聚类处理,得到多个类别的分类关键字集合;特征信息生成单元,被配置成聚合各个类别的分类关键字集合的特征信息,得到该目标用户集合的搜索特征信息;目标模型训练单元,被配置成获取待训练目标模型,使用该目标用户集合的搜索特征信息训练该待训练目标模型,得到训练后的目标模型。第三方面,本申请的实施例提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,该存储器存储有可被上述至少一个处理器执行的指令,该指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如第一方面中任一实现方式描述的搜索信息的处理方法。第四方面,本申请的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,包括:该计算机指令用于使该计算机执行如第一方面中任一实现方式描述的搜索信息的处理方法。本申请在获取目标用户集合的搜索信息集合后确定搜索关键字集合,基于该搜索关键字集合进行扩展,根据该搜索关键字集合和扩展后的内容得到扩展搜索关键字集合,然后对该扩展搜索关键字集合中的内容进行聚类处理,得到多个类别的分类关键字集合,聚合各个类别的分类关键字集合的特征信息,得到目标用户集合的搜索特征信息,然后获取待训练目标模型,使用该搜索特征信息训练所述待训练目标模型,得到训练后的目标模型,根据目标用户集合的搜索信息完成对模型的训练,不依赖标签数据。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是本申请的实施例可以应用于其中的示例性系统架构;图2是根据本申请的搜索信息的处理方法的一个实施例的流程图;图3是根据本申请的搜索信息的处理方法的一个基于搜索信息集合确定搜索关键字集合的实现方式的流程图;图4是根据本申请的搜索信息的处理方法的一个基于搜索信息集合得到扩展后的搜索关键字集合的实现方式的流程图;图5是根据本申请的搜索信息的处理装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的搜索信息的处理方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的搜索信息的处理方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以实现指定目标用户集合的目的。终端设备101、102、103上可以安装有各种支持向服务器发送模型获取请求的应用程序,例如数据分析类应用、特征分析类应用等。终端设备101、102、103可以是硬件,也可以是软件。硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来指示目标用户集合、接收训练后的目标模型或接收使用训练后的目标模型得到的推送信息等),也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103提供搜索信息处理的服务器。提供搜索信息处理的服务器可以在获取目标用户集合的搜索信息集合后,得到该搜索信息集合的特征信息并基于该特征信息对待训练目标模型进行训练,为终端设备101、102、103提供训练后的目标模型或提供基于训练后的目标模型生成的推送信息。需要说明的是,本申请的实施例所提供的搜索信息的处理方法一般由服务器105执行,相应地,搜索信息的处理装置一般设置于服务器105中。需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。此外,搜索信息的处理方法也可以由终端设备101、102、103执行,相应地,搜索信息的装置也可以设置于终端设备101、102、103中。此时,示例性系统架构100也可以不包括服务器105和网络104。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具本文档来自技高网...

【技术保护点】
1.一种搜索信息的处理方法,包括:/n获取目标用户集合的搜索信息集合,基于所述搜索信息集合确定搜索关键字集合;/n基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;/n根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合;/n聚合各个类别的分类关键字集合的特征信息,得到所述目标用户集合的搜索特征信息;/n获取待训练目标模型,使用所述目标用户集合的搜索特征信息训练所述待训练目标模型,得到训练后的目标模型。/n

【技术特征摘要】
1.一种搜索信息的处理方法,包括:
获取目标用户集合的搜索信息集合,基于所述搜索信息集合确定搜索关键字集合;
基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;
根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合;
聚合各个类别的分类关键字集合的特征信息,得到所述目标用户集合的搜索特征信息;
获取待训练目标模型,使用所述目标用户集合的搜索特征信息训练所述待训练目标模型,得到训练后的目标模型。


2.根据权利要求1所述的方法,其中,所述基于所述搜索信息集合确定搜索关键字集合包括:
对所述搜索信息集合中的搜索信息进行标准化处理,根据标准化处理的结果确定所述搜索关键字集合。


3.根据权利要求2所述的方法,其中,所述根据标准化处理的结果确定所述搜索关键字集合包括:
采用预先确定的搜索关键字提取方式从所述标准化处理的结果中提取搜索关键字,并根据提取到的搜索关键字的词频,确定搜索关键字词典;
根据所述搜索关键字词典中词频序列的排序选取第一预设数量的搜索关键字,得到所述搜索关键字集合。


4.根据权利要求3所述的方法,其中,所述采用预先确定的搜索关键字提取方式从所述标准化处理的结果中提取搜索关键字包括:
采用切词和词权重分析神经网络从所述标准化处理的结果中提取所述搜索关键字。


5.根据权利要求1所述的方法,所述基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合包括:
根据所述搜索关键字集合生成可用于word2vec神经网络的搜索关键字向量;
采用word2vec神经网络基于搜索关键字向量进行扩展,得到多个扩展搜索关键字;
根据预先确定的筛选规则,筛选出第二预设数量的扩展搜索关键字,得到所述扩展搜索关键字集合。


6.根据权利要求5所述的方法,所述根据预先确定的筛选规则,筛选出第二预设数量的扩展关键字包括:
获取第三预设数量的所述扩展搜索关键字,判断所述扩展搜索关键字与对应的搜索关键字之间的相似度是否满足预先确定的阈值条件;
响应于所述扩展搜索关键字与对应的搜索关键字之间的相似度满足预先确定的阈值条件,将所述扩展搜索关键字确定为合格扩展搜索关键字;
响应于确定获取到的所述合格扩展搜索关键字的数量满足所述第二预设数量,筛选出所述第二预设数量的扩展搜索关键字。


7.根据权利要求1所述的方法,其中,所述根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合包括:
采用均值聚类算法对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合。


8.根据权利要求1所述的方法,其中,所述聚合各个类别的分类关键字集合的特征信息,得到所述目标用户集合的搜索特征信息包括:
采用词频-逆文档计算方法,分别生成各个类别的分类关键字集合对应的特征值;
基于各个类别的所述分类关键字集合的特征值,确定所述目标用户集合的特征信息。


9.根据权利要求1所述的方法,其中,所述获取目标用户集合的搜索信息集合包括:
响应于确定输入指令指示目标用户集合,确定所述目标用户集合所对应的搜索信息集合。


10.根据权利要求9所述的方法,其中,所述确定所述目标用户集合所对应的搜索信息集合包括:
响应于确定所述目标用户集合中的至少一个目标用户在预设时间内的搜索信息条数小于预先确定的阈值条件,基于所述目标用户的搜索信息生成所述搜索信息集合。


11.根据权利要求1-10中任一项所述的方法,还包括:
获取所述目标模型,采用所述目标模型根据所述用户集合的搜素信息集合确定所述目标用户集合的推送信息集合;
向所述目标用户集合推送所述推送信息集合。


12.一种搜索信息的处理装置,包括:
关键字集合确定单元,被配置成获取目标用户集合的搜索信息集合,基于所述搜索信息集合确定搜索关键字集合;
关键字集合扩展单元,被配置成基于所述搜索关键字集合和对所述搜索关键字集合进行扩展后得到的扩展后的搜索关键字集合,得到扩展搜索关键字集合;
关键字集合聚类单元,被配置成根据所述扩展搜索关键字集合中的内容对所述扩展搜索关键字集合进行聚类处理,得到多个类别的分类关键字集合;<...

【专利技术属性】
技术研发人员:钟辉强徐思琪周厚谦陈亮辉方军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1