数据处理方法、装置、服务器及计算机可读存储介质制造方法及图纸

技术编号:32829264 阅读:12 留言:0更新日期:2022-03-26 20:37
本公开关于一种数据处理方法、装置、服务器及计算机可读存储介质,其中,上述数据处理方法包括:获取目标对象的搜索信息,其中,搜索信息包括至少一个搜索文本以及至少一个搜索文本对应的时间标识;基于时间标识对搜索信息进行聚类,得到第一序列,其中,第一序列由多个元素组成,每个元素包括至少一个搜索文本;获取多个元素中相邻元素之间的关联度,其中,多个元素按照预设的时间顺序排序;对关联度满足预设条件的相邻元素进行连接,得到目标元素;基于目标元素对第一序列进行更新,得到搜索序列,其中,搜索序列用于指示目标对象的搜索行为。本公开至少解决了相关技术中获取的搜索信息准确度低的问题。息准确度低的问题。息准确度低的问题。

【技术实现步骤摘要】
数据处理方法、装置、服务器及计算机可读存储介质


[0001]本公开涉及互联网
,尤其涉及一种数据处理方法、装置、服务器及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,搜索引擎在人们的日常生活中应用的越来越广泛,每天都有大量的人群通过搜索引擎搜索信息,其中,从用户进入搜索引擎开始搜索,到用户退出搜索引擎,是搜索引擎中用户的一次完整的搜索查询过程,该过程可用来训练词向量模型,以及构建协同过滤的训练样本。
[0003]但是,用户在进行一次完整的搜索查询过程中,搜索的时间间隔经常存在很大的差别,而且用户每次进行搜索时,所用的时间以及输入搜索文本也不相同,这便造成了搜索过程中无法形成有效准确的搜索信息,进而难以有效训练词向量模型以及协同过滤模型,进一步造成了获取搜索结果准确度低的问题。

技术实现思路

[0004]本公开提供一种数据处理方法、装置、服务器及计算机可读存储介质,以至少解决相关技术中获取的搜索信息准确度低的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种数据处理方法,包括:获取目标对象的搜索信息,其中,搜索信息包括至少一个搜索文本以及至少一个搜索文本对应的时间标识;基于时间标识对搜索信息进行聚类,得到第一序列,其中,第一序列由多个元素组成,每个元素包括至少一个搜索文本;获取多个元素中相邻元素之间的关联度,其中,多个元素按照预设的时间顺序排序;对关联度满足预设条件的相邻元素进行连接,得到目标元素;基于目标元素对第一序列进行更新,得到搜索序列,其中,搜索序列用于指示目标对象的搜索行为。
[0006]进一步地,数据处理方法还包括:获取多个对象在历史预设时长内的第一搜索信息;根据多个对象的对象标识对第一搜索信息进行聚类处理,得到聚类结果;获取目标对象的目标对象标识;将聚类结果中与目标对象标识对应的搜索信息,确定为目标对象的搜索信息。
[0007]进一步地,数据处理方法还包括:根据至少一个搜索文本对应的时间标识对至少一个搜索文本进行排序,得到排序结果;按照时间顺序对排序结果进行分层聚类,得到第一序列。
[0008]进一步地,数据处理方法还包括:按照时间顺序从第一元素所包含的至少一个搜索文本中获取第一搜索文本,其中,第一搜索文本为第一元素中的最后一个文本;按照时间顺序从第二元素所包含的至少一个搜索文本中获取第二搜索文本,其中,第一元素和第二元素为第一序列中在时间上相邻的两个元素,第二搜索文本为第二元素中的第一个文本,第一搜索文本对应的时间标识小于第二搜索文本对应的时间标识;计算第一搜索文本与第二搜索文本之间的相似度;根据相似度确定第一元素与第二元素之间的关联度。
[0009]进一步地,数据处理方法还包括:获取第一搜索文本在预设窗口下滑动所截取到的多个第一字节片段以及第二搜索文本在预设窗口下滑动所截取到的多个第二字节片段;计算多个第一字节片段所对应的第一概率以及多个第二字节片段所对应的第二概率,其中,第一概率表征了多个第一字节片段在第一搜索文本中出现的频率,第二概率表征了多个第二字节片段在第二搜索文本中出现的频率;根据第一概率以及第二概率确定第一搜索文本与第二搜索文本之间的相似度。
[0010]进一步地,数据处理方法还包括:计算多个第一字节片段的第一概率的乘积,得到第一搜索文本对应的第三概率;计算多个第二字节片段的第二概率的乘积,得到第二搜索文本对应的第四概率;根据第三概率和第四概率,得到第一搜索文本与第二搜索文本之间的相似度。
[0011]进一步地,数据处理方法还包括:在相似度大于或等于预设相似度时,获取第一元素与第二元素之间的关联度;在第一元素与第二元素之间的关联度大于预设关联度时,获取第一元素中的第三字节片段以及第二元素中的第四字节片段,其中,第三字节片段与第四字节片段为在时间上相邻的字节片段;根据第三字节片段与第四字节片段对第一元素和第二元素进行连接,得到目标元素。
[0012]进一步地,数据处理方法还包括:从第一序列所包含的多个元素中确定与目标元素对应的元素组合,其中,元素组合由第一元素和第二元素组成;基于目标元素对第一序列中的元素组合进行替换,得到搜索序列。
[0013]进一步地,数据处理方法还包括:在基于目标元素对第一序列进行更新,得到搜索序列之后,基于搜索序列对协同过滤模型进行训练,得到目标模型,其中,协同过滤模型用于根据目标对象的历史搜索信息推送与目标对象关联的信息。
[0014]进一步地,数据处理方法还包括:在基于目标元素对第一序列进行更新,得到搜索序列之后,基于搜索序列对词向量模型进行训练,得到目标词向量模型,其中,词向量模型用于对目标对象的搜索信息进行分类处理,并根据分类结果推送与目标对象关联的信息。
[0015]根据本公开实施例的第二方面,提供一种数据处理装置,包括:第一获取单元,被配置为执行获取目标对象的搜索信息,其中,搜索信息包括至少一个搜索文本以及至少一个搜索文本对应的时间标识;聚类单元,被配置为执行基于时间标识对搜索信息进行聚类,得到第一序列,其中,第一序列由多个元素组成,每个元素包括至少一个搜索文本;第二获取单元,被配置为执行获取多个元素中相邻元素之间的关联度,其中,多个元素按照预设的时间顺序排序;连接单元,被配置为执行对关联度满足预设条件的相邻元素进行连接,得到目标元素;更新单元,被配置为执行基于目标元素对第一序列进行更新,得到搜索序列,其中,搜索序列用于指示目标对象的搜索行为。
[0016]进一步地,第一获取单元包括:第三获取单元,被配置为执行获取多个对象在历史预设时长内的第一搜索信息;第一聚类单元,被配置为执行根据多个对象的对象标识对第一搜索信息进行聚类处理,得到聚类结果;第四获取单元,被配置为执行获取目标对象的目标对象标识;第一确定单元,被配置为执行将聚类结果中与目标对象标识对应的搜索信息,确定为目标对象的搜索信息。
[0017]进一步地,聚类单元包括:排序单元,被配置为执行根据至少一个搜索文本对应的时间标识对至少一个搜索文本进行排序,得到排序结果;第二聚类单元,被配置为执行按照
时间顺序对排序结果进行分层聚类,得到第一序列。
[0018]进一步地,第二获取单元包括:第五获取单元,被配置为执行按照时间顺序从第一元素所包含的至少一个搜索文本中获取第一搜索文本,其中,第一搜索文本为第一元素中的最后一个文本;第六获取单元,被配置为执行按照时间顺序从第二元素所包含的至少一个搜索文本中获取第二搜索文本,其中,第一元素和第二元素为第一序列中在时间上相邻的两个元素,第二搜索文本为第二元素中的第一个文本,第一搜索文本对应的时间标识小于第二搜索文本对应的时间标识;第一计算单元,被配置为执行计算第一搜索文本与第二搜索文本之间的相似度;第二确定单元,被配置为执行根据相似度确定第一元素与第二元素之间的关联度。
[0019]进一步地,第一计算单元包括:第七获取单元,被配置为执行获取第一搜索文本在预设窗口下滑动所截取到的多个第一字节片段以及第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标对象的搜索信息,其中,所述搜索信息包括至少一个搜索文本以及所述至少一个搜索文本对应的时间标识;基于所述时间标识对所述搜索信息进行聚类,得到第一序列,其中,所述第一序列由多个元素组成,每个元素包括至少一个搜索文本;获取所述多个元素中相邻元素之间的关联度,其中,所述多个元素按照预设的时间顺序排序;对所述关联度满足预设条件的相邻元素进行连接,得到目标元素;基于所述目标元素对所述第一序列进行更新,得到搜索序列,其中,所述搜索序列用于指示所述目标对象的搜索行为。2.根据权利要求1所述的数据处理方法,其特征在于,所述获取所述多个元素中相邻元素之间的关联度,包括:按照所述时间顺序从第一元素所包含的至少一个搜索文本中获取第一搜索文本,其中,所述第一搜索文本为所述第一元素中的最后一个文本;按照所述时间顺序从第二元素所包含的至少一个搜索文本中获取第二搜索文本,其中,所述第一元素和所述第二元素为所述第一序列中在时间上相邻的两个元素,所述第二搜索文本为所述第二元素中的第一个文本,所述第一搜索文本对应的时间标识小于所述第二搜索文本对应的时间标识;计算所述第一搜索文本与所述第二搜索文本之间的相似度;根据所述相似度确定所述第一元素与所述第二元素之间的关联度。3.根据权利要求2所述的数据处理方法,其特征在于,所述计算所述第一搜索文本与所述第二搜索文本之间的相似度,包括:获取所述第一搜索文本在预设窗口下滑动所截取到的多个第一字节片段以及所述第二搜索文本在所述预设窗口下滑动所截取到的多个第二字节片段;计算所述多个第一字节片段所对应的第一概率以及所述多个第二字节片段所对应的第二概率,其中,所述第一概率表征所述多个第一字节片段在所述第一搜索文本中出现的频率,所述第二概率表征所述多个第二字节片段在所述第二搜索文本中出现的频率;根据所述第一概率以及所述第二概率确定所述第一搜索文本与所述第二搜索文本之间的相似度。4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述第一概率以及所述第二概率确定所述第一搜索文本与所述第二搜索文本之间的相似度,包括:计算所述多个第一字节片段的第一概率的乘积,得到所述第一搜索文本对应的第三概率;计算所述多个第二字节片段的第二概率的乘积,得到所述第二搜索文本对应的第四概率;根据所述第三...

【专利技术属性】
技术研发人员:李宣平袁勇
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1