System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 搜索词包确定方法、装置、电子设备及存储介质制造方法及图纸_技高网

搜索词包确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41128028 阅读:2 留言:0更新日期:2024-04-30 17:56
本申请公开了一种搜索词包确定方法、装置、电子设备及存储介质,其中,方法包括:获取多个搜索词以及与多个搜索词对应的多个召回结果;基于多个召回结果,确定每个搜索词的搜索指标,其中,搜索指标为每个搜索词与第一搜索词之间搜索相关的价值指标,第一搜索词为多个搜索词中除去每个搜索词后剩余的搜索词;在多个搜索词中确定用于表征目标行业的行业词;基于行业词与第二搜索词的搜索指标,确定目标行业的搜索词包,其中,第二搜索词为多个搜索词中除去行业词后剩余的搜索词。使用本方法可以实现行业搜索词包的自动生成,降低行业词包的生成成本。

【技术实现步骤摘要】

本专利技术涉及搜索词包确定,具体涉及一种搜索词包确定方法、装置、电子设备及存储介质


技术介绍

1、为了便于检索,每个行业通常会定义一些搜索词,在用户通过这些搜索词进行搜索时,显示对应行业的数据供用户浏览。目前常见的定义方法是人工定义行业所对应的词包并进行模糊匹配。例如:对于男士面霜行业,人工的定义的方法通常将“男”和“面霜”两个词作为条件,对搜索词条进行模糊匹配。

2、但是,这种方法需要大量的前期准备工作获取行业相关的数据进行分析,以提升人工定义的搜索词的准确性。这些工作都需要投入大量的人力,导致现有的方法在人力成本高的同时,获取行业搜索词包的效率也比较低。


技术实现思路

1、为了解决现有技术中存在的上述问题,本申请实施方式提供了一种搜索词包确定方法、装置、电子设备及存储介质,可以实现行业搜索词包的自动生成,降低行业词包的生成成本,提升生成效率。

2、第一方面,本申请的实施方式提供了一种搜索词包确定方法,该方法包括:

3、获取多个搜索词以及与多个搜索词对应的多个召回结果;

4、基于多个召回结果,确定每个搜索词的搜索指标,其中,搜索指标为每个搜索词与第一搜索词之间搜索相关的价值指标,第一搜索词为多个搜索词中除去每个搜索词后剩余的搜索词;

5、在多个搜索词中确定用于表征目标行业的行业词;

6、基于行业词与第二搜索词的搜索指标,确定目标行业的搜索词包,其中,第二搜索词为多个搜索词中除去行业词后剩余的搜索词。

7、在一种可能的实施方式中,每个搜索词的搜索指标包括每个搜索词与剩余的第一搜索词之间的相关系数,以及每个搜索词的搜索热度;

8、基于多个召回结果,确定每个搜索词的搜索指标,包括:

9、基于多个召回结果的访问记录,确定任意两个搜索词之间的相关系数;

10、基于每个搜索词与第一搜索词之间的相关系数,确定每个搜索词的搜索热度。

11、在一种可能的实施方式中,基于多个召回结果的访问记录,确定任意两个搜索词之间的相关系数,包括:

12、基于多个召回结果的访问记录,确定每个召回结果的访问总次数,以及每个召回结果与该召回结果对应的搜索词之间的关联访问次数,其中,关联访问次数为通过对应的搜索词搜索出该召回结果时,对该召回结果进行访问的次数;

13、基于每个召回结果的访问总次数、以及每个召回结果与该召回结果对应的搜索词之间的关联访问次数,确定任意两个搜索词之间的相关系数。

14、在一种可能的实施方式中,基于行业词与第二搜索词的搜索指标,确定目标行业的搜索词包,包括:

15、基于行业词与第二搜索词之间的相关系数,以及行业词与第二搜索词的搜索热度,在第二搜索词中确定多个行业搜索词,其中,每个行业搜索词与行业词之间的相关系数大于第一阈值,行业词的搜索热度与每个行业搜索词的搜索热度的比值大于第二阈值;

16、将行业词和多个行业搜索词作为行业词对应的行业的搜索词包。

17、在一种可能的实施方式中,在多个搜索词中确定用于表征目标行业的行业词,包括:

18、将多个搜索词与预设的行业词典进行匹配,确定行业词,其中,行业词典预先记载了多个行业词。

19、在一种可能的实施方式中,在将多个搜索词与预设的行业词典进行匹配,确定行业词之前,方法还包括:

20、获取商业类目表中不可分割的多个最小商业类目;

21、将每个最小商业类目的商品名称作为每个最小商业类目对应的行业的行业词;

22、基于多个行业词生成行业词典。

23、在一种可能的实施方式中,多个召回结果为通过多个搜索词中的任意一个搜索词搜索出并进行有效访问的数据,其中,有效访问指对每个召回结果的访问时间大于该召回结果的数据类型对应的有效访问时间阈值。

24、在一种可能的实施方式中,方法还包括:

25、获取目标行业的历史搜索词包;

26、基于搜索词包和历史搜索词包,确定多个第一差别词、多个第二差别词和多个共有词,其中,每个第一差别词为搜索词包中有而历史词包中没有的词,每个第二差别词为历史搜索词包中有而搜索词包中没有的词;

27、对第一差别词和第二差别词进行筛选,得到多个目标词;

28、将多个目标词和多个共有词作为搜索词包对应的行业的搜索词包。

29、在一种可能的实施方式中,对第一差别词和第二差别词进行筛选,得到多个目标词,包括:

30、基于每个第一差别词与每个第二差别词之间的相似度,在多个第一差别词和多个第二差别词中确定多个差别词组,其中,每个差别词组包括第三差别词和第四差别词,多个第一差别词包括第三差别词,多个第二差别词包括第四差别词,第三差别词和第四差别词之间的相似度大于第三阈值;

31、对每个差别词组进行筛选,得到多个第五差别词;

32、将多个第五差别词,和多个第一差别词和多个第二差别词中除去多个差别词组中的差别词后剩余的差别词,作为多个目标词。

33、在一种可能的实施方式中,对每个差别词组进行筛选,得到多个第五差别词,包括:

34、确定每个差别词组中,第三差别词和第四差别词在预设时间段内的使用热度;

35、若第四差别词的使用热度大于或等于第三差别词的使用热度,将第三差别词和第四差别词确定为每个差别词组的保留词;

36、若第四差别词的使用热度小于第三差别词的使用热度,确定第三差别词的使用热度与第四差别词的使用热度的差;

37、若第三差别词的使用热度与第四差别词的使用热度的差大于第四阈值,将第三差别词确定为每个差别词组的保留词;

38、若第三差别词的使用热度与第四差别词的使用热度的差小于或等于第四阈值,将第三差别词和第四差别词确定为每个差别词组的保留词;

39、将多个差别词组对应的保留词,作为多个第五差别词。

40、在一种可能的实施方式中,方法还包括:

41、获取搜索词包中的多个品牌词;

42、基于每个品牌词的搜索热度,将多个品牌词进行排序,得到搜索词包对应的行业的品牌排名。

43、在一种可能的实施方式中,方法还包括:

44、获取搜索词包中每个搜索词的搜索次数;

45、基于每个搜索词的搜索次数,确定搜索词包对应的行业的搜索趋势。

46、第二方面,本申请的实施方式提供了一种搜索词包确定装置,包括:

47、获取模块,用于获取多个搜索词以及与多个搜索词对应的多个召回结果;

48、分析模块,用于基于多个召回结果,确定每个搜索词的搜索指标,其中,搜索指标为每个搜索词与第一搜索词之间搜索相关的价值指标,第一搜索词为多个搜索词中除去每个搜索词后剩余的搜索词;

49、确定模块,用于在多个搜索词中确定用于表征目标行业的行业词;

5本文档来自技高网...

【技术保护点】

1.一种搜索词包确定方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,所述基于所述多个召回结果的访问记录,确定任意两个搜索词之间的相关系数,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述基于所述行业词与第二搜索词的搜索指标,确定所述目标行业的搜索词包,包括:

5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述在所述多个搜索词中确定用于表征目标行业的行业词,包括:

6.根据权利要求5所述的方法,其特征在于,在将所述多个搜索词与预设的行业词典进行匹配,确定所述行业词之前,所述方法还包括:

7.根据权利要求1-6中任意一项所述的方法,其特征在于,

8.根据权利要求1-7中任意一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求8所述的方法,其特征在于,所述对所述第一差别词和所述第二差别词进行筛选,得到多个目标词,包括:

10.根据权利要求9所述的方法,其特征在于,所述对所述每个差别词组进行筛选,得到多个第五差别词,包括:

11.根据权利要求1-10中任意一项所述的方法,其特征在于,所述方法还包括:

12.根据权利要求1-11中任意一项所述的方法,其特征在于,所述方法还包括:

13.一种搜索词包确定装置,其特征在于,所述装置包括:

14.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述一个或多个程序包括用于执行权利要求1-12任一项所述的方法中的步骤的指令。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-12任一项所述的方法。

...

【技术特征摘要】

1.一种搜索词包确定方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,所述基于所述多个召回结果的访问记录,确定任意两个搜索词之间的相关系数,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述基于所述行业词与第二搜索词的搜索指标,确定所述目标行业的搜索词包,包括:

5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述在所述多个搜索词中确定用于表征目标行业的行业词,包括:

6.根据权利要求5所述的方法,其特征在于,在将所述多个搜索词与预设的行业词典进行匹配,确定所述行业词之前,所述方法还包括:

7.根据权利要求1-6中任意一项所述的方法,其特征在于,

8.根据权利要求1-7中任意一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求8所述的方法,其特征在...

【专利技术属性】
技术研发人员:王星华
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1