System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 搜索联想词生成方法及电子设备和计算机可读存储介质技术_技高网

搜索联想词生成方法及电子设备和计算机可读存储介质技术

技术编号:42666999 阅读:22 留言:0更新日期:2024-09-10 12:22
本申请公开了一种搜索联想词生成方法、装置及一种电子设备和计算机可读存储介质,该方法包括:将搜索词集合中的多个搜索词输入训练完成的纠错模型中,得到搜索词对应的纠错词和纠错概率;以纠错词为聚类中心,对同一纠错词对应的搜索词进行聚类;生成搜索词对应的向量表示,根据搜索词的向量表示与搜索词所属类别的聚类中心的向量表示之间的相似度计算搜索词对应的相似度分数;将搜索词对应的纠错概率和相似度分数输入训练完成的判别模型中,以判别搜索词是否属于对应的类别,去除不属于对应的类别的搜索词得到最终的聚类结果;获取目标搜索词,根据最终的聚类结果生成目标搜索词对应的搜索联想词。本申请提高了生成搜索联想词的准确性。

【技术实现步骤摘要】

本申请涉及音乐,更具体地说,涉及搜索联想词生成方法及电子设备和计算机可读存储介质


技术介绍

1、随着数字音乐和移动音乐的快速发展,海量的歌曲创作诞生,导致用户十分容易记错歌曲名,在搜索过程中搜索错误的歌曲名,搜索联想词能够依据用户输入搜索框的部分短语推荐用户想要搜索的词语,起到为用户提示正确规范的词语的作用。但是,由于搜索联想词引入了很多用户搜索的词,包括一些存在错别字的歌曲名称,导致生成搜索联想词的结果十分混乱,给用户也造成了困扰,并不能很好满足用户的需求。

2、因此,如何提高生成搜索联想词的准确性是本领域技术人员需要解决的技术问题。


技术实现思路

1、本申请的目的在于提供一种搜索联想词生成方法、装置及一种服务器和一种计算机可读存储介质,提高了生成搜索联想词的准确性。

2、为实现上述目的,本申请第一方面提供了一种搜索联想词生成方法,包括:

3、将搜索词集合中的多个搜索词输入训练完成的纠错模型中,得到所述搜索词对应的纠错词和纠错概率;

4、以所述纠错词为聚类中心,对同一纠错词对应的搜索词进行聚类;

5、生成所述搜索词对应的向量表示,根据所述搜索词的向量表示与所述搜索词所属类别的聚类中心的向量表示之间的相似度计算所述搜索词对应的相似度分数;

6、将所述搜索词对应的纠错概率和相似度分数输入训练完成的判别模型中,以判别所述搜索词是否属于对应的类别,去除不属于对应的类别的搜索词得到最终的聚类结果;

7、获取目标搜索词,根据所述最终的聚类结果生成所述目标搜索词对应的搜索联想词。

8、其中,所述根据所述最终的聚类结果生成所述目标搜索词对应的搜索联想词,包括:

9、生成所述目标搜索词对应的候选搜索联想词,在所述最终的聚类结果中确定所述候选搜索联想词对应的聚类中心,将所述聚类中心作为所述目标搜索词对应的搜索联想词。

10、其中,所述将搜索词集合中的多个搜索词输入训练完成的纠错模型中之前,还包括:

11、获取训练搜索词的点击数据,基于点击同一文档的训练搜索词构建训练搜索词对;

12、对所述训练搜索词对中的训练搜索词进行标注;其中,标注结果包括正确和错误;

13、利用所述训练搜索词对和所述训练搜索词对中训练搜索词的标注结果训练纠错模型,得到训练完成的纠错模型。

14、其中,所述纠错模型包括神经机器翻译模型或基于transformer的双向编码器表示模型。

15、其中,所述生成所述搜索词对应的向量表示,包括:

16、将所述搜索词、所述搜索词的搜索结果和点击行为输入训练完成的向量表示模型中,以生成所述搜索词对应的向量表示。

17、其中,将所述搜索词、所述搜索词的搜索结果和点击行为输入训练完成的向量表示模型中之前,还包括:

18、获取训练搜索词的搜索结果和点击行为,对所述训练搜索词进行向量表示的标注;

19、利用所述训练搜索词的搜索结果、点击行为和标注的向量表示训练向量表示模型,得到训练完成的向量表示模型。

20、其中,将所述搜索词对应的纠错概率和相似度分数输入训练完成的判别模型中之前,还包括:

21、将训练搜索词输入训练完成的纠错模型中,得到所述训练搜索词对应的训练纠错词和纠错概率;

22、以所述训练纠错词为聚类中心,对同一训练纠错词对应的训练搜索词进行聚类;

23、生成所述训练搜索词对应的向量表示,根据所述训练搜索词的向量表示与所述训练搜索词所属类别的聚类中心的向量表示之间的相似度计算所述训练搜索词对应的相似度分数;

24、对所述训练搜索词进行标注;其中,标注结果包括是否属于对应的类别;

25、利用所述训练搜索词和所述训练搜索词的标注结果训练判别模型,得到训练完成的判别模型。

26、其中,所述根据所述搜索词的向量表示与所述搜索词所属类别的聚类中心的向量表示之间的相似度计算所述搜索词对应的相似度分数,包括:

27、计算所述搜索词的向量表示与所述搜索词所属类别的聚类中心的向量表示之间的余弦相似度作为所述搜索词对应的相似度分数。

28、为实现上述目的,本申请第二方面提供了一种电子设备,包括:

29、存储器,用于存储计算机程序;

30、处理器,用于执行所述计算机程序时实现如上述搜索联想词生成方法的步骤。

31、为实现上述目的,本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述搜索联想词生成方法的步骤。

32、通过以上方案可知,本申请提供的一种搜索联想词生成方法,包括:将搜索词集合中的多个搜索词输入训练完成的纠错模型中,得到所述搜索词对应的纠错词和纠错概率;以所述纠错词为聚类中心,对同一纠错词对应的搜索词进行聚类;生成所述搜索词对应的向量表示,根据所述搜索词的向量表示与所述搜索词所属类别的聚类中心的向量表示之间的相似度计算所述搜索词对应的相似度分数;将所述搜索词对应的纠错概率和相似度分数输入训练完成的判别模型中,以判别所述搜索词是否属于对应的类别,去除不属于对应的类别的搜索词得到最终的聚类结果;获取目标搜索词,根据所述最终的聚类结果生成所述目标搜索词对应的搜索联想词。

33、在本申请中,通过纠错模型对搜索词进行纠错,避免后续生成错误的搜索联想词。以纠错词为聚类中心对同一纠错词对应的搜索词进行聚类,实现后续搜索联想词的生成。进一步的,通过判别模型去除各类别中不属于该类别的搜索词得到最终的聚类结果,提高了搜索词聚类的准确性,进而提高了生成搜索联想词的准确性。由此可见,本申请提供的搜索联想词生成方法,提高了生成搜索联想词的准确性。本申请还公开了一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。

34、应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。

本文档来自技高网...

【技术保护点】

1.一种搜索联想词生成方法,其特征在于,包括:

2.根据权利要求1所述搜索联想词生成方法,其特征在于,所述根据所述最终的聚类结果生成所述目标搜索词对应的搜索联想词,包括:

3.根据权利要求1所述搜索联想词生成方法,其特征在于,所述将搜索词集合中的多个搜索词输入训练完成的纠错模型中之前,还包括:

4.根据权利要求3所述搜索联想词生成方法,其特征在于,所述纠错模型包括神经机器翻译模型或基于Transformer的双向编码器表示模型。

5.根据权利要求1所述搜索联想词生成方法,其特征在于,所述生成所述搜索词对应的向量表示,包括:

6.根据权利要求5所述搜索联想词生成方法,其特征在于,将所述搜索词、所述搜索词的搜索结果和点击行为输入训练完成的向量表示模型中之前,还包括:

7.根据权利要求1所述搜索联想词生成方法,其特征在于,将所述搜索词对应的纠错概率和相似度分数输入训练完成的判别模型中之前,还包括:

8.根据权利要求1所述搜索联想词生成方法,其特征在于,所述根据所述搜索词的向量表示与所述搜索词所属类别的聚类中心的向量表示之间的相似度计算所述搜索词对应的相似度分数,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述搜索联想词生成方法的步骤。

...

【技术特征摘要】

1.一种搜索联想词生成方法,其特征在于,包括:

2.根据权利要求1所述搜索联想词生成方法,其特征在于,所述根据所述最终的聚类结果生成所述目标搜索词对应的搜索联想词,包括:

3.根据权利要求1所述搜索联想词生成方法,其特征在于,所述将搜索词集合中的多个搜索词输入训练完成的纠错模型中之前,还包括:

4.根据权利要求3所述搜索联想词生成方法,其特征在于,所述纠错模型包括神经机器翻译模型或基于transformer的双向编码器表示模型。

5.根据权利要求1所述搜索联想词生成方法,其特征在于,所述生成所述搜索词对应的向量表示,包括:

6.根据权利要求5所述搜索联想词生成方法,其特征在于,将...

【专利技术属性】
技术研发人员:万鑫瑞周蓝珺潘树燊
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1