System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及计算机,特别涉及一种搜索文本分类方法、装置、计算机设备及存储介质。
技术介绍
1、在搜索领域中,为了提高搜索的准确性,可以结合搜索文本所属的类别进行搜索,在该类别下更容易搜索到用户感兴趣的搜索结果,例如搜索文本所属的类别包括电影、电视剧、动漫、纪录片、体育、游戏或者音乐等。
2、相关技术中,在获取到搜索文本后,提取该搜索文本的文本特征,然后利用文本特征进行分类,得到该搜索文本所属的类别。但是,由于该方法仅考虑了搜索文本的文本特征,因此分类效果不够好。
技术实现思路
1、本申请实施例提供了一种搜索文本分类方法、装置、计算机设备及存储介质,能够提高对搜索文本进行分类的准确性。所述技术方案如下:
2、一方面,提供了一种搜索文本分类方法,所述方法包括:
3、获取待分类的搜索文本和所述搜索文本对应的多个搜索结果,所述多个搜索结果包括所述搜索文本对应的被执行交互操作的历史搜索结果;
4、基于所述多个搜索结果所属的预设类别,确定所述搜索文本的参考类别信息,所述参考类别信息包括所述搜索文本属于多种预设类别的参考概率;
5、基于所述搜索文本和所述参考类别信息,获取所述搜索文本的融合特征;
6、基于所述融合特征对所述搜索文本进行分类,得到所述搜索文本的预测类别信息,所述预测类别信息包括所述搜索文本属于所述多种预设类别的预测概率,所述预测类别信息用于确定所述搜索文本所属的预设类别。
7、可选地,所述基于所
8、提取所述搜索文本的文本特征;
9、提取所述参考类别信息的类别特征;
10、将所述文本特征和所述类别特征进行融合,得到所述融合特征。
11、可选地,所述方法还包括:
12、在未存储所述搜索文本对应的搜索结果的情况下,将预设类别信息确定为所述搜索文本的参考类别信息。
13、可选地,所述特征提取网络包括第一提取层、第二提取层和特征融合层,所述调用所述特征提取网络,基于所述搜索文本和所述参考类别信息,获取所述融合特征,包括:
14、调用所述第一提取层,提取所述搜索文本的文本特征;
15、调用所述第二提取层,提取所述参考类别信息的类别特征;
16、调用所述特征融合层,将所述文本特征和所述类别特征进行融合,得到所述融合特征。
17、可选地,所述分类网络包括多个维度对应的特征映射层、每种预设类别的加权层和分类层;所述调用所述分类网络,基于所述融合特征对所述搜索文本进行分类,得到所述预测类别信息,包括:
18、分别调用所述多个特征映射层,基于所述文本特征,提取所述多个维度的映射特征;
19、分别调用每种预设类别的加权层,基于所述文本特征,确定每种预设类别的权重组,所述权重组包括所述多个维度的权重,所述权重表示任一文本在所述维度上的特征对所述文本是否属于所述预设类别的影响程度;
20、分别调用每种预设类别的加权层,按照每种预设类别的权重组中的多个权重,对所述多个维度的映射特征进行加权融合,得到每种预设类别的分类特征;
21、分别调用每种预设类别的分类层,基于每种预设类别的分类特征进行分类,得到每种预设类别对应的预测概率。
22、另一方面,提供了一种搜索文本分类装置,所述装置包括:
23、第一获取模块,用于获取待分类的搜索文本和所述搜索文本对应的多个搜索结果,所述多个搜索结果包括所述搜索文本对应的被执行交互操作的历史搜索结果;
24、信息确定模块,用于基于所述多个搜索结果所属的预设类别,确定所述搜索文本的参考类别信息,所述参考类别信息包括所述搜索文本属于多种预设类别的参考概率;
25、第二获取模块,用于基于所述搜索文本和所述参考类别信息,获取所述搜索文本的融合特征;
26、分类模块,用于基于所述融合特征对所述搜索文本进行分类,得到所述搜索文本的预测类别信息,所述预测类别信息包括所述搜索文本属于所述多种预设类别的预测概率,所述预测类别信息用于确定所述搜索文本所属的预设类别。
27、可选地,所述信息确定模块,用于:
28、确定每种预设类别的第一数量,所述第一数量是指所述多个搜索结果中属于所述预设类别且被执行交互操作的历史搜索结果的数量;
29、将每种预设类别的第一数量和所述多个搜索结果的总数量之间的第一比值,确定为每种预设类别对应的参考概率。
30、可选地,所述多个搜索结果还包括所述搜索文本对应的未被执行交互操作的历史搜索结果;所述信息确定模块,用于:
31、确定每种预设类别的第二数量,所述第二数量是指所述多个搜索结果中属于所述预设类别的历史搜索结果的数量;确定每种预设类别的所述第二数量和所述多个搜索结果的总数量之间的第二比值;
32、确定每种预设类别的第三数量,所述第三数量是指所述多个搜索结果中属于所述预设类别且被执行交互操作的历史搜索结果的数量;确定每种预设类别的所述第三数量和被执行交互操作的历史搜索结果的总数量之间的第三比值;
33、分别将每种预设类别的所述第二比值和所述第三比值进行加权融合,得到每种预设类别对应的参考概率。
34、可选地,所述分类模块,用于:
35、基于所述融合特征,提取多个维度的映射特征;
36、基于所述融合特征,确定每种预设类别的权重组,所述权重组包括所述多个维度的权重,所述权重表示任一文本在所述维度上的特征对所述文本是否属于所述预设类别的影响程度;
37、按照每种预设类别的权重组中的多个权重,分别对所述多个维度的映射特征进行加权融合,得到每种预设类别的分类特征;
38、分别基于每种预设类别的分类特征对所述搜索文本进行分类,得到每种预设类别对应的预测概率。
39、可选地,所述第二获取模块,用于:
40、提取所述搜索文本的文本特征;
41、提取所述参考类别信息的类别特征;
42、将所述文本特征和所述类别特征进行融合,得到所述融合特征。
43、可选地,所述装置还包括搜索模块,用于:
44、将所述预测概率最大的预设类别确定为所述搜索文本所属的预设类别;
45、基于所述搜索文本所属的预设类别和所述搜索文本对应的多个候选搜索结果所属的预设类别,确定所述搜索文本与每个候选搜索结果之间的相关度;
46、将相关度满足相关条件的候选搜索结果确定为基于所述搜索文本搜索到的搜索结果。
47、可选地,所述装置还包括类别确定模块,用于:
48、获取数据库中的候选搜索结果所属的多种类别;
49、确定每种类别对应的第四数量,所述第四数量是指所述数据库中属于所述类别的候选搜索结果的数量;
<本文档来自技高网...【技术保护点】
1.一种搜索文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个搜索结果所属的预设类别,确定所述搜索文本的参考类别信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述多个搜索结果还包括所述搜索文本对应的未被执行交互操作的历史搜索结果;所述基于所述多个搜索结果所属的预设类别,确定所述搜索文本的参考类别信息,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述融合特征对所述搜索文本进行分类,得到所述搜索文本的预测类别信息,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述融合特征对所述搜索文本进行分类,得到所述搜索文本的预测类别信息之后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述多个搜索结果所属的预设类别,确定所述搜索文本的参考类别信息之前,所述方法还包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,文本分类模型包括特征提取网络和分类网络,所述基于所述搜索文本和所述参考类别信息,获取所述搜索文本的
8.根据权利要求7所述的方法,其特征在于,所述文本分类模型的训练过程,包括:
9.根据权利要求8所述的方法,其特征在于,所述特征提取网络包括第一提取层、第二提取层和特征融合层,所述调用所述特征提取网络,基于所述第一样本搜索文本和所述第一参考类别信息,获取所述第一样本搜索文本的样本融合特征,包括:
10.根据权利要求8所述的方法,其特征在于,所述分类网络包括多个维度对应的特征映射层、每种预设类别的加权层和分类层;所述调用所述分类网络,基于所述样本融合特征对所述第一样本搜索文本进行分类,得到第一预测类别信息,包括:
11.根据权利要求8所述的方法,其特征在于,所述基于所述第一样本搜索文本的第一真实类别信息和所述第一预测类别信息,训练所述文本分类模型之后,所述方法还包括:
12.根据权利要求8所述的方法,其特征在于,所述基于所述第一样本搜索文本的第一真实类别信息和所述第一预测类别信息,训练所述文本分类模型,以使训练后的所述文本分类模型得到的第一预测类别信息与所述第一真实类别信息之间的相似度增大,包括:
13.一种搜索文本分类装置,其特征在于,所述装置包括:
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如权利要求1至12任一项所述的搜索文本分类方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如权利要求1至12任一项所述的搜索文本分类方法所执行的操作。
...【技术特征摘要】
1.一种搜索文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个搜索结果所属的预设类别,确定所述搜索文本的参考类别信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述多个搜索结果还包括所述搜索文本对应的未被执行交互操作的历史搜索结果;所述基于所述多个搜索结果所属的预设类别,确定所述搜索文本的参考类别信息,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述融合特征对所述搜索文本进行分类,得到所述搜索文本的预测类别信息,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述融合特征对所述搜索文本进行分类,得到所述搜索文本的预测类别信息之后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述多个搜索结果所属的预设类别,确定所述搜索文本的参考类别信息之前,所述方法还包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,文本分类模型包括特征提取网络和分类网络,所述基于所述搜索文本和所述参考类别信息,获取所述搜索文本的融合特征,包括:
8.根据权利要求7所述的方法,其特征在于,所述文本分类模型的训练过程,包括:
9.根据权利要求8所述的方法,其特征在于,所述特征提取网络包括第一提取层、第二提取层和特征融合层,所述调用所述特征提取网络,基于所述第...
【专利技术属性】
技术研发人员:黄婷,
申请(专利权)人:腾讯科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。