System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开的实施方式涉及计算机,更具体地,本公开的实施方式涉及一种提升搜索意图的识别性能方法、装置、存储介质。
技术介绍
1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、现有搜索服务主要是根据用户输入的搜索内容筛选与搜索内容相关的搜索结果。但是,基于用户使用经验或者表达能力的不足,可能输入的搜索内容与自身想要搜索的内容之间存在差异,导致搜索结果无法满足用户的期望。
3、为此,业内提出了一种通过用户输入的搜索内容来识别搜素意图的思路,以期提高检索的准确性;然而,基于现有的相关技术识别的搜索意图依然存在准确性低的问题。
技术实现思路
1、在本公开实施方式的第一方面中,提供了一种提升搜索意图的识别性能方法。所述方法包括:
2、获取标注有搜索意图的训练样本;
3、对所述训练样本进行训练,得到用于识别搜索意图的识别模型;
4、对基于所述训练样本构建的单意图测试用例进行扩展处理,得到多意图测试用例;
5、执行由所述多意图测试用例与回归测试用例构成的全量测试用例集,以对所述训练得到的识别模型进行模型测试;其中,所述模型测试通过的识别模型用于识别线上产生的搜索请求所对应的搜索意图。
6、可选的,所述对基于所述训练样本构建的单意图测试用例进行扩展处理,得到多意图测试用例,包括:
7、获取基于所述训练样本构建的单意图测试用例;
8、将所述单意图
9、可选的,所述对基于所述训练样本构建的单意图测试用例进行扩展处理,得到多意图测试用例,包括:
10、获取基于所述训练样本构建的单意图测试用例;
11、将预设的不同词类的词库中的词语,与所述单意图测试用例进行组合,生成多意图测试用例。
12、可选的,所述将预设的不同词类的词库中的词语,与所述单意图测试用例进行组合,生成多意图测试用例,包括以下至少一种:
13、使用动词库中的动词,与任意两个的所述单意图测试用例进行组合,生成多意图测试用例;
14、使用连接词库中的连接词连接任意两个的单意图测试用例,得到多意图测试用例。
15、可选的,在所述执行由所述多意图测试用例与回归测试用例构成的全量测试用例集,以对所述训练得到的识别模型进行模型测试之后,还包括:
16、响应于执行成功的第一多意图测试用例,对所述第一多意图测试用例进行去重,并将去重后的所述第一多意图测试用例加入所述回归测试用例;
17、响应于连续预设次数执行失败的第二多意图测试用例,确定执行失败的原因是否是用例逻辑错误,以及响应于执行失败的原因不是用例逻辑错误的第三多意图测试用例,将所述第三多意图测试用例加入所述回归测试用例。
18、可选的,在基于所述训练样本构建的单意图测试用例之前,还包括:
19、在离线环境中,将所述训练样本分别输入所述训练得到的识别模型和线上使用的识别模型,基于所述训练得到的识别模型对所述训练样本的识别结果与训练样本中标注结果的差异,计算预设指标对应的第一指标数据;以及,基于所述线上使用的识别模型对所述训练样本的识别结果与训练样本中标注结果的差异,计算预设指标对应的第二指标数据;
20、响应于所述第一指标数据优于所述第二指标数据,将所述线上使用的识别模型替换为所述训练得到的识别模型。
21、可选的,所述预设指标包括准确率、精确率、召回率、f1值中的至少一种。
22、可选的,所述标注有搜索意图的训练样本包括人工标注的搜索意图的训练样本。
23、可选的,所述获取标注有搜索意图的训练样本,包括:
24、从待标注搜索意图的候选样本中选取预设数量的候选样本构建预标注集,并确定所述预标注集的标准标注结果;
25、将所述预标注集推送给各个人工标注方,接收各个人工标注方返回的预标注集的标注结果;以及,响应于所述预标注集的标注结果与所述标准标注结果的一致性达到阈值,向对应的人工标注方推送剩余待标注的候选样本;
26、接收各个人工标注方返回的所述剩余待标注的候选样本的标注结果,计算每个候选样本返回的标注结果中相同标注结果数量的占比;
27、将占比达到预设比例的标注结果作为对应的候选样本的最终标注结果,并将确定了最终标注结果的候选样本作为训练样本。
28、可选的,所述搜索意图包括音乐搜索意图。
29、在本公开实施方式的第二方面中,提供了一种提升搜索意图的识别性能装置,所述装置包括:
30、获取单元,获取标注有搜索意图的训练样本;
31、训练单元,对所述训练样本进行训练,得到用于识别搜索意图的识别模型;
32、扩展单元,对基于所述训练样本构建的单意图测试用例进行扩展处理,得到多意图测试用例;
33、提升单元,执行由所述多意图测试用例与回归测试用例构成的全量测试用例集,以对所述训练得到的识别模型进行模型测试;其中,所述模型测试通过的识别模型用于识别线上产生的搜索请求所对应的搜索意图。
34、可选的,所述扩展单元,包括:
35、获取子单元,获取基于所述训练样本构建的单意图测试用例;
36、第一组合子单元,将所述单意图测试用例进行两两组合,生成由两个单意图测试用例构建而成的多意图测试用例。
37、可选的,所述扩展单元,包括:
38、获取子单元,获取基于所述训练样本构建的单意图测试用例;
39、第二组合子单元,将预设的不同词类的词库中的词语,与所述单意图测试用例进行组合,生成多意图测试用例。
40、可选的,所述第二组合子单元,进一步用于使用动词库中的动词,与任意两个的所述单意图测试用例进行组合,生成多意图测试用例;和/或使用连接词库中的连接词连接任意两个的单意图测试用例,得到多意图测试用例。
41、可选的,在所述提升单元之后,还包括:
42、补充单元,响应于执行成功的第一多意图测试用例,对所述第一多意图测试用例进行去重,并将去重后的所述第一多意图测试用例加入所述回归测试用例;或者,响应于连续预设次数执行失败的第二多意图测试用例,确定执行失败的原因是否是用例逻辑错误,以及响应于执行失败的原因不是用例逻辑错误的第三多意图测试用例,将所述第三多意图测试用例加入所述回归测试用例。
43、可选的,在所述扩展单元之前,还包括:
44、第一计算子单元,在离线环境中,将所述训练样本分别输入所述训练得到的识别模型和线上使用的识别模型,基于所述训练得到的识别模型对所述训练样本的识别结果与训练样本中标注结果的差异,计算预设指标对应的第一指标数据;以及,基于所述线上使用的识别模型对所述训练样本的识别结果与训练样本中标注本文档来自技高网...
【技术保护点】
1.一种提升搜索意图的识别性能方法,包括:
2.根据权利要求1所述的方法,所述对基于所述训练样本构建的单意图测试用例进行扩展处理,得到多意图测试用例,包括:
3.根据权利要求1所述的方法,所述对基于所述训练样本构建的单意图测试用例进行扩展处理,得到多意图测试用例,包括:
4.根据权利要求3所述的方法,所述将预设的不同词类的词库中的词语,与所述单意图测试用例进行组合,生成多意图测试用例,包括以下至少一种:
5.根据权利要求1所述的方法,在所述执行由所述多意图测试用例与回归测试用例构成的全量测试用例集,以对所述训练得到的识别模型进行模型测试之后,还包括:
6.根据权利要求1所述的方法,在基于所述训练样本构建的单意图测试用例之前,还包括:
7.根据权利要求6所述的方法,所述预设指标包括准确率、精确率、召回率、F1值中的至少一种。
8.一种提升搜索意图的识别性能装置,所述装置包括:
9.一种计算机可读存储介质,包括:
10.一种计算设备,包括:
【技术特征摘要】
1.一种提升搜索意图的识别性能方法,包括:
2.根据权利要求1所述的方法,所述对基于所述训练样本构建的单意图测试用例进行扩展处理,得到多意图测试用例,包括:
3.根据权利要求1所述的方法,所述对基于所述训练样本构建的单意图测试用例进行扩展处理,得到多意图测试用例,包括:
4.根据权利要求3所述的方法,所述将预设的不同词类的词库中的词语,与所述单意图测试用例进行组合,生成多意图测试用例,包括以下至少一种:
5.根据权利要求1所述...
【专利技术属性】
技术研发人员:虞学良,李敏,谢蕾,赵丰,马溪镇,
申请(专利权)人:杭州网易云音乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。