一种模型训练的方法及装置制造方法及图纸

技术编号:29933089 阅读:28 留言:0更新日期:2021-09-04 19:04
本说明书公开了一种模型训练的方法及装置,可以获取构建出的样本集,其中,针对该样本集中包含的每个训练样本,该训练样本包含搜索语句以及与该搜索语句对应的搜索结果,该搜索结果包括第一类搜索结果、第二类搜索结果中的至少一种,第一类搜索结果包括从公共网络中搜索出的与该训练样本包含的搜索语句相关的网络搜索信息,而后,业务平台若确定该训练样本中包含有第一类搜索结果,根据该训练样本的搜索语句与第一类搜索结果之间的相关程度,对第一类搜索结果进行标注,得到已标注的第一类搜索结果,并通过已标注的第一类搜索结果和/或已标注的第二类搜索结果,对排序模型进行训练,通过本方法训练排序模型,更准确地对各搜索结果进行排序。索结果进行排序。索结果进行排序。

【技术实现步骤摘要】
一种模型训练的方法及装置


[0001]本说明书涉及计算机
,尤其涉及一种模型训练的方法及装置。

技术介绍

[0002]随着计算机技术的不断发展,用户可以根据自身的实际需求,在业务平台上输入相应的搜索语句,业务平台将搜索出与该搜索语句相匹配的搜索结果,并展示给用户进行查看。
[0003]业务平台通常使用预先训练的排序模型,对搜索结果进行排序,排序模型的训练通常都是基于各用户对搜索结果的实际点击情况来完成的,即,通常情况下,用户执行过点击操作的搜索结果作为正样本,用户未执行过点击操作的搜索结果作为负样本,通过标注出的正负样本,对排序模型进行训练。
[0004]然而在实际应用中,用户可能会输入一些询问公共知识的搜索语句,这种搜索语句对应的搜索结果与搜索语句本身之间的相关性,往往是与用户在历史上是否会点击这些搜索结果无关的。
[0005]例如,用户搜索世界上最高山峰的时候,珠穆朗玛峰这一搜索结果无论用户是否点击,都是与这一搜索语句最相关的,但是,将珠穆朗玛峰这一搜索结果在排序页面中展示的时候,用户可能通过该排序页面已经知道了答案,所以,不会对珠穆朗玛峰这一搜索结果产生点击操作。在这种情况下,以用户对搜索结果的实际点击情况来训练得到的排序模型,往往并不能对搜索语句对应的搜索结果进行合理的排序。

技术实现思路

[0006]本说明书提供一种模型训练的方法及装置,以部分的解决现有技术存在的上述问题。
[0007]本说明书采用下述技术方案:
[0008]本说明书提供了一种模型训练的方法,包括:
[0009]获取构建出的样本集,其中,针对所述样本集中包含的每个训练样本,该训练样本包含搜索语句以及与所述搜索语句对应的搜索结果,所述搜索结果包括第一类搜索结果、第二类搜索结果中的至少一种,所述第一类搜索结果包括从公共网络中搜索出的与该训练样本包含的搜索语句相关的网络搜索信息,所述第二类搜索结果包括在业务平台中搜索出的与该训练样本包含的搜索语句相匹配的业务对象;
[0010]若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类搜索结果进行标注,得到已标注的所述第一类搜索结果;
[0011]通过已标注的第一类搜索结果和/或已标注的所述第二类搜索结果,对预设的排序模型进行训练,所述第二类搜索结果是根据用户针对所述第二类搜索结果的实际操作情况进行标注的。
[0012]可选地,若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类搜索结果进行标注,得到已标注的所述第一类搜索结果,具体包括:
[0013]若确定该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度不低于设定相关度,确定所述第一类搜索结果为正样本,否则,确定所述第一类搜索结果为负样本;
[0014]根据用户针对所述第二类搜索结果的实际操作情况,标注所述第二类搜索结果,具体包括:
[0015]若根据用户针对所述第二类搜索结果的实际操作情况,确定用户对所述第二类搜索结果执行了点击操作,确定所述第二类搜索结果为正样本;
[0016]若根据用户针对所述第二类搜索结果的实际操作情况,确定用户未对所述第二类搜索结果执行点击操作,确定所述第二类搜索结果为负样本。
[0017]可选地,若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类结果进行标注,得到已标注的所述第一类搜索结果,具体包括:
[0018]若根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,确定在所述业务平台展示所述第一类搜索结果的情况下,用户将对所述第一类搜索结果进行点击,确定所述第一类搜索结果为正样本;
[0019]若根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,确定在所述业务平台展示所述第一类搜索结果的情况下,用户不会对所述第一类搜索结果进行点击,确定所述第一类搜索结果为负样本。
[0020]可选地,构建样本集,具体包括:
[0021]获取若干待补充训练样本;
[0022]针对每个待补充训练样本,若确定该待补充训练样本中包含的搜索语句符合预设条件,从所述公共网络中搜索出与该待补充训练样本包含的搜索语句相关的网络搜索信息,并作为该待补充训练样本包含的搜索语句,在该待补充训练样本中对应的第一类搜索结果,对该待补充训练样本进行补充,得到补充后的训练样本;
[0023]根据各补充后的训练样本,构建所述样本集。
[0024]可选地,确定该待补充训练样本中包含的搜索语句符合预设条件,具体包括:
[0025]若确定该待补充训练样本中包含的搜索语句满足预设的提问句式,确定该待补充训练样本中包含的搜索语句符合预设条件。
[0026]可选地,通过已标注的第一类搜索结果和/或已标注的所述第二类搜索结果,对预设的排序模型进行训练,具体包括:
[0027]若确定该训练样本包含的搜索语句对应的所述第一类搜索结果为正样本,以优先展示该训练样本包含的搜索语句对应的第一类搜索结果为训练目标,对所述排序模型进行训练。
[0028]可选地,所述方法还包括:
[0029]接收目标用户发送的搜索请求;
[0030]根据所述搜索请求中携带的目标搜索语句,搜索出与所述目标搜索语句相匹配的
搜索结果,其中,与所述目标搜索语句相匹配的搜索结果包括:所述目标搜索语句对应的第一类搜索结果、所述目标搜索语句对应的第二类搜索结果中的至少一种;
[0031]通过预先训练的所述排序模型,对搜索出与所述目标搜索语句相匹配的搜索结果进行排序,得到排序结果;
[0032]按照所述排序结果,将搜索出与所述目标搜索语句相匹配的搜索结果展示给所述目标用户。
[0033]本说明书提供了一种模型训练的装置,包括:
[0034]获取模块,用于获取构建出的样本集,其中,针对所述样本集中包含的每个训练样本,该训练样本包含搜索语句以及与所述搜索语句对应的搜索结果,所述搜索结果包括第一类搜索结果、第二类搜索结果中的至少一种,所述第一类搜索结果包括从公共网络中搜索出的与该训练样本包含的搜索语句相关的网络搜索信息,所述第二类搜索结果包括在业务平台中搜索出的与该训练样本包含的搜索语句相匹配的业务对象;
[0035]标注模块,用于若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类结果进行标注,得到已标注的所述第一类搜索结果;
[0036]训练模块,用于通过已标注的第一类搜索结果和/或已标注的所述第二类搜索结果,对预设的排序模型进行训练,所述第二类搜索结果是根据用户针对所述第二类搜索结果对应的业务对象的实际操作情况进行标注的。
[0037]本说明书提供了一种计算机可读存储介质,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:获取构建出的样本集,其中,针对所述样本集中包含的每个训练样本,该训练样本包含搜索语句以及与所述搜索语句对应的搜索结果,所述搜索结果包括第一类搜索结果、第二类搜索结果中的至少一种,所述第一类搜索结果包括从公共网络中搜索出的与该训练样本包含的搜索语句相关的网络搜索信息,所述第二类搜索结果包括在业务平台中搜索出的与该训练样本包含的搜索语句相匹配的业务对象;若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类搜索结果进行标注,得到已标注的所述第一类搜索结果;通过已标注的第一类搜索结果和/或已标注的所述第二类搜索结果,对预设的排序模型进行训练,所述第二类搜索结果是根据用户针对所述第二类搜索结果的实际操作情况进行标注的。2.如权利要求1所述的方法,其特征在于,若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类搜索结果进行标注,得到已标注的所述第一类搜索结果,具体包括:若确定该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度不低于设定相关度,确定所述第一类搜索结果为正样本,否则,确定所述第一类搜索结果为负样本;根据用户针对所述第二类搜索结果的实际操作情况,标注所述第二类搜索结果,具体包括:若根据用户针对所述第二类搜索结果的实际操作情况,确定用户对所述第二类搜索结果执行了点击操作,确定所述第二类搜索结果为正样本;若根据用户针对所述第二类搜索结果的实际操作情况,确定用户未对所述第二类搜索结果执行点击操作,确定所述第二类搜索结果为负样本。3.如权利要求1或2所述的方法,其特征在于,若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类结果进行标注,得到已标注的所述第一类搜索结果,具体包括:若根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,确定在所述业务平台展示所述第一类搜索结果的情况下,用户将对所述第一类搜索结果进行点击,确定所述第一类搜索结果为正样本;若根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,确定在所述业务平台展示所述第一类搜索结果的情况下,用户不会对所述第一类搜索结果进行点击,确定所述第一类搜索结果为负样本。4.如权利要求1所述的方法,其特征在于,构建样本集,具体包括:获取若干待补充训练样本;针对每个待补充训练样本,若确定该待补充训练样本中包含的搜索语句符合预设条件,从所述公共网络中搜索出与该待补充训练样本包含的搜索语句相关的网络搜索信息,...

【专利技术属性】
技术研发人员:钟啸林刘影
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1