识别模型训练及数据召回方法、装置、设备及计算机介质制造方法及图纸

技术编号:37778876 阅读:24 留言:0更新日期:2023-06-09 09:09
本公开公开了一种识别模型训练及数据召回方法、装置、设备及计算机介质,方法包括:基于第一样本信息集对第一初始子模型进行训练,得到第一子模型,第一子模型用于确定输入数据的语义信息;基于第二样本信息集对第二初始子模型进行训练,得到第二子模型,第二子模型用于确定语义信息对应的目标类型,以及语义信息对应的目标类型的目标预测点击量,第二样本信息集中的各第二样本信息包括样本输入数据、样本输入数据所属的第一类别,以及第一类别对应的点击量;根据第一子模型与第二子模型确定所述识别模型。本公开实施例通过多阶段的模型训练可以起到提高匹配业务类别的准确性,降低匹配工作量的作用。配工作量的作用。配工作量的作用。

【技术实现步骤摘要】
识别模型训练及数据召回方法、装置、设备及计算机介质


[0001]本公开属于数据处理
,尤其涉及一种识别模型训练及数据召回方法、装置、设备及计算机介质。

技术介绍

[0002]随着科学技术的发展,搜索技术应用在各行各业,从而实现帮助各企业提高工作效率。在现有的技术中,以金融企业为例,用户通过搜索系统进行搜索的内容包含了产品功能、股票行情、新闻资讯、社区文章以及公司机构等。但因为不同行业领域的功能和内容差异大,同样的搜索词条在不同的行业领域的搜索意图可能完全不同,这就导致在进行搜索工作时,容易造成搜索结果与用户输入的搜索内容匹配度不高,且搜索工作量大,搜索效率较低的问题。

技术实现思路

[0003]本公开实施例提供一种与相关技术不同的实现方案,以解决搜索结果与用户输入的搜索内容匹配度不高,且搜索工作量大,搜索效率较低的技术问题。
[0004]第一方面,本公开提供一种识别模型训练方法,包括:
[0005]基于第一样本信息集对第一初始子模型进行训练,得到第一子模型,所述第一子模型用于确定输入数据的语义信息,所述第一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种识别模型训练方法,其特征在于,所述方法包括:基于第一样本信息集对第一初始子模型进行训练,得到第一子模型,所述第一子模型用于确定输入数据的语义信息,所述第一样本信息集中的各第一样本信息包括样本输入数据与所述样本输入数据对应的关联语义标签;基于第二样本信息集对第二初始子模型进行训练,得到第二子模型,所述第二子模型用于确定所述语义信息对应的目标类型,以及所述目标类型对应的目标预测点击量,所述第二样本信息集中的各第二样本信息包括所述样本输入数据、所述样本输入数据所属的第一类别,以及所述第一类别对应的点击量;根据所述第一子模型与所述第二子模型确定识别模型。2.如权利要求1所述的识别模型训练方法,其特征在于,所述方法还包括:获取用户的搜索数据集,并在所述搜索数据集中提取至少一个关键数据;对第一预设时间段内各所述关键数据的搜索频率进行统计,得到各所述关键数据对应的搜索频率;获取至少一个所述关键数据中所述搜索频率大于第一预设阈值的第一目标关键数据的集合;根据所述第一目标关键数据的集合确定所述第一样本信息集中的样本输入数据的集合。3.如权利要求2所述的识别模型训练方法,其特征在于,所述根据所述第一目标关键数据的集合确定所述第一样本信息集中的样本输入数据的集合,包括:获取第二预设时间段内所述第一目标关键数据的集合中各所述第一目标关键数据对应的曝光点击量;将所述第一目标关键数据的集合中对应的曝光点击量大于第二预设阈值的第二目标关键数据的集合作为所述第一样本信息集中的样本输入数据的集合,所述第二目标关键数据与所述样本输入数据一一对应。4.如权利要求1所述的识别模型训练方法,其特征在于,所述第二子模型包括第三子模型与第四子模型,所述方法还包括:生成所述样本输入数据所属的第一类别;所述生成所述样本输入数据所属的第一类别,包括:基于第三样本信息集对第三初始子模型进行训练,得到所述第三子模型,所述第三样本信息集中的各第三样本信息包括第四样本信息和所述第四样本信息所属的第二类别;将所述样本输入数据输入所述第三子模型,得到所述样本输入数据所属的第一类别;其中,所述第三子模型还用于确定所述语义信息对应的目标类型,所述第四子模型用于确定所述目标类型对应的目标预测点击量。5.如权利要求1所述...

【专利技术属性】
技术研发人员:陈明阳庄广安谭逊敏
申请(专利权)人:富途网络科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1