【技术实现步骤摘要】
识别模型训练及数据召回方法、装置、设备及计算机介质
[0001]本公开属于数据处理
,尤其涉及一种识别模型训练及数据召回方法、装置、设备及计算机介质。
技术介绍
[0002]随着科学技术的发展,搜索技术应用在各行各业,从而实现帮助各企业提高工作效率。在现有的技术中,以金融企业为例,用户通过搜索系统进行搜索的内容包含了产品功能、股票行情、新闻资讯、社区文章以及公司机构等。但因为不同行业领域的功能和内容差异大,同样的搜索词条在不同的行业领域的搜索意图可能完全不同,这就导致在进行搜索工作时,容易造成搜索结果与用户输入的搜索内容匹配度不高,且搜索工作量大,搜索效率较低的问题。
技术实现思路
[0003]本公开实施例提供一种与相关技术不同的实现方案,以解决搜索结果与用户输入的搜索内容匹配度不高,且搜索工作量大,搜索效率较低的技术问题。
[0004]第一方面,本公开提供一种识别模型训练方法,包括:
[0005]基于第一样本信息集对第一初始子模型进行训练,得到第一子模型,所述第一子模型用于确定输入数据 ...
【技术保护点】
【技术特征摘要】
1.一种识别模型训练方法,其特征在于,所述方法包括:基于第一样本信息集对第一初始子模型进行训练,得到第一子模型,所述第一子模型用于确定输入数据的语义信息,所述第一样本信息集中的各第一样本信息包括样本输入数据与所述样本输入数据对应的关联语义标签;基于第二样本信息集对第二初始子模型进行训练,得到第二子模型,所述第二子模型用于确定所述语义信息对应的目标类型,以及所述目标类型对应的目标预测点击量,所述第二样本信息集中的各第二样本信息包括所述样本输入数据、所述样本输入数据所属的第一类别,以及所述第一类别对应的点击量;根据所述第一子模型与所述第二子模型确定识别模型。2.如权利要求1所述的识别模型训练方法,其特征在于,所述方法还包括:获取用户的搜索数据集,并在所述搜索数据集中提取至少一个关键数据;对第一预设时间段内各所述关键数据的搜索频率进行统计,得到各所述关键数据对应的搜索频率;获取至少一个所述关键数据中所述搜索频率大于第一预设阈值的第一目标关键数据的集合;根据所述第一目标关键数据的集合确定所述第一样本信息集中的样本输入数据的集合。3.如权利要求2所述的识别模型训练方法,其特征在于,所述根据所述第一目标关键数据的集合确定所述第一样本信息集中的样本输入数据的集合,包括:获取第二预设时间段内所述第一目标关键数据的集合中各所述第一目标关键数据对应的曝光点击量;将所述第一目标关键数据的集合中对应的曝光点击量大于第二预设阈值的第二目标关键数据的集合作为所述第一样本信息集中的样本输入数据的集合,所述第二目标关键数据与所述样本输入数据一一对应。4.如权利要求1所述的识别模型训练方法,其特征在于,所述第二子模型包括第三子模型与第四子模型,所述方法还包括:生成所述样本输入数据所属的第一类别;所述生成所述样本输入数据所属的第一类别,包括:基于第三样本信息集对第三初始子模型进行训练,得到所述第三子模型,所述第三样本信息集中的各第三样本信息包括第四样本信息和所述第四样本信息所属的第二类别;将所述样本输入数据输入所述第三子模型,得到所述样本输入数据所属的第一类别;其中,所述第三子模型还用于确定所述语义信息对应的目标类型,所述第四子模型用于确定所述目标类型对应的目标预测点击量。5.如权利要求1所述...
【专利技术属性】
技术研发人员:陈明阳,庄广安,谭逊敏,
申请(专利权)人:富途网络科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。