【技术实现步骤摘要】
一种数据识别方法、模型适配新数据的方法、装置和设备
[0001]本申请涉及人工智能
,尤其涉及一种数据识别方法、模型适配新数据的方法、装置和设备。
技术介绍
[0002]由于在模型训练过程中所应用的训练样本,与模型部署上线所应用环境的数据是不同的,因此,在模型部署上线阶段,已经训练完成的模型在应用到指定数据集(新数据)中时,需要进行模型与新数据的适配,以保证识别结果的准确性。模型适配新数据时通常面临模型能力下降等问题,一般采用依赖模型开发人员重新进行模型适配调优的解决方案,以实现模型适配新数据时,模型能力不下降的问题。但是传统的依赖模型开发人员重新进行模型适配调优的解决方案,存在人员成本高、周期长等现实问题,难以满足实际业务需求。
[0003]因此,如何保证模型适配新数据时,模型能力不下降,是亟待解决的技术问题。
技术实现思路
[0004]本说明书实施例提供一种数据识别方法、模型适配新数据的方法、装置和设备,用于解决如下技术问题:传统的依赖模型开发人员重新进行模型适配调优的解决方案,存在人员成本 ...
【技术保护点】
【技术特征摘要】
1.一种数据识别方法,其特征在于,所述数据识别方法包括:基于标注样本集对第一模型进行重训,生成第二模型,其中,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,所述标注样本集总量不小于预设的最小阈值;基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型;若所述第二模型为待上线模型,则确定所述第二模型是否替换所述第一模型作为上线模型;基于所述上线模型,输出待处理数据的识别结果。2.如权利要求1所述的数据识别方法,其特征在于,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,具体包括:基于所述第一模型对新数据集进行识别,获得所述新数据集的识别结果;基于所述新数据集的识别结果对所述新数据集进行标注,生成所述结果集;基于所述结果集在所述评估集上的准确率及召回统计率,确定所述结果集中经过修改或确认的记录,作为标注样本集。3.如权利要求2所述的数据识别方法,其特征在于,所述基于所述结果集在所述评估集上的准确率及召回统计率,确定所述结果集中经过修改或确认的记录,作为标注样本集,具体包括:从所述结果集中选取各维度分布数量最多的top
‑
k取值条件,获得推荐筛选结果在所述评估集上的准确率及召回统计率,以确定所述结果集中经过修改或确认的记录,作为标注样本集;或者基于所述结果集中相似记录的搜索结果,获得所述相似记录的搜索结果在所述评估集上的准确率及召回统计率,以确定所述结果集中经过修改或确认的记录,作为标注样本集;或者基于所述结果集中搜索条件的搜索结果,获得所述搜索条件的搜索结果在所述评估集上的准确率及召回统计率,以确定所述结果集中经过修改或确认的记录,作为标注样本集。4.如权利要求1所述的数据识别方法,其特征在于,所述评估集是基于新数据集构建的,具体包括:采用分布筛选、随机筛选、推荐筛选、相似记录筛选中的一种或几种筛选方法,对新数据集进行筛选,获得筛选数据集;对所述筛选数据集进行标注,获得所述评估集。5.如权利要求1所述的数据识别方法,其特征在于,所述基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型,具体包括:若所述第二模型的准确率大于所述第一模型的准确率,则所述第二模型为待上线模型;若所述第二模型的准确率不大于所述第一模型的准确率,且所述标注样本集总量小于所述预设的最小阈值的2倍,则从新数据集中选取未标注的数据作为候补标注样本集,基于所述标注样本集及所述候补标注样本集重训所述第一模型,生成新的第二模型;基于所述
评估集确定的所述第一模型的准确率及所述新的第二模型的准确率,确定所述新的第二模型是否为待上线模型;若所述第二模型的准确率不大于所述第一模型的准确率,且所述标注样本集总量不小于所述预设的最小阈值的2倍,则增大所述预设的...
【专利技术属性】
技术研发人员:王书龙,李常宝,顾平莉,贾贺,袁媛,
申请(专利权)人:中国电子科技集团公司第十五研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。