一种数据识别方法、模型适配新数据的方法、装置和设备制造方法及图纸

技术编号:37269512 阅读:29 留言:0更新日期:2023-04-20 23:39
本说明书实施例公开了一种数据识别方法、模型适配新数据的方法、装置和设备。所述数据识别方法包括:基于标注样本集对第一模型进行重训,生成第二模型,其中,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,所述标注样本集总量不小于预设的最小阈值;基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型;若所述第二模型为待上线模型,则确定所述第二模型是否替换所述第一模型作为上线模型;基于所述上线模型,输出待处理数据的识别结果。理数据的识别结果。理数据的识别结果。

【技术实现步骤摘要】
一种数据识别方法、模型适配新数据的方法、装置和设备


[0001]本申请涉及人工智能
,尤其涉及一种数据识别方法、模型适配新数据的方法、装置和设备。

技术介绍

[0002]由于在模型训练过程中所应用的训练样本,与模型部署上线所应用环境的数据是不同的,因此,在模型部署上线阶段,已经训练完成的模型在应用到指定数据集(新数据)中时,需要进行模型与新数据的适配,以保证识别结果的准确性。模型适配新数据时通常面临模型能力下降等问题,一般采用依赖模型开发人员重新进行模型适配调优的解决方案,以实现模型适配新数据时,模型能力不下降的问题。但是传统的依赖模型开发人员重新进行模型适配调优的解决方案,存在人员成本高、周期长等现实问题,难以满足实际业务需求。
[0003]因此,如何保证模型适配新数据时,模型能力不下降,是亟待解决的技术问题。

技术实现思路

[0004]本说明书实施例提供一种数据识别方法、模型适配新数据的方法、装置和设备,用于解决如下技术问题:传统的依赖模型开发人员重新进行模型适配调优的解决方案,存在人员成本高、周期长等现实问题,难以满足实际业务需求。
[0005]为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供一种数据识别方法,包括:基于标注样本集对第一模型进行重训,生成第二模型,其中,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,所述标注样本集总量不小于预设的最小阈值;基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型;若所述第二模型为待上线模型,则确定基所述第二模型是否替换所述第一模型作为上线模型;基于所述上线模型,输出待处理数据的识别结果。
[0006]本说明书实施例提供的一种模型适配新数据的方法,包括:基于标注样本集对第一模型进行重训,生成第二模型,其中,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,所述标注样本集总量不小于预设的最小阈值;基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型;若所述第二模型为待上线模型,且所述第二模型替换所述第一模型作为上线模型,则完成模型适配;若所述第二模型为待上线模型,但所述第二模型不作为上线模型,则增大所述预
设的最小阈值,以重新创建所述标注样本集,以重新基于所述第一模型进行模型重训,生成新的第二模型,直至完成模型适配。
[0007]本说明书实施例还提供一种数据识别装置,所述装置包括:模型重训模块,基于标注样本集对第一模型进行重训,生成第二模型,其中,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,所述标注样本集总量不小于预设的最小阈值;评估模块,基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型;确定模块,若所述第二模型为待上线模型,则确定所述第二模型是否替换所述第一模型作为上线模型;识别模块,基于所述上线模型,输出待处理数据的识别结果。
[0008]本说明书实施例还提供一种模型适配新数据的装置,所述装置包括:模型重训模块,基于标注样本集对第一模型进行重训,生成第二模型,其中,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,所述标注样本集总量不小于预设的最小阈值;评估模块,基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型;上线模块,若所述第二模型为待上线模型,且所述第二模型替换所述第一模型作为上线模型,则完成模型适配;循环模块,若所述第二模型为待上线模型,但所述第二模型不作为上线模型,则增大所述预设的最小阈值,以重新创建所述标注样本集,以重新基于所述第一模型进行模型重训,生成新的第二模型,直至完成模型适配。
[0009]本说明书实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:执行上述所述的数据识别方法;或者执行上述所述的模型适配新数据的方法。
[0010]本说明书一个实施例至少能够达到以下有益效果:基于标注样本集对第一模型进行重训,生成第二模型,其中,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,所述标注样本集总量不小于预设的最小阈值;基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型;若所述第二模型为待上线模型,则确定所述第二模型是否替换所述第一模型作为上线模型;基于所述上线模型,输出待处理数据的识别结果,能够在模型部署上线阶段,通过模型适配新数据,保证数据识别结果的准确性,且该方法不需要专业的模型开发人员参与,仅依赖模型使用用户,成本低、效率高,而且通过支持多点用户针对同一模型进行独立适配,实现多点用户的数据识别结果的准确性。
附图说明
[0011]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0012]图1为本说明书实施例提供的一种系统架构示意图;图2为本说明书实施例提供的一种数据识别方法的流程示意图;图3为本说明书实施例提供的又一种数据识别方法的流程示意图;图4为本说明书实施例提供的一种模型适配新数据的流程示意图;图5为本说明书实施例提供的又一种模型适配新数据的流程示意图;图6为本说明书实施例提供的一种模型适配新数据的框架图;图7为本说明书实施例提供的一种数据识别装置的示意图;图8为本说明书实施例提供的又一种数据识别装置的示意图;图9为本说明书实施例提供的一种模型适配新数据的装置的示意图;图10为本说明书实施例提供的一种模型适配新数据的装置的示意图。
具体实施方式
[0013]目前,在模型部署上线阶段,模型适配新数据时,可以采用类似迁移学习的技术方案。但在迁移学习本质上仍是一种建模方法,用来解决如何将源域的知识迁移到目标域的问题,采用基于样本的迁移、基于特征的迁移、基于模型的迁移以及基于关系的迁移等方法,实现将已有模型能力应用到新的不同的、但是有一定关联的领域中,避免由于数据空间变化引起的模型从头重训问题。
[0014]这种以迁移学习为代表的类似技术方案,其强调利用现有模型能力辅助训练新模型能力,一方面该技术方案主要适用于建模阶段,仍需依赖专业的模型开发人员进行实施,成本高、周期长;另一方面该技术方案并发效率差,无法满足同一源模型在多点分布式适配上线的现实需求,难以支持模型的快速批量部署上线,从而导致数据识别结果的准确性不高。
[0015]基于此,本说明书实施例提供一种新的数据识别方法,以解决现有技术中,模型部署上线阶段,已完成训练的模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据识别方法,其特征在于,所述数据识别方法包括:基于标注样本集对第一模型进行重训,生成第二模型,其中,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,所述标注样本集总量不小于预设的最小阈值;基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型;若所述第二模型为待上线模型,则确定所述第二模型是否替换所述第一模型作为上线模型;基于所述上线模型,输出待处理数据的识别结果。2.如权利要求1所述的数据识别方法,其特征在于,所述标注样本集是基于所述第一模型获得结果集,对所述结果集进行标注生成的,具体包括:基于所述第一模型对新数据集进行识别,获得所述新数据集的识别结果;基于所述新数据集的识别结果对所述新数据集进行标注,生成所述结果集;基于所述结果集在所述评估集上的准确率及召回统计率,确定所述结果集中经过修改或确认的记录,作为标注样本集。3.如权利要求2所述的数据识别方法,其特征在于,所述基于所述结果集在所述评估集上的准确率及召回统计率,确定所述结果集中经过修改或确认的记录,作为标注样本集,具体包括:从所述结果集中选取各维度分布数量最多的top

k取值条件,获得推荐筛选结果在所述评估集上的准确率及召回统计率,以确定所述结果集中经过修改或确认的记录,作为标注样本集;或者基于所述结果集中相似记录的搜索结果,获得所述相似记录的搜索结果在所述评估集上的准确率及召回统计率,以确定所述结果集中经过修改或确认的记录,作为标注样本集;或者基于所述结果集中搜索条件的搜索结果,获得所述搜索条件的搜索结果在所述评估集上的准确率及召回统计率,以确定所述结果集中经过修改或确认的记录,作为标注样本集。4.如权利要求1所述的数据识别方法,其特征在于,所述评估集是基于新数据集构建的,具体包括:采用分布筛选、随机筛选、推荐筛选、相似记录筛选中的一种或几种筛选方法,对新数据集进行筛选,获得筛选数据集;对所述筛选数据集进行标注,获得所述评估集。5.如权利要求1所述的数据识别方法,其特征在于,所述基于评估集确定的所述第一模型的准确率及所述第二模型的准确率,确定所述第二模型是否为待上线模型,具体包括:若所述第二模型的准确率大于所述第一模型的准确率,则所述第二模型为待上线模型;若所述第二模型的准确率不大于所述第一模型的准确率,且所述标注样本集总量小于所述预设的最小阈值的2倍,则从新数据集中选取未标注的数据作为候补标注样本集,基于所述标注样本集及所述候补标注样本集重训所述第一模型,生成新的第二模型;基于所述
评估集确定的所述第一模型的准确率及所述新的第二模型的准确率,确定所述新的第二模型是否为待上线模型;若所述第二模型的准确率不大于所述第一模型的准确率,且所述标注样本集总量不小于所述预设的最小阈值的2倍,则增大所述预设的...

【专利技术属性】
技术研发人员:王书龙李常宝顾平莉贾贺袁媛
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1