【技术实现步骤摘要】
一种模型迭代方法及装置
[0001]本申请涉及模型训练
,具体涉及一种模型迭代方法及装置。
技术介绍
[0002]医疗票据信息的提取在保险理赔鉴定等领域有着广泛的应用。由于各个地区的医疗票据版式不同、各个医院的医疗票据版式不同,所以医疗票据具有版式繁多的情况。主流的医疗票据信息抽取方法至少包括两个步骤:光学字符识别(Optical Character Recognition,OCR)和命名实体识别(Named Entity Recognition,NER)两个步骤。
[0003]当前对于NER任务是来说,最常见的训练方式是有监督学习,即NER任务是通过训练方式为有监督学习得到的模型实现的。有监督学习是机器学习中的一种,具体为利用一组带标签的样本作为训练集,通过该训练集对模型进行训练,从而得到目标模型。
[0004]基于有监督学习训练得到的模型存在域偏移的问题,将该模型应用到场景复杂、票据版式多样的医疗票据信息提取任务中时,会导致无法准确得到医疗票据信息。
技术实现思路
[0005]基于上 ...
【技术保护点】
【技术特征摘要】
1.一种模型迭代方法,其特征在于,所述方法包括:获取已完成人工标注的新增数据,作为第一数据集;基于所述第一数据集对初始模型进行训练,并统计所述第一数据集中所有数据的聚集离群指标;所述聚集离群指标为所述数据的置信度的均值和所述数据的置信度的标准差的乘积;基于所述聚集离群指标,将所述聚集离群指标小于第一预设值的数据从所述第一数据集中删除,从而获得第二数据集;基于初始数据集和所述第二数据集,得到第三数据集;所述第三数据集包括所述初始数据集中所包含的数据以及所述第二数据集中所包含的数据;基于所述第三数据集对所述初始模型重新进行训练,从而完成一次模型的迭代。2.根据权利要求1所述的方法,其特征在于,在所述基于初始数据集和所述第二数据集,得到第三数据集之后,所述方法还包括:判断所述第三数据集中的数据数量是否大于预设数量;若是,则对所述第三数据集中的所有数据进行降采样;基于已经降采样过的第三数据集,对所述初始模型重新进行训练;若否,则直接基于所述第三数据集对所述初始模型重新进行训练。3.根据权利要求2所述的方法,其特征在于,所述对所述第三数据集中的所有数据进行降采样包括:统计所述第三数据集中的所有数据的聚集离群指标;基于所述所有数据的聚集离群指标,将所述聚集离群指标小于第二预设值的数据从所述第三数据集中删除,从而实现降采样;所述第二预设值大于所述第一预设值。4.根据权利要求1所述的方法,其特征在于,在所述获取已完成人工标注的新增数据,作为第一数据集之前,所述方法还包括:获取医疗票据;基于所述医疗票据,筛选出所述医疗票据的新增数据。5.根据权利要求4所述的方法,其特征在于,所述基于所述医疗票据,筛选出所述医疗票据的新增数据包括:基于所述医疗票据,通过主动学习技术,筛选出所述医疗票据中指标超过预设阈值的数据;所述指标超过预设阈值的数据为所述医疗票据的新增数据。6.根据权利要求1所述的方法,其特征在于,还包括:预先获...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。