一种模型迭代方法及装置制造方法及图纸

技术编号：36356045 阅读：77 留言：0更新日期：2023-01-14 18:12

本申请公开了一种本申请提供了一种模型迭代方法及装置，该方法包括：获取已完成人工标注的新增数据，作为第一数据集；基于第一数据集对初始模型进行训练，并统计第一数据集中所有数据的聚集离群指标；基于聚集离群指标，将聚集离群指标小于第一预设值的数据从第一数据集中删除，从而获得第二数据集；基于初始数据集和第二数据集，得到第三数据集；基于第三数据集对初始模型重新进行训练，从而完成一次模型的迭代。可知，获取新增数据后，基于训练过程中统计的聚集离群指标主动将存在质量问题的数据从数据集中删除后，重新对模型进行训练，实现了模型的迭代，解决模型存在域偏移问题的同时，提高了模型的性能，从而可以准确抽取出医疗票据信息。取出医疗票据信息。取出医疗票据信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型迭代方法及装置

[0001]本申请涉及模型训练
，具体涉及一种模型迭代方法及装置。

技术介绍

[0002]医疗票据信息的提取在保险理赔鉴定等领域有着广泛的应用。由于各个地区的医疗票据版式不同、各个医院的医疗票据版式不同，所以医疗票据具有版式繁多的情况。主流的医疗票据信息抽取方法至少包括两个步骤：光学字符识别(Optical Character Recognition，OCR)和命名实体识别(Named Entity Recognition，NER)两个步骤。
[0003]当前对于NER任务是来说，最常见的训练方式是有监督学习，即NER任务是通过训练方式为有监督学习得到的模型实现的。有监督学习是机器学习中的一种，具体为利用一组带标签的样本作为训练集，通过该训练集对模型进行训练，从而得到目标模型。
[0004]基于有监督学习训练得到的模型存在域偏移的问题，将该模型应用到场景复杂、票据版式多样的医疗票据信息提取任务中时，会导致无法准确得到医疗票据信息。

技术实现思路

[0005]基于上...

【技术保护点】

【技术特征摘要】
1.一种模型迭代方法，其特征在于，所述方法包括：获取已完成人工标注的新增数据，作为第一数据集；基于所述第一数据集对初始模型进行训练，并统计所述第一数据集中所有数据的聚集离群指标；所述聚集离群指标为所述数据的置信度的均值和所述数据的置信度的标准差的乘积；基于所述聚集离群指标，将所述聚集离群指标小于第一预设值的数据从所述第一数据集中删除，从而获得第二数据集；基于初始数据集和所述第二数据集，得到第三数据集；所述第三数据集包括所述初始数据集中所包含的数据以及所述第二数据集中所包含的数据；基于所述第三数据集对所述初始模型重新进行训练，从而完成一次模型的迭代。2.根据权利要求1所述的方法，其特征在于，在所述基于初始数据集和所述第二数据集，得到第三数据集之后，所述方法还包括：判断所述第三数据集中的数据数量是否大于预设数量；若是，则对所述第三数据集中的所有数据进行降采样；基于已经降采样过的第三数据集，对所述初始模型重新进行训练；若否，则直接基于所述第三数据集对所述初始模型重新进行训练。3.根据权利要求2所述的方法，其特征在于，所述对所述第三数据集中的所有数据进行降采样包括：统计所述第三数据集中的所有数据的聚集离群指标；基于所述所有数据的聚集离群指标，将所述聚集离群指标小于第二预设值的数据从所述第三数据集中删除，从而实现降采样；所述第二预设值大于所述第一预设值。4.根据权利要求1所述的方法，其特征在于，在所述获取已完成人工标注的新增数据，作为第一数据集之前，所述方法还包括：获取医疗票据；基于所述医疗票据，筛选出所述医疗票据的新增数据。5.根据权利要求4所述的方法，其特征在于，所述基于所述医疗票据，筛选出所述医疗票据的新增数据包括：基于所述医疗票据，通过主动学习技术，筛选出所述医疗票据中指标超过预设阈值的数据；所述指标超过预设阈值的数据为所述医疗票据的新增数据。6.根据权利要求1所述的方法，其特征在于，还包括：预先获...

【专利技术属性】
技术研发人员：黄东振，
申请(专利权)人：太保科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人