训练数据处理方法、分类模型训练方法及设备技术

技术编号:21954686 阅读:18 留言:0更新日期:2019-08-24 18:39
本发明专利技术提供一种训练数据处理方法、分类模型训练方法及设备,所述训练数据处理方法包括:获取多个训练数据,所述训练数据中包括样本图像及其标签信息;利用所述多个训练数据对分类模型进行训练,并判断是否达到设定的收敛条件;当未达到设定的收敛条件时,利用训练后的所述分类模型对各个样本图像进行分类并输出分类结果;利用与所述标签信息不一致的分类结果替换相应的标签信息,以更新所述训练数据。

Training Data Processing Method, Classification Model Training Method and Equipment

【技术实现步骤摘要】
训练数据处理方法、分类模型训练方法及设备
本专利技术涉及人工智能领域,具体涉及一种训练数据处理方法、分类模型训练方法及设备。
技术介绍
在诸如机器学习、深度学习、神经网络等人工智能算法的众多应用场景中,训练数据的准确性对模型的性能起到至关重要的作用。具体地,在训练分类模型的过程中,需要使用样本数据及其标注作为训练数据,所谓标注是用于表示样本数据的实际类型的信息,也即标签信息。目前,多数情况下标注操作需要由人工完成,通过人工经验辨别样本数据的类型,并为其添加相应的标签信息。在某些应用场景中,可能会遇到样本数据的实际类型很难被辨别的情况,也即类型的界限比较模糊。尤其是在图像识别领域,例如对于某一样本图像而言,由于图像不清晰或者特征不明显等客观原因,使得人工很难确定其具体类别,这使得人工标注结果可能出现错误。错误的训练数据会使分类模型的训练很难收敛,进而影响分类模型的识别准确性。
技术实现思路
有鉴于此,本专利技术提供一种训练数据处理方法,包括:获取多个训练数据,所述训练数据中包括样本图像及其标签信息;利用所述多个训练数据对分类模型进行训练,并判断是否达到设定的收敛条件;当未达到设定的收敛条件时,利用训练后的所述分类模型对各个样本图像进行分类并输出分类结果;利用与所述标签信息不一致的分类结果替换相应的标签信息,以更新所述训练数据。可选地,所述方法被循环执行,在更新所述训练数据后,返回利用所述多个训练数据对分类模型进行训练的步骤,直至达到设定的收敛条件为止。可选地,所述收敛条件为损失值小于设定阈值。可选地,在利用所述多个训练数据对分类模型进行训练的步骤中,利用所述多个训练数据中的至少部分训练数据对分类模型进行训练,直至损失值不再继续下降,以获取最低损失值。可选地,利用与所述标签信息不一致的分类结果替换相应的标签信息,包括:从对各个所述样本图像的分类结果中确定与相应的所述标签信息不一致的分类结果,所述分类结果中包括对应于类别的置信度信息;从确定的分类结果中筛选出置信度信息大于设定置信度阈值的分类结果,并利用筛选出的分类结果替换相应的标签信息。可选地,所述样本图像为眼底图像,所述标签信息用于表示与眼底疾病相关的类别。可选地,所述标签信息用于表示眼底血管反光程度。本专利技术还提供一种分类模型训练方法,包括:利用上述训练数据处理方法处理训练数据;利用处理后的训练数据对目标分类模型进行训练。相应地,本专利技术还提供一种训练数据处理设备,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述训练数据处理方法。相应地,本专利技术还提供一种分类模型训练设备,其特征在于,包括:至少一个处理器以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述分类模型训练方法。根据本专利技术实施例提供的训练数据处理方法及设备,首先利用初始的训练数据训练分类模型,并判断当前的训练数据是否能够使分类模型收敛,在不能使其收敛时,表示当前的训练数据不够准确,进而获取分类模型对当前训练数据的分类结果,并利用与标签信息不一致的分类结果替换相应的标签信息,以此来优化训练数据。经过本方案处理后的训练数据可用于训练分类模型,使其更容易收敛,进而提高分类模型的识别准确性。利用经过处理的、更加准确的训练数据,可以使分类模型获得更好的性能,并且可以提高模型训练的效率。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中的训练数据处理方法的流程图;图2为本专利技术实施例中属于正常类的眼底图像块;图3为本专利技术实施例中属于轻度反光类的眼底图像块;图4为本专利技术实施例中属于严重反光类的眼底图像块。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。本专利技术提供了一种训练数据处理方法,该方法可以由计算机和服务器等电子设备执行。如图1所示该方法包括如下步骤:S1A,获取多个训练数据,训练数据中包括样本图像及其标签信息。作为一个应用举例,样本图像例如是医疗设备采集的人体图像,可将其称为医疗图像。医疗图像作为辅助诊断的数据可以体现人体的疾病特征,或者至少能够体现人体的器官或组织特征。医疗图像的标签信息即为疾病的类型、器官或组织的类型,具体类别根据用途而定,相应的标签信息可以由人工提供。医疗图像一般由专用设备采集,例如CT设备、X光设备、光学照相设备等,一些图像可能由于清晰度低或者特征不明显等原因,使得人工很难辨别其类型,从而给出不准确的标签信息。作为一个具体举例,在一个实施例中样本图像是眼底视网膜图像,具体是如图2-图4所示的图像块,这些图像块是眼底图像的一部分,其中的条状影像是血管(动脉或静脉)。在本实施例中,这些图像的类别(标签信息)为血管壁反光类型,例如具体可分为三类:图2是正常类(无反光)、图3是轻微反光的类型、图4是严重反光类的类型,标签信息即为表达这些类型的信息。在其它实施例中,标签信息也可以用于表示如糖尿病视网膜病变、青光眼病变等其他与眼底疾病相关的类别。从图2-图4可以看出,这几类图像之间的区别并不十分明显,医学专家虽然可以区分其类型,但也不能保证完全正确,对于一般人员而言区分难度会更大。初始的训练数据由人工提供,而后使用本专利技术提供的方案对这些训练数据进行处理。S2A,利用多个训练数据对分类模型进行训练,并判断是否达到设定的收敛条件。在此使用的分类模型可以是结构比较简单的神经网络模型,分类模型的参数为初始值,它将学习训练数据以调整合适的参数,从而达到辨别类型的目的。有多种可选的收敛条件,例如是所学习的训练数据的数量或者其输出的类型与标签信息的差距等。经过一定的训练后,当判断未达到设定的收敛条件时,执行步骤S3A;当判断已经达到设定的收敛条件时,即表示训练数据已经足够准确,执行步骤S5A。S3A,利用训练后的分类模型对各个样本图像进行分类并输出分类结果。步骤S2A是对模型的训练阶段,而此步骤是应用其识别图像的阶段。分类模型输出的是用于表达图像类型的信息,以上述三种类型为例,在此得到的分类结果则用于表示相应的样本图像属于正常类(无反光)、轻微反光的类型还是严重反光类的类型。S4A,利用与标签信息不一致的分类结果替换相应的标签信息,以更新训练数据。例如在步骤S3A中,分类模型对1000个样本图像进行分类得到1000个分类结果,这些结果的准确率可以达到80%以上。也即多数分类结果与标签信息是一致的,只有少数是不一致的,例如图3的标签信息为轻微反光,而本文档来自技高网...

【技术保护点】
1.一种训练数据处理方法,其特征在于,包括:获取多个训练数据,所述训练数据中包括样本图像及其标签信息;利用所述多个训练数据对分类模型进行训练,并判断是否达到设定的收敛条件;当未达到设定的收敛条件时,利用训练后的所述分类模型对各个样本图像进行分类并输出分类结果;利用与所述标签信息不一致的分类结果替换相应的标签信息,以更新所述训练数据。

【技术特征摘要】
1.一种训练数据处理方法,其特征在于,包括:获取多个训练数据,所述训练数据中包括样本图像及其标签信息;利用所述多个训练数据对分类模型进行训练,并判断是否达到设定的收敛条件;当未达到设定的收敛条件时,利用训练后的所述分类模型对各个样本图像进行分类并输出分类结果;利用与所述标签信息不一致的分类结果替换相应的标签信息,以更新所述训练数据。2.根据权利要求1所述的方法,其特征在于,所述方法被循环执行,在更新所述训练数据后,返回利用所述多个训练数据对分类模型进行训练的步骤,直至达到设定的收敛条件为止。3.根据权利要求1或2所述的方法,其特征在于,所述收敛条件为损失值小于设定阈值。4.根据权利要求3所述的方法,其特征在于,在利用所述多个训练数据对分类模型进行训练的步骤中,利用所述多个训练数据中的至少部分训练数据对分类模型进行训练,直至损失值不再继续下降,以获取最低损失值。5.根据权利要求1-4中任一项所述的方法,其特征在于,利用与所述标签信息不一致的分类结果替换相应的标签信息,包括:从对各个所述样本图像的分类结果中确定与相应的所述标签信息不一致的分类结果,所述分类结果中包括对应于类...

【专利技术属性】
技术研发人员:马永培熊健皓赵昕和超张大磊
申请(专利权)人:上海鹰瞳医疗科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1