用于分类的系统和方法技术方案

技术编号:25990591 阅读:13 留言:0更新日期:2020-10-20 18:58
一种用于分类的系统和方法。在一些实施例中,该方法包括:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用第一训练数据集训练第一分类器;利用第二训练数据集训练变分自编码器,变分自编码器包括编码器和解码器;通过将伪随机向量馈入解码器来生成第三数据集;使用第一分类器标记第三数据集以形成第三训练数据集;基于第三数据集形成第四训练数据集;以及利用第四训练数据集训练第二分类器。

【技术实现步骤摘要】
用于分类的系统和方法相关申请的交叉引用本申请要求2019年4月5日提交的题为“用于跟踪数据集的数据扩充的系统和方法”的第62/830,131号美国临时申请的优先权和权益,该申请的全部内容通过引用合并于此。
根据本公开的实施例的一个或多个方面涉及分类器,并且更具体地涉及在训练分类器时使用的用于数据扩充的系统和方法。
技术介绍
当使用对二元类具有数据不平衡的数据进行训练时,或者当在给定输入数据维度的情况下训练数据的量相对小时,自动分类器可能表现出相对差的性能。因此,需要用于数据扩充的改进的系统和方法。
技术实现思路
根据本专利技术的实施例,提供了一种用于分类的方法,该方法包括:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用第一训练数据集训练第一分类器;利用第二训练数据集训练变分自编码器,变分自编码器包括编码器和解码器;通过将伪随机向量馈入解码器来生成第三数据集;使用第一分类器标记第三数据集以形成第三训练数据集;基于第三数据集形成第四训练数据集;并且利用第四训练数据集训练第二分类器。在一些实施例中,第一训练数据集是被标记的输入数据集。在一些实施例中,第二训练数据集是被标记的输入数据集。在一些实施例中,形成第一训练数据集包括:对被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合被标记的输入数据集和第一补充数据集,以形成第一训练数据集。在一些实施例中,对被标记的输入数据集进行过采样包括使用合成少数类过采样技术。在一些实施例中,对被标记的输入数据集进行过采样包括使用自适应合成过采样技术。在一些实施例中,第四训练数据集与第三训练数据集相同。在一些实施例中,形成第四训练数据集包括:组合被标记的输入数据集的第一部分和第三训练数据集,以形成第四训练数据集。在一些实施例中,形成第四训练数据集包括:组合被标记的输入数据集的第一部分、第一补充数据集和第三训练数据集,以形成第四训练数据集。在一些实施例中,该方法进一步包括:利用与被标记的输入数据集的第一部分不同的被标记的输入数据集的第二部分,来验证第二分类器。在一些实施例中,形成第二训练数据集包括:对被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合被标记的输入数据集和第一补充数据集,以形成第二训练数据集。在一些实施例中,被标记的输入数据集包括:包括第一数量的数据元的多数类数据和包括第二数量的数据元的少数类数据,第一数量超过第二数量至少五倍。在一些实施例中,第一数量超过第二数量至少十五倍。根据本专利技术的实施例,提供了一种用于分类的系统,包括:处理电路,被配置为:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用第一训练数据集训练第一分类器;利用第二训练数据集训练变分自编码器,变分自编码器包括编码器和解码器;通过将伪随机向量馈入解码器来生成第三数据集;使用第一分类器标记第三数据集,以形成第三训练数据集;基于第三数据集形成第四训练数据集;并且利用第四训练数据集训练第二分类器。在一些实施例中,第一训练数据集是被标记的输入数据集。在一些实施例中,第二训练数据集是被标记的输入数据集。在一些实施例中,处理电路被配置为:对被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合被标记的输入数据集和第一补充数据集,以形成第一训练数据集。在一些实施例中,处理电路被配置为使用合成少数类过采样技术对被标记的输入数据集进行过采样。在一些实施例中,处理电路被配置为使用自适应合成过采样技术对被标记的输入数据集进行过采样。根据本专利技术的实施例,提供了一种用于将被制造的部件分类为良品或次品的系统,该系统包括:数据收集电路;以及处理电路,处理电路被配置为:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用第一训练数据集训练第一分类器;利用第二训练数据集训练变分自编码器,变分自编码器包括编码器和解码器;通过将伪随机向量馈入解码器来生成第三数据集;使用第一分类器标记第三数据集,以形成第三训练数据集;基于第三数据集形成第四训练数据集;并且利用第四训练数据集训练第二分类器。附图说明将参考说明书、权利要求和附图来领会和理解本公开的这些和其他特征以及优点,其中:图1是根据本公开的实施例的用于分类的系统的框图;图2是根据本公开的实施例的用于训练和验证分类器的方法的流程图;图3A是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;图3B是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;图3C是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;图3D是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;图3E是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;图3F是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;图4是根据本公开的实施例的测试结果的表格;以及图5是根据本公开的实施例的测试结果的表格。具体实施方式以下结合附图阐述的详细描述旨在描述根据本公开提供的用于数据扩充的系统和方法的示例性实施例,并且不旨在表示本公开可被构造或利用的唯一形式。描述结合所例示的实施例阐述了本公开的特征。然而,应理解,相同或等效的功能和结构可以通过旨在也被涵盖在本公开的范围内的不同实施例来完成。如本文中其他地方所指代的,相同的附图标记旨在指示相同的元素或特征。二元类的分类器可以具有将数据样本分配给两个类中的一个的任务,并且用于训练这种分类器的训练数据可能存在显著失衡。例如,在用于制造电子部件的制造过程中,可能的情况是多数的部件是可接受的或“良好的”,而少数的部件在某些方面有缺陷或“不良好的”。为此,当在制造和测试过程期间获得数据时,大多数的数据可能来自良好的设备,即,数据中可能存在不平衡。当训练自动分类器以将部件分类为“良好”或“不良好”时,这种不平衡可能成为障碍。此外,针对每个部件获得的测量值的数量可能很大,即,每个数据样本(数据元,是要被分类的项目(诸如被制造的部件)的测量值的集合)的维度可能很大。当训练自动分类器时,尤其是鉴于每个数据元的维度当任一类的训练数据元的数量少时,这可能是进一步的障碍。例如,当制造移动显示器时,可以在显示面板的制造过程期间获取跟踪数据。跟踪数据可以包括例如作为时间的函数的、在制造过程中的温度和压力的测量值。可以使用多个温度传感器和压力传感器,并且每个传感器可以被采样多次(例如,在几天的时间内,每天三次或四次)。由这些测量值产生的跟踪数据可以例如包括大约64次跟踪,每次跟踪具有大约304个测量值,例如,总计超过19000个测量值,使得每个数据元具有超过19000个维度。如以下进一步详细描述的,各种方法可以被使用以解决以上提到的障碍中的一些。参考图1,在一些实例中,用于检测故障部件的系本文档来自技高网...

【技术保护点】
1.一种用于分类的方法,所述方法包括:/n从被标记的输入数据集形成第一训练数据集和第二训练数据集;/n利用所述第一训练数据集训练第一分类器;/n利用所述第二训练数据集训练变分自编码器,所述变分自编码器包括编码器和解码器;/n通过将伪随机向量馈入所述解码器,来生成第三数据集;/n使用所述第一分类器标记所述第三数据集,以形成第三训练数据集;/n基于所述第三数据集形成第四训练数据集;并且/n利用所述第四训练数据集训练第二分类器。/n

【技术特征摘要】
20190405 US 62/830,131;20190614 US 16/442,2981.一种用于分类的方法,所述方法包括:
从被标记的输入数据集形成第一训练数据集和第二训练数据集;
利用所述第一训练数据集训练第一分类器;
利用所述第二训练数据集训练变分自编码器,所述变分自编码器包括编码器和解码器;
通过将伪随机向量馈入所述解码器,来生成第三数据集;
使用所述第一分类器标记所述第三数据集,以形成第三训练数据集;
基于所述第三数据集形成第四训练数据集;并且
利用所述第四训练数据集训练第二分类器。


2.根据权利要求1所述的方法,其中,所述第一训练数据集是所述被标记的输入数据集。


3.根据权利要求1所述的方法,其中,所述第二训练数据集是所述被标记的输入数据集。


4.根据权利要求1所述的方法,其中,所述形成第一训练数据集包括:
对所述被标记的输入数据集进行过采样,以产生第一补充数据集;并且
组合所述被标记的输入数据集和所述第一补充数据集,以形成所述第一训练数据集。


5.根据权利要求4所述的方法,其中,所述对所述被标记的输入数据集进行过采样包括使用合成少数类过采样技术。


6.根据权利要求4所述的方法,其中,所述对所述被标记的输入数据集进行过采样包括使用自适应合成过采样技术。


7.根据权利要求4所述的方法,其中,所述第四训练数据集与所述第三训练数据集相同。


8.根据权利要求4所述的方法,其中,所述形成第四训练数据集包括:组合所述被标记的输入数据集的第一部分和所述第三训练数据集,以形成所述第四训练数据集。


9.根据权利要求4所述的方法,其中,所述形成第四训练数据集包括:组合所述被标记的输入数据集的第一部分、所述第一补充数据集和所述第三训练数据集,以形成所述第四训练数据集。


10.根据权利要求9所述的方法,进一步包括:利用与所述被标记的输入数据集的所述第一部分不同的所述被标记的输入数据集的第二部分,来验证所述第二分类器。


11.根据权利要求1所述的方法,其中,所述形成第二训练数据集包括:
对所述被标记的输入数据集进行过采样,以产生第一补充数据集;并且
组合所述被标记的输入数据集和所...

【专利技术属性】
技术研发人员:李章焕
申请(专利权)人:三星显示有限公司
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1