到相关类别的分类制造技术

技术编号:26514572 阅读:51 留言:0更新日期:2020-11-27 15:44
一种训练机器学习系统的方法,该方法包括:针对测试案例在类别识别方面训练机器学习系统,其中,机器学习系统输出答案向量,并且将答案向量和控制向量进行比较,其中控制向量包括三个不同的值,该值包括:针对测试案例的匹配类别的第一值;针对测试案例的不匹配类别的第二值;以及针对与测试案例的匹配类别有关的第一类别的第三值,其中,第三值与第一值不同,并且第三值与第二值不同。

【技术实现步骤摘要】
【国外来华专利技术】到相关类别的分类
技术介绍
人类似乎具有与生俱来的分类的能力。人为分类是复杂的,并且不是很好理解的。这已经使得开发基于机器的分类的方法是有挑战性的。作为结果,基于机器的分类已经采取了与人为分类不同的路径。例如,当今社会继续把机器没有能力识别变形的字母和数字用作将对系统的访问限于人类的方式。这种变形的字母和数字可以是“全自动区分计算机和人类的图灵测试”或CAPTCHA。附图说明附图图示了本文中描述的原理的各种示例并且是说明书的一部分。所图示的示例并不限制权利要求的范围。图1示出了根据与本说明书一致的示例的用于训练机器学习系统的方法。图2示出了根据与本说明书一致的示例的用于训练机器学习系统的系统。图3示出了根据与本说明书一致的示例的用于将数字类别标识符集合转换成控制向量集合的系统的示例。图4示出了与本说明书一致的类别标识训练系统。图5示出了根据与本说明书一致的示例的用于将预先存在的类别信息映射到类别向量和控制向量中的示例。图6示出了根据与本说明书一致的示例的包括机器学习系统的类别标识系统,该机器学习系统被训练成从图像来确定取向。遍及附图,相同的附图标记指示类似但不一定相同的元件。各图不一定是按比例的,并且某些部分的大小可能被放大或最小化以更清楚地图示所示示例。附图提供与本描述一致的示例和/或实现方式。然而,本描述不限于附图中所示的示例和/或实现方式。具体实施方式机器如何实行分类的一个挑战是机器产生的错误答案的质量。并非所有不正确的答案都是同等地错误的。取而代之,一些答案更不正确,而一些答案更加正确。例如,在图像分类系统中,如果示出了油桃的图像,则将该图像标识为自行车比将该图像标识为李子更不正确。与自行车和油桃相比,油桃和李子更加相关。类似地,数字和/或评级的类别在相邻类别之间比在远距离类别之间具有更多关系。例如,如果按1到5的标度给电影评级,其中“真实”值为4,则3或5的错误分类的不正确程度低于1或2的错误分类的不正确程度,1或2的错误分类更加远离真实值。类似地,考虑尝试根据图像来估计人类年龄的系统。如果该人类实际上是50岁,则46的答案比20的答案更加准确。类别也可能基于它们的具体性而更加正确或更不正确。例如,如果图像示出了渡鸦,则将该图像标识为乌鸦是不正确的。然而,将该图像标识为鸟类既是正确的、又不如将该图像标识为渡鸦那么正确。儿童和/或非专家可以通过对象的类别名称来命名项目,这是因为他们尚未得知正被考虑的特定对象的具体名称。这也是具有有限词汇量的第二语言的人员所使用的一种技术,其中该技术被称为“迂回曲折的说法(circumlocution)”。对于某些情况,类别名称是足够的标识。例如,当一组工具中有一个锤子时,对“锤子”的引用可能是足够的。在这种情况下,在仅有一个锤子的情况下,“带有黄色手柄的羊角锤”的标识可能是无益的,并且在一些情况下可能是浪费的。多余的信息可能与手头的任务无关,并且可能需要花费附加的时间或努力来处理。因此,一旦已经基于情境唯一地标识了某物,附加的子分类可能是不太有用的。当实行类别识别时,机器学习系统可以具有类别集合。机器学习系统输出一向量,该向量具有以下值:该值针对的是将输入和与该向量的索引值相关联的类别进行比较的结果。例如,如果存在匹配,则该系统可以将值1指派给与该类别相对应的答案向量中的空间。在这种情况下,值1被用来指示匹配。如果不存在匹配,则该系统可以将值0指派给与该类别相对应的答案向量中的空间。在这种情况下,值0被用来指示不匹配。值1和0被用作占位符,其具有适合于匹配的任一个值和用于不匹配的任一个不同的值。例如,匹配可以由第一个值来表示,而不匹配可以由第二个不同的值来表示。值0和1由于其紧凑性(能够以单个二进制位来表示)而经常被用在计算机科学和逻辑中。尽管在这种方案中,1通常被用来表示TRUE或匹配,而0被用来表示FALSE或不匹配,但是可以在不脱离本公开的范围的情况下表示实际值与信息之间的其他关联。例如,可以将TRUE和/或FALSE的值切换,和/或用其他值来替换它们。该系统可以使用浮点值、负数和/或其他值来表示TRUE、FALSE和/或中间值。例如,甚至可以设想使用文本字符串来表示这些值。可以在不脱离本公开的范围的情况下以任何合理的格式对信息进行编码。倾向于将0用于FALSE并且将1用于TRUE、其中中间值表示与TRUE类别相关联的类别,这是由于其与计算机科学中的默认值的一致性。然而,该二进制兼容方法对于实现本说明书的主题来说并不是必要的。例如,考虑如下系统:其中答案向量表示基本方向(北、东、南、西),其具有从0(无关)到1(所命名的方向)的范围。这种构造不会防止在相反方向上的部分正值,因此机器学习系统可能会输出在北和南两者中都包含非零值的答案。相比之下,还可以将输出组织为范围从1到-1的两个值,使得类别向量取而代之地表示(北-南、东-西)。因此,答案向量(1,0)将表示北,而答案向量(-1,0)表示南,这两个答案都不具有东-西分量。该方法可以在约束机器学习系统的潜在答案的范围方面提供益处。一些机器学习系统可以在其答案向量中输出概率数组,其中该向量中的每个值对应于与相关联的类别匹配的概率。在一些实例中,在与学习集合中的“真实”值进行比较之前,将这种答案向量归一化。归一化可以包括将最大百分比设置成1,而将其余值设置成0。答案向量可以经受二次处理以产生答案。在许多情况下,该答案是与答案向量中的最大概率(或最大量值)相关联的类别。然而,如下面讨论的,当向量包括重叠的类别时,可以对此进行修改。在其中父类别具有答案向量中的最大概率的实例中,确定父类别的子类别是否在高于阈值的情况下匹配可能是有用的。如果子类别在高于阈值的情况下匹配,则可以将子类别的标识选择为答案,这是由于子类别提供了更多信息。例如,金毛寻回犬的图像既是狗的图像、又是金毛寻回犬的图像。然而,金毛寻回犬的答案相比于狗的答案提供了更多信息,这是因为金毛寻回犬包括父类别(狗)的属性。在一些实例中,答案可能包括父类别和子类别两者,例如,“狗:金毛寻回犬”。在学习集合案例的情况下提供的“真实”值可以是具有单个值1(匹配)以及其余值为0(不匹配)的控制向量。机器学习系统可以测量答案向量与控制向量之间的差。这两个向量之间的这种差可以被用来向机器学习系统提供关于答案向量的质量的反馈。机器学习系统可以使用最小化、最大化或其他类型的方法,这取决于为机器学习系统所选择的参数。例如,最小化可以被表示为答案与真实值之间的每个值的差的绝对值之和。该最小化可以是答案向量与答案向量之间的差的平方和。可以容易地替换其他最小化函数。在其他方法中,可以将该系统设计成使控制向量与答案向量之间的差最大化。可以像Argmin方法那样容易地应用Argmax方法。类似地,在不脱离本公开的范围的情况下,可以使用用于向机器学习系统提供反馈的其他比较。考虑具有(苹果,桃,李子,油桃,自行车,树)作为前六个类别的类别向量。对于李子的学习集合图像,控制向量可以是(0,0,1,0,0,0)。因此,本文档来自技高网...

【技术保护点】
1.一种用于训练机器学习系统的方法,所述方法包括:/n针对测试案例在类别标识方面训练机器学习系统,其中机器学习系统输出答案向量,并且答案向量与控制向量被进行比较,其中控制向量包括三个不同的值,所述值包括:/n针对测试案例的匹配类别的第一值;/n针对测试案例的不匹配类别的第二值;以及/n针对与测试案例的匹配类别有关的第一类别的第三值,其中第三值与第一值不同,并且第三值与第二值不同。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于训练机器学习系统的方法,所述方法包括:
针对测试案例在类别标识方面训练机器学习系统,其中机器学习系统输出答案向量,并且答案向量与控制向量被进行比较,其中控制向量包括三个不同的值,所述值包括:
针对测试案例的匹配类别的第一值;
针对测试案例的不匹配类别的第二值;以及
针对与测试案例的匹配类别有关的第一类别的第三值,其中第三值与第一值不同,并且第三值与第二值不同。


2.根据权利要求1所述的方法,其中类别标识中的类别包括一系列数字。


3.根据权利要求2所述的方法,其中类别标识中的类别包括整数集合,所述整数包括所述集合中的最小整数与所述集合中的最大整数之间的全部整数。


4.根据权利要求1所述的方法,其中测试案例包括图像。


5.根据权利要求1所述的方法,其中测试案例包括三维模型。


6.根据权利要求1所述的方法,其中第三值是由处理器基于类别标识符来计算的。


7.根据权利要求2所述的方法,其中匹配案例以及与匹配类别有关的第一类别具有以1而分离的类别标识符。


8.根据权利要求7所述的方法,进一步包括针对与测试案例的匹配类别有关的第二类别的第四值,其中匹配案例以及与匹配类别有关的第二类别具有以1而分离的类别标识符,第一类别和第二类别的类别标识符以2而分离,并且第三值与第四值...

【专利技术属性】
技术研发人员:R·迪亚斯加西亚
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1