一种基于相似度的多示例字典学习分类方法及装置制造方法及图纸

技术编号：21433369 阅读：22 留言：0更新日期：2019-06-22 12:16

本发明专利技术公开了一种基于相似度的多示例字典学习分类方法，包括：获得训练集；针对从正包集合中选择出的每个正候选示例，重复执行以下步骤，循环迭代，训练分类器，直至满足预设的迭代停止条件：分别计算训练集中每个示例对于正类和负类的相似性权重；将训练集中每个示例经过字典学习，获得每个示例的稀疏编码；学习一个投影字典，将每个示例的稀疏编码重新表示；基于投影重新表示的每个示例及每个示例的相似性权重，训练分类器；基于训练后的分类器，获得目标包所属类别。应用本发明专利技术实施例所提供的技术方案，可以对目标包进行类别的准确确定，提高了分类器的分类效果。本发明专利技术还公开了一种基于相似度的多示例字典学习分类装置，具有相应技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于相似度的多示例字典学习分类方法及装置
本专利技术涉及计算机应用
，特别是涉及一种基于相似度的多示例字典学习分类方法及装置。
技术介绍
随着计算机技术的快速发展，多示例学习的受关注程度越来越高。多示例学习被提出是用来解决包的分类问题的，包中由许多示例所构成。对于一个正包，它至少包含一个正示例，相反的，对于负包，它仅仅由负示例所构成。如今，多示例学习已经广泛地应用于多种现实领域，例如：对于药物分子活性预测、数据挖掘、图像分类、文本分类、恶意软件分类等等。以图像分类为例，大多数情况下，是将整副图像进行标记，而不是将图像中的每个区域进行标记。如图1所示，在这副被标记为“马”的图像中，除了包含与标记为“马”对应的区域外，还包含其他与标记无关的区域，如“草地”、“树木”，这些无关的区域往往会成为“噪声”，影响分类器的分类效果。有人提出对图像的每个区域进行精确标记来排除掉这些噪声区域对分类器分类效果的影响，但是这样做需要花费很大的人力、物力。但是，如果把图像分割成许多区域，每个区域看作是一个示例，图像看作是包，则图像分类问题就可以在多示例学习的框架下得以解决。此外，如果图像中至少有一个区域包含所指示的对象，则此图像就被称为正包，否则，这张图像就叫做负包。利用多示例学习可以提高图像分类的效率。目前，关于多示例学习已经做了很多工作。常见的如DiverseDensity(DD)方法，旨在找到一个数据点(目标概念)，该数据点与正包中的示例最接近，与负包的示例最远。如果所选数据点与其任何示例之间的距离均小于阈值，则测试包被分类为正。而在实际应用中，训练集正包中的模糊...

【技术保护点】
1.一种基于相似度的多示例字典学习分类方法，其特征在于，包括：获得训练集，所述训练集包含正包集合和负包集合，所述正包集合和所述负包集合中的每个示例均由基于相似性的数据模型表示；依次从所述正包集合中选择一个正候选示例，针对选择出的每个正候选示例，重复执行以下步骤，循环迭代，训练基于支持向量机的分类器，直至满足预设的迭代停止条件：分别计算所述训练集中每个示例对于正类和负类的相似性权重，其中，所述正候选示例与正类和负类的相似性权重分别为1和0，所述负包集合中的每个示例与正类和负类的相似性权重分别为0和1；将所述训练集中每个示例经过字典学习，获得每个示例的稀疏编码；学习一个投影字典，将每个示例的稀疏编码重新表示；基于投影重新表示的每个示例及每个示例的相似性权重，训练所述分类器；基于训练后的所述分类器，获得待进行类别确定的目标包所属类别。

【技术特征摘要】
1.一种基于相似度的多示例字典学习分类方法，其特征在于，包括：获得训练集，所述训练集包含正包集合和负包集合，所述正包集合和所述负包集合中的每个示例均由基于相似性的数据模型表示；依次从所述正包集合中选择一个正候选示例，针对选择出的每个正候选示例，重复执行以下步骤，循环迭代，训练基于支持向量机的分类器，直至满足预设的迭代停止条件：分别计算所述训练集中每个示例对于正类和负类的相似性权重，其中，所述正候选示例与正类和负类的相似性权重分别为1和0，所述负包集合中的每个示例与正类和负类的相似性权重分别为0和1；将所述训练集中每个示例经过字典学习，获得每个示例的稀疏编码；学习一个投影字典，将每个示例的稀疏编码重新表示；基于投影重新表示的每个示例及每个示例的相似性权重，训练所述分类器；基于训练后的所述分类器，获得待进行类别确定的目标包所属类别。2.根据权利要求1所述的方法，其特征在于，所述基于相似性的数据模型中的元素包括示例、示例对于正类的相似性权重和示例对于负类的相似性权重。3.根据权利要求1所述的方法，其特征在于，所述依次从所述正包集合中选择一个正候选示例，包括：按照所述正包集合中每个示例与所述正包集合的相似度从大到小的顺序，依次将所述正包集合中的每个示例作为正候选示例。4.根据权利要求1所述的方法，其特征在于，所述分别计算所述训练集中每个示例对于正类和负类的相似性权重，包括：针对所述训练集中除所述正候选示例和所述负包集合外的每个示例，根据该示例与所述正候选示例的相似度，及该示例与所述负包集合的负相似度，计算该示例对于正类的相似性权重；根据该示例与所述负包集合的相似度，及该示例与所述正候选示例的负相似度，计算该示例对于负类的相似性权重。5.根据权利要求1至4之中任一项所述的方法，其特征在于，所述将所述训练集中每个示例经过字典学习，获得每个示例的稀疏编码，包括：根据以下公式将所述训练集中每个示例经过字典学习，获得每个示例的稀疏编码：其中，λ和ρ均为大于0的标量常数，是一个合成字典，通过最小化重构误差项获得，是合成字典A的惩罚项，||E||2,1是稀疏编码E＝[e1,e2,…,ei,…,el]的惩罚项，用于保持所学习到的特征是稀疏性的，训练集X＝{(x1，y1)，(x2，y2)，…(x1，y1)，…，(x1，y1)}，i＝1,2,…,l，l为所述训练集中示例总数，xi表示示例，yi表示标签。6.根据权利要求5所述的方法，其特征在于，所述学习一个投影字典，将每个示例的稀疏编码重新表示，包括：通过以下公式学习一个投影字典，将每个示例的稀疏编码重新表示：其中，表示投影字典，是投影字典P的惩罚项，能够保持投...

【专利技术属性】
技术研发人员：倪文，刘波，肖燕珊，廖嘉林，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人