一种最小距离分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24011566 阅读:43 留言:0更新日期:2020-05-02 01:55
本申请涉及一种最小距离分类方法、装置、计算机设备和存储介质。所述方法包括:获取训练样本数据集;所述训练样本数据集包括多个类别,每个类别包括多个训练样本,每个所述训练样本都带有类别标签,每个所述训练样本包括多个特征向量和所述特征向量的值;根据所述训练样本数据集计算分类参数;其中,所述分类参数包括用于计算加权标准化修正距离的各类别的所述特征向量对应的中心特征向量、各特征向量的总体均值和各特征向量的总体标准差;根据所述分类参数构建分类器;将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别。采用本方法能够提高测试样本的分类准确性。

A minimum distance classification method, device, computer equipment and storage medium

【技术实现步骤摘要】
一种最小距离分类方法、装置、计算机设备和存储介质
本申请涉及图像处理
,特别是涉及一种最小距离分类方法、装置、计算机设备和存储介质。
技术介绍
现有的最小距离分类法通过求出未知类别向量X到事先已知的各类别(如类别A,B,C等等)中心向量的距离D,然后将未知类别向量X归结为距离D最小的那一类别的分类方法,这种分类方法是分类器里面最基本的一种分类方法。然而,现有的最小距离分类法在对分布不均衡的分类问题时,容易产生分类错误,例如,如图1所示,在显示屏缺陷检测中,发光电子原件主要有“坏点”、“坏线”、“Mura”等缺陷,表面有“划痕”、“脏污”等缺陷,“坏点”为单个或相邻不超过4个像素点的坏损,“坏线”为长短不一的线形坏损,“Mura”表现为大小形状不一的块状,而表面的“划痕”、“脏污”可以认为是形状不一的曲线和团块,比如分类类别A类为“点”,分类类别B类为“线”,在面积、周长等特征维度上,“点”都是高度聚集的,而“线”则是分布松散的,未知类别向量X实际是属于B类“线”,但很有可能未知类别向量X与B类中心的距离要比与A类中心的距离远,而将未知类别向量X归为A类“点”,导致分类错误。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高测试样本分类准确性的最小距离分类方法、装置、计算机设备和存储介质。一种最小距离分类方法,所述方法包括:获取训练样本数据集;所述训练样本数据集包括多个类别,每个类别包括多个训练样本,每个所述训练样本都带有类别标签,每个所述训练样本包括多个特征向量和所述特征向量的值;根据所述训练样本数据集计算分类参数;其中,所述分类参数包括用于计算加权标准化修正距离的各类别的所述特征向量对应的中心特征向量、各特征向量的总体均值和各特征向量的总体标准差;根据所述分类参数构建分类器;将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别。在其中一个实施例中,所述根据所述训练样本数据集计算分类参数,包括:根据所述训练样本数据集中每个所述特征向量的值,计算每个所述特征向量的总体均值和总体标准差。在其中一个实施例中,在根据所述训练样本数据集中每个所述特征向量的值,计算每个所述特征向量的总体均值和总体标准差之后,包括:根据每个类别中所有训练样本中每个所述特征向量的值、每个所述特征向量的总体均值和每个所述特征向量的总体标准差,计算每个类别的每个所述特征向量对应的中心特征向量;其中,所述中心特征向量用于计算加权标准化修正距离。在其中一个实施例中,在根据每个类别中所有训练样本中每个所述特征向量的值、每个所述特征向量的总体均值和每个所述特征向量的总体标准差,计算每个类别的每个所述特征向量对应的中心特征向量之后,包括:根据所有所述类别的所有所述训练样本的每个所述特征向量的值、每个所述特征向量的总体均值、每个所述特征向量的总体标准差和所有所述类别的每个所述特征向量对应的中心特征向量,计算每个所述特征向量的权重。在其中一个实施例中,在根据每个类别中所有训练样本中每个所述特征向量的值、每个所述特征向量的总体均值和每个所述特征向量的总体标准差,计算每个类别的每个所述特征向量对应的中心特征向量之后,包括:根据每个所述类别的所有训练样本的所有所述特征向量的值、所有所述特征向量的总体均值、所有所述特征向量的总体标准差和每个所述类别中所有所述特征向量对应的中心特征向量,计算每个类别的距离分布标准差。在其中一个实施例中,所述将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别,包括:获取测试样本的特征向量的值;根据所述测试样本的所述特征向量的值、所述测试样本的所述特征向量的总体均值和所述测试样本的所述特征向量的总体标准差,计算所述测试样本的所述特征向量的特征向量标准化值;根据所述测试样本的所有所述特征向量的特征向量标准化值和所述分类参数,计算测试样本的所有所述特征向量与每个类别的加权标准化修正距离;选取最小的加权标准化修正距离对应的所述类别作为所述测试样本的预测类别。在其中一个实施例中,所述将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别,包括:获取测试样本的特征向量的值;根据所述测试样本的所述特征向量的值、所述测试样本的所述特征向量的总体均值和所述测试样本的所述特征向量的总体标准差,计算所述测试样本的所述特征向量的特征向量标准化值;根据所述测试样本的所有所述特征向量的特征向量标准化值、所述测试样本的所有所述特征向量的权重、所述测试样本的所有所述特征向量在每个所述类别中对应的中心特征向量和每个类别的距离分布标准差,计算所述测试样本的所有所述特征向量与每个类别的加权标准化修正距离;选取最小的加权标准化修正距离对应的所述类别作为所述测试样本的预测类别。一种最小距离分类装置,所述装置包括:训练样本数据集获取模块,用于获取训练样本数据集;所述训练样本数据集包括多个类别,每个类别包括多个训练样本,每个所述训练样本都带有类别标签,每个所述训练样本包括多个特征向量和所述特征向量的值;分类参数计算模块,用于根据所述训练样本数据集计算分类参数;其中,所述分类参数包括用于计算加权标准化修正距离的各类别的所述特征向量对应的中心特征向量、各特征向量的总体均值和各特征向量的总体标准差;分类器构建模块,用于根据所述分类参数构建分类器;预测类别获取模块,用于将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取训练样本数据集;所述训练样本数据集包括多个类别,每个类别包括多个训练样本,每个所述训练样本都带有类别标签,每个所述训练样本包括多个特征向量和所述特征向量的值;根据所述训练样本数据集计算分类参数;其中,所述分类参数包括用于计算加权标准化修正距离的各类别的所述特征向量对应的中心特征向量、各特征向量的总体均值和各特征向量的总体标准差;根据所述分类参数构建分类器;将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取训练样本数据集;所述训练样本数据集包括多个类别,每个类别包括多个训练样本,每个所述训练样本都带有类别标签,每个所述训练样本包括多个特征向量和所述特征向量的值;根据所述训练样本数据集计算分类参数;其中,所述分类参数包括用于计算加权标准化修正距离的各类别的所述特征向量对应的中心特征向量、各特征向量的总体均值和各特征向量的总体标准差;根据所述分类参数构建分类器;将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别。上述最小距离分类方法、装置、计算机设备和存储介质,通过包括用于计算加权标准化修正距离的各类别的中心特征向量、各特征向量的总体均值和各特征向量的总体标准差的分类参本文档来自技高网...

【技术保护点】
1.一种最小距离分类方法,其特征在于,所述方法包括:/n获取训练样本数据集;所述训练样本数据集包括多个类别,每个类别包括多个训练样本,每个所述训练样本都带有类别标签,每个所述训练样本包括多个特征向量和所述特征向量的值;/n根据所述训练样本数据集计算分类参数;其中,所述分类参数包括用于计算加权标准化修正距离的各类别的所述特征向量对应的中心特征向量、各特征向量的总体均值和各特征向量的总体标准差;/n根据所述分类参数构建分类器;/n将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别。/n

【技术特征摘要】
1.一种最小距离分类方法,其特征在于,所述方法包括:
获取训练样本数据集;所述训练样本数据集包括多个类别,每个类别包括多个训练样本,每个所述训练样本都带有类别标签,每个所述训练样本包括多个特征向量和所述特征向量的值;
根据所述训练样本数据集计算分类参数;其中,所述分类参数包括用于计算加权标准化修正距离的各类别的所述特征向量对应的中心特征向量、各特征向量的总体均值和各特征向量的总体标准差;
根据所述分类参数构建分类器;
将测试样本的所述特征向量输入所述分类器,得到所述测试样本的预测类别。


2.根据权利要求1所述的方法,其特征在于,所述根据所述训练样本数据集计算分类参数,包括:
根据所述训练样本数据集中每个所述特征向量的值,计算每个所述特征向量的总体均值和总体标准差。


3.根据权利要求2所述的方法,其特征在于,在根据所述训练样本数据集中每个所述特征向量的值,计算每个所述特征向量的总体均值和总体标准差之后,包括:
根据每个类别中所有训练样本中每个所述特征向量的值、每个所述特征向量的总体均值和每个所述特征向量的总体标准差,计算每个类别的每个所述特征向量对应的中心特征向量;其中,所述中心特征向量用于计算加权标准化修正距离。


4.根据权利要求3所述的方法,其特征在于,在根据每个类别中所有训练样本中每个所述特征向量的值、每个所述特征向量的总体均值和每个所述特征向量的总体标准差,计算每个类别的每个所述特征向量对应的中心特征向量之后,包括:
根据所有所述类别的所有所述训练样本的每个所述特征向量的值、每个所述特征向量的总体均值、每个所述特征向量的总体标准差和所有所述类别的每个所述特征向量对应的中心特征向量,计算每个所述特征向量的权重。


5.根据权利要求3所述的方法,其特征在于,在根据每个类别中所有训练样本中每个所述特征向量的值、每个所述特征向量的总体均值和每个所述特征向量的总体标准差,计算每个类别的每个所述特征向量对应的中心特征向量之后,包括:
根据每个所述类别的所有训练样本的所有所述特征向量的值、所有所述特征向量的总体均值、所有所述特征向量的总体标准差和每个所述类别中所有所述特征向量对应的中心特征向量,计算每个类别的距离分布标准差。


6.根据权利要求1所述的方法,其特征在于,所述将测试样本的所述特征向量输入所述分类器,得到所述测...

【专利技术属性】
技术研发人员:周才健周柔刚杨亮亮盛锦华
申请(专利权)人:杭州汇萃智能科技有限公司苏州汇萃智能科技有限公司金华汇萃智能科技有限公司广东广源智能科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1