一种用于对样本进行可视化的方法和系统技术方案

技术编号:38759762 阅读:18 留言:0更新日期:2023-09-10 09:44
本发明专利技术提出一种用于对样本进行可视化的方法和系统,其中,系统包括:接收模块用于接收多个样本,每个样本的信息包括该样本的重要度、特征向量、以及初始分类类别;投影模块用于根据每个样本对应的特征向量,获得每个样本在二维平面上的各自的投影点;平面图生成模块用于获得投影点在所述二维平面上构建的初始平面图;子区域生成模块用于获得所述二维平面上的多个子区域,其中每个子区域对应每个样本;圆包装布局生成模块用于获得每个样本在二维平面上对应的各自的圆;以及可视化模块用于根据每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。对所述多个样本进行可视化展示。对所述多个样本进行可视化展示。

【技术实现步骤摘要】
一种用于对样本进行可视化的方法和系统


[0001]本专利技术属于数据的可视化
,特别提出一种用于对样本进行可视化的方法和系统。

技术介绍

[0002]数据可视化可以将抽象的数据通过直观的方式展现,帮助用户理解数据中的模式并发现其中可能存在的问题,从而提高数据分析的效率。例如,通过将高维数据映射到低维空间并且以散点图的形式进行展示,可以帮助用户直观的观察数据的分布,理解数据的分类情况,更加方便找到数据中分类错误的点,这些点被称为离群点。然而,散点图中存在过度绘制和视觉标记重叠等问题,不利于用户对感兴趣的样本进行观察与分析。圆包装布局是数据可视化中的一种常用的展示形式,具有视觉编码简单易懂、布局美观等优点。在圆包装布局中,每个样本被表示为一个圆,圆的大小(半径)通常编码数据中的某些数值属性(如样本的重要度),圆的颜色表示其对应样本的初始分类类别,这些不同大小的圆被紧密包装在一起。由于在圆包装布局中,不同的圆之间不存在重叠,因此可以利用圆包装布局方便地进行需要探索样本的任务,比如修复图像数据中的错误类标。

技术实现思路

[0003]以下描述包括体现本专利技术技术的示例性方法、系统、技术和指令序列。然而,应该理解,在一个或多个方面,可以在没有这些具体细节的情况下实践所描述的专利技术。在其他情况下,没有详细示出公知的协议、结构和技术,以免模糊本专利技术。本领域普通技术人员将理解,所描述的技术和机制可以应用于对值进行排序的各种体系结构。
[0004]根据本专利技术的一个方面,提出了一种用于对样本进行可视化的系统,包括:接收模块,被配置为接收多个样本,所述多个样本中的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样本的初始分类类别;投影模块,被配置为根据所述多个样本中的每个样本对应的特征向量,获得所述多个样本中的每个样本在二维平面上的各自的投影点;平面图生成模块,被配置为获得所述多个样本中的每个样本的各自的投影点在所述二维平面上构建的初始平面图;子区域生成模块,被配置为根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域,其中所述多个子区域的每个子区域对应所述多个样本中的每个样本;圆包装布局生成模块,被配置为根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆,其中每个圆的参数包括圆心、半径、以及颜色;以及可视化模块,被配置为根据所述多个样本中的每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。
[0005]根据本专利技术的另一个方面,提出了一种用于对样本进行可视化的方法,包括:接收多个样本,所述多个样本中的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样本的初始分类类别;根据所述多个样本中的每个样本对应的特征向量,获得所
述多个样本中的每个样本在二维平面上的各自的投影点;获得所述多个样本中的每个样本的各自的投影点在所述二维平面上构建的初始平面图;根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域,其中所述多个子区域的每个子区域对应所述多个样本中的每个样本;根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆,其中每个圆的参数包括圆心、半径、以及颜色;以及根据所述多个样本中的每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。
[0006]根据本专利技术的又一方面,提出了一种用于对样本进行可视化的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,所述程序指令可由计算设备执行以使得计算设备执行如上所述的方法。
附图说明
[0007]通过参照附图阅读下面对说明性实施例的具体实施方式可更好地理解专利技术本身以及其优选使用模式、目标、特征以及优点,在附图中:
[0008]图1A示出了一个服装图片数据集中的7个样本;
[0009]图1B示出了图1A中的7个样本通过圆包装布局可视化得到的结果;
[0010]图2示出了对若干图片样本通过现有方法进行圆包装布局的可视化结果;
[0011]图3示出了根据本专利技术的一个或多个实施例的一种用于对样本进行可视化的系统的结构框图;
[0012]图4A示出了投影在二维平面上的5个样本对应的投影点;
[0013]图4B示出了图4A中的投影点建立的初始平面图结果;
[0014]图5示出了根据本专利技术的一个或多个实施例的一种将凸包区域划分为多个子区域的流程图;
[0015]图6A

6D示出了将图4B的凸包区域划分为多个子区域的过程;
[0016]图7A

7C示出了根据得到的图6D的多个子区域,获得每个样本在二维平面上对应的圆的过程;
[0017]图8示出了根据本专利技术的一个或多个实施例的一种用于对样本进行可视化的方法的流程图;
[0018]图9示出了一个基于本专利技术的方法开发的可视化系统中对一个存在离群点的图像数据集进行可视化的界面。
具体实施方式
[0019]下面参照附图来说明本专利技术的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本专利技术。但是,对于本
内的技术人员明显的是,本专利技术的实现可不具有这些具体细节中的一些。此外,应当理解的是,本专利技术并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本专利技术,而无论它们是否涉及不同的实施例。并且,方法的步骤并不限于所说明的顺序,其中,很多步骤的顺序可以进行调整。因此,下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素
或限定,除非权利要求中明确提出。
[0020]随着网络技术的发展,大数据研究成为一个热点话题,对于大数据分类、深入分析的需求日益增加。数据可视化可以将抽象的数据通过直观的方式展现,帮助用户理解数据中的模式并发现其中可能存在的问题,从而提高数据分析的效率。圆包装布局是数据可视化中的一种常用的展示形式,具有视觉编码简单易懂、布局美观等优点。在圆包装布局中,每个样本被表示为一个圆,圆的大小(半径)通常编码数据中的某些数值属性(如样本的重要度),圆的颜色表示其对应样本的初始分类类别,这些不同大小的圆被紧密包装在一起。由于在圆包装布局中,不同的圆之间不存在重叠,因此可以利用圆包装布局方便地进行样本探索的任务,比如修复图像数据中的错误类标,寻找离群点等等。
[0021]例如,图1A示出了一个服装图片数据集中的7个样本,其中样本101

107表示衬衫图片,每个样本对应一个特征集(也称特征向量)和一个初始分类类别(该初始分类类别可以是人工标注的,也可以是其他方法获得的,不一定是根据该样本对应的特征向量进行分类而获得的)。样本101的初始分类类别是夹克衫,样本102

107的初始分类类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对样本进行可视化的系统,所述系统包括:接收模块,被配置为接收多个样本,所述多个样本中的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样本的初始分类类别;投影模块,被配置为根据所述多个样本中的每个样本对应的特征向量,获得所述多个样本中的每个样本在二维平面上的各自的投影点;平面图生成模块,被配置为获得所述多个样本中的每个样本的各自的投影点在所述二维平面上构建的初始平面图;子区域生成模块,被配置为根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域,其中所述多个子区域的每个子区域对应所述多个样本中的每个样本;圆包装布局生成模块,被配置为根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆,其中每个圆的参数包括圆心、半径、以及颜色;以及可视化模块,被配置为根据所述多个样本中的每个样本对应的各自的圆,在所述二维平面上对所述多个样本进行可视化展示。2.根据权利要求1所述的系统,其中所述每个圆的半径表示该圆对应的样本的重要度,所述每个圆的颜色表示该圆对应的样本的初始分类类别,任意两个圆之间的距离表示这两个圆对应的两个样本之间的相似度。3.根据权利要求1所述的系统,该系统还包括:离群点确定模块,被配置为响应于在所述二维平面上的一个特定样本对应的圆的颜色与相邻的多个颜色相同的圆的颜色不同,确定所述特定样本为离群点。4.根据权利要求1

3之一所述的系统,其中根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,获得所述二维平面上的多个子区域包括:根据所述多个样本中的每个样本的各自的投影点以及所述初始平面图,计算所述二维平面上所述多个样本的所有投影点的凸包区域;以及将所述凸包区域划分为所述多个子区域,所述多个子区域的每个子区域分别对应一个样本。5.根据权利要求4所述的系统,其中将所述凸包区域划分为所述多个子区域,所述多个子区域的每个子区域分别对应一个样本包括:根据所述多个样本中的每个样本在所述二维平面对应的各自的投影点之间的距离,获得所述多个样本对应的所有投影点的聚类结构,所述聚类结构的每个类别分别包括若干个样本对应的投影点;根据所述聚类结构将所述凸包区域划分为多个超子区域,使得所述多个超子区域满足第一条件,其中所述多个超子区域的每个超子区域对应所述聚类结构的每个聚类类别,所述第一条件包括所述多个超子区域的每个超子区域的面积与所述凸包区域面积的比与该超子区域对应的聚类类别中包括的若干个样本的重要度之和与所述多个样本的重要度之和的比相等;对所述多个超子区域的每个超子区域中包括的若干个样本对应的若干个投影点同时进行旋转、平移和/或放缩得到若干个第一更新后的投影点,使得所述若干个第一更新后的
投影点满足第二条件,从而得到第一更新后的子平面图,全部第一更新后的子平面图组成第一更新后的平面图,其中所述第二条件包括所述每个超子区域中包括的若干个第一更新后的投影点均位于所述超子区域中,所述每个超子区域中包括的若干个第一更新后的投影点在所述第一更新后的子平面图中的连接关系不变,并且在所述第一更新后的子平面图中的若干个第一更新后的投影点不能进行放缩比大于1的放缩变换;以及对所述多个超子区域的每个超子区域,根据所述超子区域中得到的第一更新后的投影点,将所述超子区域划分为所述多个子区域中的n个子区域,其中n为所述超子区域中包括的样本个数,每个子区域对应所述超子区域中的每个样本。6.根据权利要求5所述的系统,其中根据所述获得的多个子区域以及所述多个样本中的每个样本的重要度和初始分类类别,获得所述多个样本中的每个样本在所述二维平面上对应的各自的圆包括:计算所述多个子区域的每个子区域的重心;计算所述多个子区域的每个子区域中的以所述重心为圆心的、完全位于所述子区域的半径最大的圆;计算所述多个样本中的每个样本在所述二维平面上对应的圆的最大半径,使得所述多个样本的每个样本的各自的重要度与所述多个样本的每个样本各自对应圆的半径相关;根据所述多个样本对应的多个子区域,更新所述第一更新后的平面图,从而得到第二更新后的平面图,其中在所述第二更新后的平面图中,多个第二更新后的投影点的每个第二更新后的投影点分别对应所述多个样本中的每个样本,超子区域内的第二更新后的投影点的之间的连边表示该超子区域内的n个子区域之间的邻接关系;以及根据所述第二更新后的平面图,调整所述多个样本中的每个样本在所述二维平面上各自对应的圆的位置,使得多个圆满足预定条件。7.根据权利要求6所述的系统,其中所述预定条件包括:所述多个样本对应的多个圆构成的圆包装布局的紧凑程度尽可能高,圆之间不发生重叠,并且特征向量相似的样本对应的圆在所述二维平面上尽可能布局在相近的位置。8.根据权利要求1

7所述的系统,其中所述样本为以下至少一个:图像;视频;表格;以及文档。9.一种用于对样本进行可视化的方法,包括:接收多个样本,所述多个样本中的每个样本的信息包括该样本的重要度、该样本对应的特征向量、以及该样...

【专利技术属性】
技术研发人员:刘世霞袁隽李端王昊泽郭心源李磊王立鹏刘鹏
申请(专利权)人:北京机电工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1