一种数据奇异点的识别方法、装置、设备和介质制造方法及图纸

技术编号:23787768 阅读:30 留言:0更新日期:2020-04-15 00:52
本发明专利技术实施例公开了一种数据奇异点的识别方法、装置、设备和介质,该方法包括:在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点。本发明专利技术实施例的技术方案,通过数据集合在同维空间凸区域的几何分布规律来表达数据集合之间的映射关系,继而能够基于几何视图中的奇异点特征,来识别异常的数据点。由此避免了异常数据点在后续使用过程中导致的错误。

A method, device, equipment and medium of data singularity identification

【技术实现步骤摘要】
一种数据奇异点的识别方法、装置、设备和介质
本专利技术实施例涉及机器学习技术,尤其涉及一种数据奇异点的识别方法、装置、设备和介质。
技术介绍
随着机器学习的兴起,神经网络作为一种有效的处理数据的工具,在学术界与商业中被大量地使用。深度学习可以归结于两条定律:一是流形分布定律,即自然界中同一类别的高维数据,往往集中在某个低维流形附近;二是聚类分布定律,即这个高维数据类别中不同的子类数据对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。因此,深度学习的基本任务就在于从数据中学习流形结构,建立流形的参数表达和变换概率分布。具体可参见《计算机辅助几何设计(ComputerAidedGeometricDesign)》于2019年1月,68卷第1-21页(Volume68,January2019,Pages1-21)发表的论文《最优传输及生成模型的几何视图(Ageometricviewofoptimaltransportationandgenerativemodel)》,作者雷娜,苏科华,..,丘成桐,顾险峰(NaLei,Keh本文档来自技高网...

【技术保护点】
1.一种数据奇异点的识别方法,其特征在于,包括:/n在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;/n针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;/n其中,所述已训练映射关系为:在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。/n

【技术特征摘要】
1.一种数据奇异点的识别方法,其特征在于,包括:
在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;
其中,所述已训练映射关系为:在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。


2.根据权利要求1所述的方法,其特征在于,针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点包括:
针对所述第一数据集合X中的每个数据点x,确定在所述空间凸区域的高维空间中所对应π(x)最大的两个超平面πi与πj,分别对应于数据点yi与yj;其中,i∈{1,...,n},j∈{1,...,n},n为第二数据集合Y中数据点的个数;
计算所述超平面πi与πj之间的夹角θx;
当所述超平面夹角θx小于设定角度阈值时,则确定所述第一数据集合中的该数据点x为奇异点,否则不是奇异点。


3.根据权利要求1所述的方法,其特征在于,针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点包括:
针对所述第一数据集合X中的每个数据点x,确定在空间凸区域中对应的胞腔以及方体
确定所述胞腔的所有在方体内相邻的胞腔其中,1≤k≤Mx,Mx为相邻胞腔数;
根据所述已训练映射关系,确定所述胞腔和相邻胞腔在所述第二数据集合中对应的数据点和
计算所述数据点和之间的距离;
如果所述距离大于设定距离阈值,则确定胞腔对为奇异胞腔对;
当数据点x具有至少一个奇异胞腔对时,则所述数据点x为奇异点,否则不是奇异点。


4.根据权利要求3所述的方法,其特征在于,计算所述数据点和之间的距离包括:
计算所述数据点和之间的欧式距离。


5.根据权利要求3所述的方法,其特征在于,确定所述胞腔的所有在方体内相邻的胞腔包括:
在所述方体内按照所述设定分布规律进行采样,获取采样点为{x1,x2,...};
根据落入所述空间凸区域各胞腔中的采样点坐标,确定采样点所落入胞腔,作为所述胞腔的相邻胞腔


6.根据权利要求3或5所述的方法...

【专利技术属性】
技术研发人员:柯景耀潘燕峰潘征刘岚万瑛娴
申请(专利权)人:上海熵熵微电子科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1