一种肌电数据中离群点的处理方法和系统技术方案

技术编号:20222259 阅读:39 留言:0更新日期:2019-01-28 20:37
本发明专利技术涉及肌电数据中离群点的处理方法和系统,包括:获取数据样本的数据集,并将数据集划分为第一类正域、第一类边界区、第二类正域和第二类边界区;将第一类边界区和第二类边界区内数据样本聚类,并根据聚类结果,分别将第一类边界区和第二类边界区划分为多个群组;分别根据第一类边界区内数据样本至第一类正域的距离和第二类边界区内数据样本至第二类正域的距离,确定第一类边界区每个群组至第一类正域的平均距离和第二类边界区每个群组至第二类正域的平均距离,将平均距离大于距离阈值的群组标记为离群点,集合离群点作为离群集合;将数据样本量大于飞地阈值的离群点标记为飞地群组,并删除离群集合中的飞地群组,得到离群点处理结果。

【技术实现步骤摘要】
一种肌电数据中离群点的处理方法和系统所属
本专利技术属于机器学习领域,尤其涉及一种肌电数据中离群点的处理方法和系统,适用于使用肌电信号检测异常肌肉的场景。
技术介绍
在使用肌电信号进行异常肌肉检测时,往往需要大量带标签(即异常肌肉和正常肌肉)的肌电样本,并根据该数据集训练出异常肌肉的检测模型,以达到对异常肌肉识别的目的。希望异常肌肉识别模型能够在未来真实的数据集上达到好的泛化效果,但模型的泛化能力与数据集质量息息相关。由于在肌电信号采集过程中的各项外界影响,如运动干扰、电磁干扰、工频噪声、电路噪声和电极片噪声等,采集到的异常肌肉肌电数据集中往往包含噪声样本和离群样本。离群点发现技术可分为基于统计学、基于距离、基于密度、基于聚类和基于偏离这五个方向。基于距离的离群点检测方法是由Knorr和Ng提出的,即在数据集中如果有至少p部分的对象对于某样本O的距离都大于距离D,则O点被称为DB(p,D)离群点。传统的基于距离的离群点发现技术无法适用于数据集样本量不足的场景,此时数据集中通常会出现脱离大多数群组样本的高密度离群非噪声小群组。离群非噪声小群组表现为在数据集中分布偏离大多数样本,包含较多本文档来自技高网...

【技术保护点】
1.一种肌电数据中离群点的处理方法,其特征在于,包括:步骤1、获取包含正常肌电数据样本和异常肌电数据样本的数据集,并将该数据集划分为第一类正域、第一类边界区、第二类正域和第二类边界区;步骤2、通过聚类操作将该第一类边界区和该第二类边界区内数据样本聚类,并根据聚类结果,分别将该第一类边界区和该第二类边界区划分为多个群组;步骤3、分别根据该第一类边界区内数据样本至第一类正域的距离和该第二类边界区内数据样本至第二类正域的距离,确定该第一类边界区每个群组至第一类正域的平均距离和该第二类边界区每个群组至第二类正域的平均距离,将该平均距离大于距离阈值的群组标记为离群点,集合离群点作为离群集合;步骤4、将数...

【技术特征摘要】
1.一种肌电数据中离群点的处理方法,其特征在于,包括:步骤1、获取包含正常肌电数据样本和异常肌电数据样本的数据集,并将该数据集划分为第一类正域、第一类边界区、第二类正域和第二类边界区;步骤2、通过聚类操作将该第一类边界区和该第二类边界区内数据样本聚类,并根据聚类结果,分别将该第一类边界区和该第二类边界区划分为多个群组;步骤3、分别根据该第一类边界区内数据样本至第一类正域的距离和该第二类边界区内数据样本至第二类正域的距离,确定该第一类边界区每个群组至第一类正域的平均距离和该第二类边界区每个群组至第二类正域的平均距离,将该平均距离大于距离阈值的群组标记为离群点,集合离群点作为离群集合;步骤4、将数据样本量大于飞地阈值的离群点标记为飞地群组,并删除离群集合中的飞地群组,得到离群点处理结果。2.如权利要求1所述的肌电数据中离群点的处理方法,其特征在于,该步骤1通过基于邻域粗糙集的区间划分方法划分第一类正域、第一类边界区、第二类正域和第二类边界区。3.如权利要求1所述的肌电数据中离群点的处理方法,其特征在于,该步骤3包括:计算第一类边界区和第二类边界区内数据样本xi的邻域粗糙集半径ξi=min(Δ(xi,s))+0.1×range(Δ(xi,s)),i∈{1,2,…,m},其中s是数据集中除xi以外的数据样本,Δ(xa,xb)是数据样本xa和xb的距离,xi为数据集中第i个数据样本;计算每个数据样本的距离,作为局部趋群化等级其中,|Pos(ξ)|为当前样本xi的ξ邻域内包含的同类正域样本的个数,|Bound(ξ)|为当前样本xi的ξ邻域内包含的同类边界区样本个数,代表当前样本xi距离同类别最近正域样本的归一化距离,归一化时使用样本集中距离最远的两样本间距离作为单位1,每个群组的平均距离等于群组内所有样本的局部趋群化等级的平均值。4.如权利要求1所述的肌电数据中离群点的处理方法,其特征在于,该步骤1包括:通过人工标注肌电数据样本,获得正常肌电数据样本和异常肌电数据样本。5.如权利要求1所述的肌电数据中离群点的处理方法,其特征在于,该步骤4包括:根据预设的飞地群组比例值rexclave和第一类边界区样本总量Bound1|、第二类边界区样本总量|Bound2|,计算飞地群组的样本阈值,其中第一类飞地群组样本阈值为Nexclave1=rexclave×|Bound1|,第二类飞地群组样本阈值为Nexclave2=rexclave×|Bound2|,在第一类边界区的离群点中选择大于第一类飞地群组样本阈值的离群点标记为飞地群组,在第二类边界区的离群点中选择大于第二类飞地群组样本阈值的离群点标记为飞地群组。6.一种肌电数据中离群点的处理系统,其特...

【专利技术属性】
技术研发人员:王念崔莉赵泽
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1