一种基于快速密度峰值聚类的医疗特征选择方法技术

技术编号:38822202 阅读:18 留言:0更新日期:2023-09-15 20:01
本发明专利技术属于医疗数据处理领域,具体涉及一种基于快速密度峰值聚类的医疗特征选择方法;所述方法包括获取目标医疗数据,预处理后生成医疗特征样本;根据医疗特征样本到坐标原点的欧式距离,确定出医疗特征样本的扇形截断域;根据医疗特征样本在其截断域内与其他医疗特征样本的欧式距离,计算出医疗特征样本的局部密度;根据医疗特征样本在其截断域内与其他医疗特征样本的局部密度,计算出医疗特征样本的相对距离;根据医疗特征样本的局部密度和相对距离乘积,按照乘积从大到小进行排列,确定出中心的医疗特征样本。本发明专利技术能够快速筛选出最具代表性和区分性的医疗特征样本。具代表性和区分性的医疗特征样本。具代表性和区分性的医疗特征样本。

【技术实现步骤摘要】
一种基于快速密度峰值聚类的医疗特征选择方法


[0001]本专利技术属于医疗数据处理领域,具体涉及一种基于快速密度峰值聚类的医疗特征选择方法。

技术介绍

[0002]在医疗数据分析中,病人的数据特征量通常非常庞大,而且每种慢性病数据都有其独特的特征。这就导致了医疗数据的高维度和复杂度,给预测模型的构建和优化带来了困难。为了解决这个问题,需要一种有效的聚类方法,能够根据不同慢性病的特征进行分组,从而筛选出最重要和最相关的特征,降低数据维度,提高预测模型的效率和准确性。
[0003]Rodriguez等人在2014年提出了密度峰值聚类算法(Density Peaks Clustering,DPC)。DPC是一种基于密度的聚类算法,该算法首先计算样本的局部密度和相对距离;其次根据样本的局部密度和相对距离构造决策图;然后选择局部密度和相对距离均较大的点作为类簇中心;最后,将每个非中心点按局部密度由大到小分配到其高密度最近邻的类簇,后文将高密度最近邻称为前置点。DPC的优点包括:算法简单高效,不需要迭代优化目标函数,能够识别任意形状的类簇等。
[0004]但是,DPC存在一些不足:DPC算法需要计算数据集中每个点的局部密度和相对距离,这涉及计算每个点与所有其他点之间的距离。因此,DPC算法的时间和空间复杂度均为O(n2);导致在对医疗数据进行处理时,容易占用大量的运算资源和存储资源,不能快速筛选出最优的医疗特征。

技术实现思路

[0005]基于现有技术存在的问题,本专利技术提出了一种基于快速密度峰值聚类的医疗特征选择方法,能够根据数据点的局部密度和相对距离,确定聚类中心和聚类数目,从而将不同慢性病的数据特征进行分组,筛选出最具代表性和区分性的特征,降低数据维度,提高预测模型的效率和准确性。
[0006]一种基于快速密度峰值聚类的医疗特征选择方法,所述方法包括:
[0007]获取目标医疗数据,对所述目标医疗数据进行预处理,生成医疗特征样本;
[0008]根据每个医疗特征样本到坐标原点的欧式距离,确定出每个医疗特征样本与坐标原点相关的扇形截断域;
[0009]根据每个医疗特征样本在其截断域内与其他医疗特征样本的欧式距离,计算出每个医疗特征样本的局部密度;
[0010]根据每个医疗特征样本在其截断域内与其他医疗特征样本的局部密度,计算出每个医疗特征样本的相对距离;
[0011]根据每个医疗特征样本的局部密度和相对距离乘积,按照乘积从大到小进行排列,确定出中心的医疗特征样本。
[0012]本专利技术的有益效果:
[0013]1.本专利技术的一种基于快速密度峰值聚类的医疗特征选择方法,该方法能够根据数据点的局部密度和相对距离,自动确定聚类中心和聚类数目,从而将不同慢性病的数据特征进行分组,筛选出最具代表性和区分性的中心医疗特征样本。该方法具有高效和稳定的优点,可以在医学大数据集下快速删除多余特征,获取更具代表性的特征,从而降低数据维度,提高预测模型的效率和准确性。
[0014]2.在传统DPC聚类分析中,算法需要计算数据集中每个点的局部密度和相对距离,这涉及计算每个点与所有其他点之间的距离。因此,DPC算法的时间和空间复杂度均为O(n2)。所以,在处理大型数据集时,DPC算法的计算量和内存使用量会非常大。本专利技术提出了截断域的定义,通过截断域的定义可以大量减少欧氏距离的计算次数和相对距离的对比数量。其次,本专利技术基于截断域提出了局部密度和相对距离的新定义,并利用改进后的定义加快了寻找聚类中心的速度,计算局部密度时仅需计算所有点到原点的距离,因此降低了聚类过程中的内存使用量。
附图说明
[0015]图1是本专利技术实施例的一种基于快速密度峰值聚类的医疗特征选择方法流程图;
[0016]图2是本专利技术实施例的截断域的示意图;
[0017]图3是本专利技术实施例的基于截断域所确定的局部区域的示意图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]图1是本专利技术实施例的一种基于快速密度峰值聚类的医疗特征选择方法流程图,如图1所示,所述方法包括以下步骤:
[0020]101、获取目标医疗数据,对所述目标医疗数据进行预处理,生成医疗特征样本;
[0021]在本专利技术实施例中,具体来说,所述目标医疗数据可以是由目标医疗系统产生或获取到的数据;目标医疗系统可以是待进行医疗数据集成的医疗系统,比如住院医疗系统和问诊医疗系统等。目标医疗数据可以是由目标医疗系统采集到的医疗数据,可以包括文本、表格、图片等格式,此处不作具体限定。
[0022]在一些实施例中,示例性的,所述医疗数据可以包括医院名称、就诊科室、手术信息、药品名称、检查名称、检验名称,就诊次数、BMI、职业、血压等等与医疗相关的数据,本专利技术通过对这些数据进行特征选择,以选择出最具代表性和区分性的医学特征,从而降低数据维度,提高预测模型的效率和准确性。
[0023]在另一些实施例中,所述医疗数据还可以包括诸如心脏病例中的胸痛类型、静息血压、静息心电图结果、运动引起的心绞痛等方面;糖尿病中的舒张压、2小时血清胰岛素、糖尿病血系功能等方面;心血管疾病中的胆固醇、葡萄糖含量、是否吸烟等方面。本专利技术通过对这些数据进行特征选择,以选择出最具代表性和区分性的医学特征,从而降低数据维度,提高预测模型的效率和准确性。
[0024]在本专利技术实施例中,对所述目标医疗数据进行预处理包括对目标医疗数据中的无关特征数据进行删除,并对有少量缺失值的目标医疗数据使用数据填充方法进行填充,对于大量缺失值的目标医疗数据进行删除;计算出目标医疗数据样本之间的距离矩阵;并所述所述距离矩阵进行归一化处理,生成医疗特征样本。
[0025]具体的,为了消除属性之间的量纲对实验影响,需要对数据标准化处理。本专利技术采用最大最小归一化,最大最小归一化的计算公式如下:
[0026][0027]其中x表示单个数据的取值,x
min
是数据所在列的最小值,x
max
是数据所在列的最大值。
[0028]将上述医疗数据集归一化后计算各个医疗特征样本的距离矩阵,计算方式为欧式距离,对于x
i
与x
j
的欧式距离定义如下:
[0029][0030]其中,x
ik
表示第i个样本下第k个特征值。
[0031]102、根据每个医疗特征样本到坐标原点的欧式距离,确定出每个医疗特征样本与坐标原点相关的扇形截断域;
[0032]在本专利技术实施例中,考虑到将传统DPC算法应用于医疗特征选择的挑战之一是它的高计算时间和内存占用。为了解决这些问题,本专利技术引入截断域定义。利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述方法包括:获取目标医疗数据,对所述目标医疗数据进行预处理,生成医疗特征样本;根据每个医疗特征样本到坐标原点的欧式距离,确定出每个医疗特征样本与坐标原点相关的扇形截断域;根据每个医疗特征样本在其截断域内与其他医疗特征样本的欧式距离,计算出每个医疗特征样本的局部密度;根据每个医疗特征样本在其截断域内与其他医疗特征样本的局部密度,计算出每个医疗特征样本的相对距离;根据每个医疗特征样本的局部密度和相对距离乘积,按照乘积从大到小进行排列,确定出中心的医疗特征样本。2.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,对所述目标医疗数据进行预处理包括对目标医疗数据中的无关特征数据进行删除,并对有少量缺失值的目标医疗数据使用数据填充方法进行填充,对于大量缺失值的目标医疗数据进行删除;计算出目标医疗数据样本之间的距离矩阵;并所述所述距离矩阵进行归一化处理,生成医疗特征样本。3.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述根据每个医疗特征样本到坐标原点的欧式距离,确定出每个医疗特征样本与坐标原点相关的扇形截断域包括将所有医疗特征样本投影到坐标系中;分别计算出每个医疗特征样本到坐标原点的欧式距离;根据当前医疗特征样本到坐标原点的欧式距离,确定出当前医疗特征样本在该欧式距离对应超参数截断距离范围的扇形截断域。4.根据权利要求3所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述将所有医疗特征样本投影到坐标系中包括根据医疗特征样本的分布情况,确定出每个维度的坐标范围;将每个医疗特征样本的特征值按照对应的坐标轴进行映射;将映射后的医疗特征样本进行可视化处理。5.根据权利要求3所述的一种基于快速密度峰值聚类的医疗特征选择方法,其特征在于,所述当前医疗特征样本在该欧式距离对应超参数截断距离范围的扇形截断域表示为:U(d
i
,d
c
)={d|d
i

d
c
<d<d
i
+d
c
}其中,U(d
i
,d
c
)表示当前医疗特征样本x
i
的扇形截断域;d
i
表示当前医疗特征样本x
i
到坐标原点的欧式距离;d
c
为超参数截断距离;d表示任意医疗特征样本到坐标原点的欧式距离。6.根据权利要求1所述的一种基于快速密...

【专利技术属性】
技术研发人员:张清华周靖鹏彭一航吴鹏
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1