一种基于快速密度峰值聚类的医疗特征选择方法技术

技术编号：38822202 阅读：18 留言：0更新日期：2023-09-15 20:01

本发明专利技术属于医疗数据处理领域，具体涉及一种基于快速密度峰值聚类的医疗特征选择方法；所述方法包括获取目标医疗数据，预处理后生成医疗特征样本；根据医疗特征样本到坐标原点的欧式距离，确定出医疗特征样本的扇形截断域；根据医疗特征样本在其截断域内与其他医疗特征样本的欧式距离，计算出医疗特征样本的局部密度；根据医疗特征样本在其截断域内与其他医疗特征样本的局部密度，计算出医疗特征样本的相对距离；根据医疗特征样本的局部密度和相对距离乘积，按照乘积从大到小进行排列，确定出中心的医疗特征样本。本发明专利技术能够快速筛选出最具代表性和区分性的医疗特征样本。具代表性和区分性的医疗特征样本。具代表性和区分性的医疗特征样本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于快速密度峰值聚类的医疗特征选择方法

[0001]本专利技术属于医疗数据处理领域，具体涉及一种基于快速密度峰值聚类的医疗特征选择方法。

技术介绍

[0002]在医疗数据分析中，病人的数据特征量通常非常庞大，而且每种慢性病数据都有其独特的特征。这就导致了医疗数据的高维度和复杂度，给预测模型的构建和优化带来了困难。为了解决这个问题，需要一种有效的聚类方法，能够根据不同慢性病的特征进行分组，从而筛选出最重要和最相关的特征，降低数据维度，提高预测模型的效率和准确性。
[0003]Rodriguez等人在2014年提出了密度峰值聚类算法(Density Peaks Clustering，DPC)。DPC是一种基于密度的聚类算法，该算法首先计算样本的局部密度和相对距离；其次根据样本的局部密度和相对距离构造决策图；然后选择局部密度和相对距离均较大的点作为类簇中心；最后，将每个非中心点按局部密度由大到小分配到其高密度最近邻的类簇，后文将高密度最近邻称为前置点。DPC的优点包括：算法简单高效，不需要迭代优化目标函数，能够识别任意形状的类簇等。
[0004]但是，DPC存在一些不足：DPC算法需要计算数据集中每个点的局部密度和相对距离，这涉及计算每个点与所有其他点之间的距离。因此，DPC算法的时间和空间复杂度均为O(n2)；导致在对医疗数据进行处理时，容易占用大量的运算资源和存储资源，不能快速筛选出最优的医疗特征。

技术实现思路

[0005]基于现有技术存在的问题，本专利技术提出了一种基于快速密度峰...

【技术保护点】

【技术特征摘要】
1.一种基于快速密度峰值聚类的医疗特征选择方法，其特征在于，所述方法包括：获取目标医疗数据，对所述目标医疗数据进行预处理，生成医疗特征样本；根据每个医疗特征样本到坐标原点的欧式距离，确定出每个医疗特征样本与坐标原点相关的扇形截断域；根据每个医疗特征样本在其截断域内与其他医疗特征样本的欧式距离，计算出每个医疗特征样本的局部密度；根据每个医疗特征样本在其截断域内与其他医疗特征样本的局部密度，计算出每个医疗特征样本的相对距离；根据每个医疗特征样本的局部密度和相对距离乘积，按照乘积从大到小进行排列，确定出中心的医疗特征样本。2.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法，其特征在于，对所述目标医疗数据进行预处理包括对目标医疗数据中的无关特征数据进行删除，并对有少量缺失值的目标医疗数据使用数据填充方法进行填充，对于大量缺失值的目标医疗数据进行删除；计算出目标医疗数据样本之间的距离矩阵；并所述所述距离矩阵进行归一化处理，生成医疗特征样本。3.根据权利要求1所述的一种基于快速密度峰值聚类的医疗特征选择方法，其特征在于，所述根据每个医疗特征样本到坐标原点的欧式距离，确定出每个医疗特征样本与坐标原点相关的扇形截断域包括将所有医疗特征样本投影到坐标系中；分别计算出每个医疗特征样本到坐标原点的欧式距离；根据当前医疗特征样本到坐标原点的欧式距离，确定出当前医疗特征样本在该欧式距离对应超参数截断距离范围的扇形截断域。4.根据权利要求3所述的一种基于快速密度峰值聚类的医疗特征选择方法，其特征在于，所述将所有医疗特征样本投影到坐标系中包括根据医疗特征样本的分布情况，确定出每个维度的坐标范围；将每个医疗特征样本的特征值按照对应的坐标轴进行映射；将映射后的医疗特征样本进行可视化处理。5.根据权利要求3所述的一种基于快速密度峰值聚类的医疗特征选择方法，其特征在于，所述当前医疗特征样本在该欧式距离对应超参数截断距离范围的扇形截断域表示为：U(d
i
,d
c
)＝{d|d
i
‑
d
c
<d<d
i
+d
c
}其中，U(d
i
,d
c
)表示当前医疗特征样本x
i
的扇形截断域；d
i
表示当前医疗特征样本x
i
到坐标原点的欧式距离；d
c
为超参数截断距离；d表示任意医疗特征样本到坐标原点的欧式距离。6.根据权利要求1所述的一种基于快速密...

【专利技术属性】
技术研发人员：张清华，周靖鹏，彭一航，吴鹏，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人