一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法及装置制造方法及图纸

技术编号：41092056 阅读：2 留言：0更新日期：2024-04-25 13:51

本发明专利技术公开了一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法及装置，包括以下步骤：获取肿瘤细胞基因表达数据集；构建自适应二阶K近邻密度峰值聚类算法；初始化聚类算法参数，运行聚类算法对肿瘤细胞基因表达数据集进行聚类，得到肿瘤细胞基因表达数据多个亚型的不同聚类状态；计算新的待判别亚型的肿瘤细胞基因表达数据点和数据集中数据点的互相似度，若最高互相似度不为0，将待判别数据点分配至与其具有最高互相似度数据点所在的类簇；若最高互相似度为0，将待判别数据点分配至距离最近且密度比其高的数据点所在类簇，判别肿瘤细胞基因表达数据对应的肿瘤亚型。本发明专利技术具备适用性强和聚类性能高的优良特性，值得被推广使用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息处理，更具体地说，涉及一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法及装置。

技术介绍

1、随着生物技术快速发展，基因芯片技术逐渐成熟，产生了越来越多的基因表达数据。从肿瘤基因表达数据的分子层面研究，能够分析相关致病基因，实现肿瘤细胞的不同亚型识别。肿瘤细胞亚型的确定对于肿瘤治疗具有积极作用。然而，肿瘤细胞不同亚型的肿瘤基因表达数据存在结构复杂、样本少、维度高等问题，因此，如何通过肿瘤基因表达数据实现肿瘤细胞亚型类别准确识别成为当前亟需解决的问题，目前主流的方法是通过无监督聚类来进行无标注肿瘤基因表达数据亚型识别。

2、密度峰值聚类算法整体思路简单、参数较少、聚类准确率较高，应用广泛。传统的密度峰值聚类算法只考虑周围近邻节点的距离，且算法采用单步分配策略，一定程度上限制了算法对于肿瘤基因表达数据亚型识别的精度和有效性。经检索，专利申请号201911132821.x，专利名称为：基于自适应高斯混合模型的癌症突变簇识别方法，该申请案的识别过程主要包括：(1)预处理体细胞突变数据，构建背景模型；(2)使用改进的密度峰值聚类方法，初始化参数；(3)建立自适应高斯混合模型，并用em算法求解；(4)根据突变簇包含的突变数量筛选聚类结果。该申请案通过使用改进的密度峰值聚类方法，建立自适应高斯混合模型，识别基因中可变长度的目标区域，具有更强的统计能力和稳定性，但该申请案主要是提出了一个自适应搜索策略来选取密度峰值聚类方法中的距离阈值，为高斯混合模型提供初始化参数，对密度峰值聚类方法的改进思路与本专利不同。

技术实现思路

1、1.专利技术要解决的技术问题

2、为了准确通过肿瘤基因表达数据识别肿瘤细胞亚型类别，本专利技术提供了一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法及装置，本专利技术通过引入二阶k近邻，重新定义数据点局部密度的计算方式，并通过两个数据点之间的距离及二阶k近邻数据点交集来定义数据点间的互相似度，摒弃了仅使用距离对分配策略的影响，避免了样本分配策略产生的错误连带效应，有效提高了肿瘤基因表达数据亚型识别的性能。

3、2.技术方案

4、为达到上述目的，本专利技术提供的技术方案为：

5、本专利技术的一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法，包括以下步骤：

6、步骤1：获取待聚类的具有不同亚型的肿瘤细胞基因表达数据集；

7、步骤2：构建自适应二阶k近邻密度峰值聚类算法；

8、步骤3：初始化聚类算法参数，运行自适应二阶k近邻密度峰值聚类算法对肿瘤细胞基因表达数据集进行聚类，得到肿瘤细胞基因表达数据多个亚型的不同聚类状态；

9、步骤4：计算新的待判别亚型的肿瘤细胞基因表达数据点和数据集中数据点的互相似度，若最高互相似度不为0，将待判别数据点分配至与其互相似度最高的数据点所在的类簇；若最高互相似度为0，将待判别数据点分配至距离最近且密度比其高的数据点所在类簇，判别其肿瘤细胞基因表达数据对应的肿瘤亚型。

10、本专利技术的一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别装置，包括：

11、数据获取模块：用于获取待聚类的肿瘤细胞基因表达数据集；

12、聚类模块：初始化聚类算法参数，运行自适应二阶k近邻密度峰值聚类算法对肿瘤细胞基因表达数据集进行聚类；

13、输出模块：输出肿瘤细胞基因表达数据多个亚型的不同聚类状态；

14、判别模块：计算新的待判别亚型的肿瘤细胞基因表达数据点和数据集中数据点的互相似度，若最高互相似度不为0，将待判别数据点分配至与其具有最高互相似度数据点所在的类簇；若最高互相似度为0，将其分配至距离最近且密度比其高的数据点所在类簇，判别其肿瘤细胞基因表达数据对应的肿瘤亚型。

15、3.有益效果

16、采用本专利技术提供的技术方案，与已有的公知技术相比，具有如下显著效果：

17、(1)本专利技术通过引入二阶k近邻，重新定义数据点局部密度的计算方式，并通过两个数据点之间的距离及二阶k近邻数据点交集来定义数据点间的互相似度，摒弃了仅使用距离对分配策略的影响，避免了样本分配策略产生的错误连带效应，有效提高了肿瘤基因表达数据亚型识别的性能。

18、(2)本专利技术所提出的基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法具有实时性好、识别精度高的优点。

本文档来自技高网...

【技术保护点】

1.一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤2中构建自适应二阶K近邻密度峰值聚类算法的步骤为：

3.根据权利要求2所述的一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤Step2中数据点的局部密度定义为：

4.根据权利要求3所述的一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤Step2中数据点的相对距离定义为：

5.根据权利要求4所述的一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤Step2中对于数据点的局部密度最高的样本，相对距离定义为：

6.根据权利要求5所述的一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤Step3中数据点的决策值定义为：γi＝ρiδi。

7.根据权利要求6所述的一种基于自适应二阶K近邻密度峰值聚类的肿瘤细

8.根据权利要求7所述的一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤3中初始化聚类算法参数包括参数K和亚型类别数C。

9.一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别装置，其特征在于：运行如权利要求1-8任一项所述的自适应二阶K近邻密度峰值聚类方法对肿瘤细胞基因表达数据集进行聚类。

10.根据权利要求9所述的一种基于自适应二阶K近邻密度峰值聚类的肿瘤细胞亚型识别装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤2中构建自适应二阶k近邻密度峰值聚类算法的步骤为：

3.根据权利要求2所述的一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤step2中数据点的局部密度定义为：

4.根据权利要求3所述的一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤step2中数据点的相对距离定义为：

5.根据权利要求4所述的一种基于自适应二阶k近邻密度峰值聚类的肿瘤细胞亚型识别方法，其特征在于：所述步骤step2中对于数据点的局部密度最高的样本，相对距离定义为：

6.根据权利...

【专利技术属性】
技术研发人员：吴紫祥，汤虎，吴紫恒，武传强，吴聪，张毅，
申请(专利权)人：浙江大学医学院附属第二医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人