基因表达数据的聚类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：23402110 阅读：26 留言：0更新日期：2020-02-22 14:10

本申请公开一种基因表达数据的聚类方法、装置、计算机设备及存储介质，涉及人工智能领域，所述方法包括根据预设的权重算法，从待聚类基因数据集中选取至少一个候选点，取其中一个候选点作为参考点，并分别计算参考点与其余每个候选点之间的候选距离，根据候选距离确定待聚类基因数据集的主类簇以及主类簇的聚类中心，使得在大量的基因表达数据中能高效率选取初始聚类中心和主类簇，进而提高聚类效果，同时，由于本申请的技术方案能高效率筛选出聚类中心和主类簇，使得服务器根据得到的聚类中心和主类簇能快速对数据进行聚类，从而提高了对数据的处理效率。

Clustering method, device, computer equipment and storage medium of gene expression data

全部详细技术资料下载

【技术实现步骤摘要】
基因表达数据的聚类方法、装置、计算机设备及存储介质
本申请涉及人工智能领域，尤其涉及基因表达数据的聚类方法、装置、计算机设备及存储介质。
技术介绍
随着基因组数据集的增长，开发快速准确的技术变得非常重要，以便快速提取用户可以利用的有意义的洞察力。为了应对这种挑战，生物信息学迎刃而出，而生物信息学的最终目标是更好地了解活细胞及其在分子水平上的作用。近年来，微阵列基因表达研究以提取隐藏在通过微阵列实验积累的大量基因表达谱下的重要生物学知识，分析基因表达谱可以指出基因调节和相互作用的机制，也是理解细胞功能的基础，从而在众多的数据集中找到研究者所感兴趣的点。基因表达谱数据的聚类信息对研究基因调控机制有重要意义，即微阵基因数据分析的一个重要工具是聚类分析。近年来，K-Means算法是最广泛使用的分区聚类分析技术之一。K-Means算法一般指K均值聚类算法，是先随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类，一旦全部...

【技术保护点】
1.一种基因表达数据的聚类方法，其特征在于，所述方法包括：/n根据预设的权重算法，从待聚类基因数据集中选取至少一个候选点；/n取其中一个所述候选点作为参考点，并分别计算所述参考点与其余每个所述候选点之间的候选距离；/n根据所述候选距离确定所述待聚类基因数据集的主类簇以及主类簇的聚类中心；/n基于确定的主类簇以及主类簇的聚类中心对基因表达数据进行聚类。/n

【技术特征摘要】
1.一种基因表达数据的聚类方法，其特征在于，所述方法包括：
根据预设的权重算法，从待聚类基因数据集中选取至少一个候选点；
取其中一个所述候选点作为参考点，并分别计算所述参考点与其余每个所述候选点之间的候选距离；
根据所述候选距离确定所述待聚类基因数据集的主类簇以及主类簇的聚类中心；
基于确定的主类簇以及主类簇的聚类中心对基因表达数据进行聚类。

2.根据权利要求1所述的基因表达数据的聚类方法，其特征在于，所述根据预设的权重算法，从待聚类基因数据集中选取至少一个候选点包括：
将所述待聚类基因数据集中的数据点划分成K个簇并进行初始化，其中，K为正整数；
当簇内所述数据点满足最近点条件时，对所述簇内的数据点进行加权处理得到该簇的加权数据点；
筛选出至少1个权重大于预设权重阈值的所述加权数据点作为候选点。

3.根据权利要求1所述的基因表达数据的聚类方法，其特征在于，所述取其中一个所述候选点作为参考点，并分别计算所述参考点与其余每个所述候选点之间的候选距离包括：
计算每两个候选点之间距离，以获取至少1个参考距离；
将最长的参考距离中对应的其中一个候选点作为参考点；
分别计算所述参考点和其余每个所述候选点之间的候选距离。

4.根据权利要求2所述的基因表达数据的聚类方法，其特征在于，所述根据候选距离确定待聚类基因数据集的主类簇以及主类簇的聚类中心之后，所述方法还包括：
判断所述聚类中心的数量是否大于K；
当所述聚类中心的数量大于K时，通过叠加方式重新确定新的预设权重阈值；以新的预设权重阈值重新筛选参考点，直至根据所述新筛选的参考点获取到K-1个聚类中心为止。

5.根据权利要求2所述的基因表达数据的聚类方法，其特征在于，所述数据点包括待测最近数据点和非待测最近数据点，所述当簇内所述数据点满足最近点条件时，对簇内的数据点进行加权处理...

【专利技术属性】
技术研发人员：王健宗，吴文启，瞿晓阳，彭俊清，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人