System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于机器学习的多组学数据层次分类结构学习系统技术方案_技高网

一种基于机器学习的多组学数据层次分类结构学习系统技术方案

技术编号:40407198 阅读:7 留言:0更新日期:2024-02-20 22:28
本发明专利技术公开了一种基于机器学习的多组学数据层次分类结构学习系统,包括:数据导入模块,用于加载多组学数据,并对数据进行预处理;层次结构学习模块,利用由数据驱动的适应性机器学习方法进行有监督学习,构建类别相似性矩阵,利用自底向上、自顶向下无监督聚类算法初步构建类标签层次结构,并将迭代式算法整合到训练过程中,最终得到最优类标签层次结构;层次分类验证模块,利用最优类标签层次结构结合多组学数据进行层次分类,并提供结果解释。本发明专利技术结合有监督式、无监督式机器学习与迭代算法,准确地推断出多组学数据中的类标签层次结构,提升对复杂多组学数据的高效分类和组织,提供分类结果可解释性。

【技术实现步骤摘要】

本专利技术涉及机器学习和生物医学的,尤其是指一种基于机器学习的多组学数据层次分类结构学习系统


技术介绍

1、随着生物信息学的发展,多组学技术产生了海量数据,并仍在飞速积累,但它们所蕴含的重大价值仍只是被初步利用。对各种生物体系进行深入的挖掘分析,尤其是实现精准分类,是多组学数据研究中的一个重大难题,但生物体系普遍因进化、演化和分化原因,存在未知的复杂层次结构,使得常用的非层次和给定预设的层次结构分类的模式,都无法准确反映其内在结构,难以实现样本的精准分类。因此如何基于多组学数据推断其类标签层次结构,从而进行层次分类是亟待解决的一个课题。

2、目前层次分类结构学习系统主要分为两类:1)整体优化样本分类准确度和分类层次结构:利用联合多个一对多分类器、在验证集上构建混淆矩阵、损失函数规范层次结构的平衡性等方法对数据建模并做出预测。2)优化类别相似度量和类别聚类方法:利用基于平衡类别划分、基于原始空间或高维空间相似度的k均值聚类、近邻传播等方法对数据建模并做出预测。一方面,现有的层次结构学习系统在图像和文本分类领域被提出,在多组学领域的发展依然匮乏。这意味着目前的系统无法充分适应多组学数据高通量、高维度、高稀疏度的独特性质,从而导致学习到的层次分类结构分类准确性与可靠性不足的问题。另一方面,目前的系统大都结果可解释性低,无法对模型所作决策提供证据支持。这意味着目前的系统难以推断出具备生物学意义的类标签层次结构,从而无法揭示出生物学的演化规律,并应用于精准判别亚型,识别潜在靶点等生物医学领域的重要任务。


>技术实现思路

1、本专利技术的目的在于克服现有技术的缺点与不足,提出了一种基于机器学习的多组学数据层次分类结构学习系统,突破传统多组学分类方法在抉择分类结构时的局限,充分适应多组学数据高通量、高维度、高稀疏度的独特性质,解决多组学数据中的类标签层次结构推断问题,从而提升对复杂多组学数据的高效分类和组织,提供诊断结果可解释性。

2、为实现上述目的,本专利技术所提供的技术方案为:一种基于机器学习的多组学数据层次分类结构学习系统,包括:

3、数据导入模块,用于加载多组学数据,并对数据进行预处理,得到能用于机器学习模型构建的数据集;

4、层次结构学习模块,利用由数据驱动的适应性机器学习方法进行有监督学习,构建类别相似性矩阵,利用自底向上、自顶向下无监督聚类算法初步构建类标签层次结构,并将迭代式算法整合到训练过程中,最终得到最优类标签层次结构;

5、层次分类验证模块,利用最优类标签层次结构结合多组学数据进行层次分类,并与非最优类标签层次结构进行对比分析,提供结果解释。

6、进一步,所述数据导入模块包括数据加载模块和数据预处理模块,其中:

7、所述数据加载模块从本地读取多组学数据与临床数据,包括csv、rdf、h5ad、rdata和xlsx格式,其中,多组学数据包括基因组学、表观基因组学、转录组学以及蛋白质组学,数据来源包括复杂疾病基因组、微生物k串以及单细胞测序,临床数据包括生存状态、生存时间以及复发时间;

8、所述数据预处理模块用于提取并整理不同组学数据,包括:针对复杂疾病组学数据集提取样本共享特征、规范化基因突变与拷贝数变异数据、去除甲基化空缺样本数超过50%的特征、k近邻填补空缺值、归一化甲基化数据、整合基因突变、拷贝数变异及甲基化数据;针对微生物组学数据集进行fastq文件k串计数、保留出现次数大于10的高频率k串;针对单细胞组学数据集整合数据、使用lasso方法进行特征选择;针对每个数据集划分为训练集x、测试集t与验证集v;所有数据集形式统一行表示样本,列表示类型与特征。

9、进一步,所述层次结构学习模块包括类别相似性模块、聚类模块及迭代模块,其中:

10、所述类别相似性模块利用组学数据驱动的适应性机器学习方法构建类别相似性矩阵,包括以下步骤:

11、1)针对含有k个类别的组学数据,基于其适应性机器学习方法构建一对多one-vs-rest分类模型f1,f2,…,fk,其中fk为第k个分类模型,得到k个预测概率矩阵:

12、

13、式中,tk为分类模型中对应第k个类别的测试集,xi为测试集中的样本,fk(xi)为对应第k个类别的分类模型,pk为对应第k个类别的测试集样本的预测概率矩阵,其第一列pk(xi,1)表示在分类模型下样本xi被预测为第k个类别的概率,第二列pk(xi,2)表示在分类模型下样本xi被预测为非第k个类别的概率;

14、2)基于预测概率矩阵p1,p2,…,pk,构建类别混淆矩阵,并转化为类别相似性矩阵:

15、①首先,构建类别混淆矩阵c,令a表示行号,b表示列号,矩阵中的每一个元素cab表示为:

16、②对类别混淆矩阵进行标准化,即对于类别混淆矩阵c中的第a行ca,都有:

17、③进一步对矩阵a对称化得到类别相似性矩阵:

18、式中,t为分类模型中所选取的测试集,(xi,yi)为t中的样本与对应的真实类别标签,pk(xi,1)为在分类模型下样本xi被预测为第k个类别的概率,a为类别相似性矩阵,aa为矩阵的第a行,a'表示矩阵a的转置;

19、所述聚类模块用于初步构建类标签层次结构,包括自底向上聚类模块和自顶向下聚类模块,基于类别相似性矩阵构建聚类模型,以实现类标签层次结构的构建,其中:

20、所述自底向上聚类模块包括以下步骤:

21、1)初始化所要构建的层次结构为,其中h表示层次结构,n表示节点集,e表示边集;初始化分类标签列表b=({1},{2},...,{k}),初始化分类标签列表b的元素数量m=k;

22、2)当m<2k时,重复以下步骤:

23、①从类别相似性矩阵a中找到最相似的两个类别p,q,将它们合并:

24、式中,aab表示a中第a行第b列的元素,nm={1,2,...,m}为活跃节点集,随着m的变化而变化;

25、②在节点集n中添加新的节点:

26、n=n∪{k+1}

27、③将最相似的两个类别p,q合并为一个新类,更新活跃节点集nk+1:

28、nk+1=(nk\{p,q})∪{k+1}

29、④更新分类标签列表b,添加新创建的类:

30、b=(b,b[p]∪b[q]),式中,b[p]和b[q]分别表示分类标签列表b中第p个和第q个元素;

31、⑤在边集e中添加新的边:

32、e=e∪(p,k+1)∪(q,k+1)

33、⑥更新活跃节点之间的类别混淆矩阵:

34、式中,ak+1,k、apk、aqk表示a中第k+1行第k列、第p行第k列和第q行第k列的元素;

35、⑦更新m=m+1,继续执行上述步骤①-⑥,逐层向上移动,直到所有的类都被合并为一个类别;

36、3)输出层本文档来自技高网...

【技术保护点】

1.一种基于机器学习的多组学数据层次分类结构学习系统,其特征在于,包括:

2.根据权利要求1所述的一种基于机器学习的多组学数据层次分类结构学习系统,其特征在于:所述数据导入模块包括数据加载模块和数据预处理模块,其中:

3.根据权利要求2所述的一种基于机器学习的多组学数据层次分类结构学习系统,其特征在于:所述层次结构学习模块包括类别相似性模块、聚类模块及迭代模块,其中:

4.根据权利要求3所述的一种基于机器学习的多组学数据层次分类结构学习系统,其特征在于:所述层次分类验证模块包含以下步骤:

【技术特征摘要】

1.一种基于机器学习的多组学数据层次分类结构学习系统,其特征在于,包括:

2.根据权利要求1所述的一种基于机器学习的多组学数据层次分类结构学习系统,其特征在于:所述数据导入模块包括数据加载模块和数据预处理模块,其中:

3.根据权利要求2所述...

【专利技术属性】
技术研发人员:夏立谢介民李青娇刘雪梅陈炫淇佘海潼
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1