一种基于机器学习的多组学数据层次分类结构学习系统技术方案

技术编号：40407198 阅读：7 留言：0更新日期：2024-02-20 22:28

本发明专利技术公开了一种基于机器学习的多组学数据层次分类结构学习系统，包括：数据导入模块，用于加载多组学数据，并对数据进行预处理；层次结构学习模块，利用由数据驱动的适应性机器学习方法进行有监督学习，构建类别相似性矩阵，利用自底向上、自顶向下无监督聚类算法初步构建类标签层次结构，并将迭代式算法整合到训练过程中，最终得到最优类标签层次结构；层次分类验证模块，利用最优类标签层次结构结合多组学数据进行层次分类，并提供结果解释。本发明专利技术结合有监督式、无监督式机器学习与迭代算法，准确地推断出多组学数据中的类标签层次结构，提升对复杂多组学数据的高效分类和组织，提供分类结果可解释性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习和生物医学的，尤其是指一种基于机器学习的多组学数据层次分类结构学习系统。

技术介绍

1、随着生物信息学的发展，多组学技术产生了海量数据，并仍在飞速积累，但它们所蕴含的重大价值仍只是被初步利用。对各种生物体系进行深入的挖掘分析，尤其是实现精准分类，是多组学数据研究中的一个重大难题，但生物体系普遍因进化、演化和分化原因，存在未知的复杂层次结构，使得常用的非层次和给定预设的层次结构分类的模式，都无法准确反映其内在结构，难以实现样本的精准分类。因此如何基于多组学数据推断其类标签层次结构，从而进行层次分类是亟待解决的一个课题。

2、目前层次分类结构学习系统主要分为两类：1)整体优化样本分类准确度和分类层次结构：利用联合多个一对多分类器、在验证集上构建混淆矩阵、损失函数规范层次结构的平衡性等方法对数据建模并做出预测。2)优化类别相似度量和类别聚类方法：利用基于平衡类别划分、基于原始空间或高维空间相似度的k均值聚类、近邻传播等方法对数据建模并做出预测。一方面，现有的层次结构学习系统在图像和文本分类领域被提出，在多组学领域的发展依然匮乏。这意味着目前的系统无法充分适应多组学数据高通量、高维度、高稀疏度的独特性质，从而导致学习到的层次分类结构分类准确性与可靠性不足的问题。另一方面，目前的系统大都结果可解释性低，无法对模型所作决策提供证据支持。这意味着目前的系统难以推断出具备生物学意义的类标签层次结构，从而无法揭示出生物学的演化规律，并应用于精准判别亚型，识别潜在靶点等生物医学领域的重要任务。