System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于批量测序数据预测空间转录组miRNA活性的方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>广州大学专利>正文

基于批量测序数据预测空间转录组miRNA活性的方法及装置制造方法及图纸

技术编号:43487998 阅读:19 留言:0更新日期:2024-11-29 16:58
本申请提供了一种基于批量测序数据预测空间转录组miRNA活性的方法及装置,根据本申请的方法包括:收集Bulk测序数据并进行预处理后获取第一数据集,收集空间转录组学数据并进行预处理后获取第二数据集;通过所述第一数据集获取训练好的机器学习模型,并通过网格搜索法获取所述训练好的机器学习模型的最优超参数组合;以及,基于所述训练好的机器学习模型预测第二数据集中的miRNA活性。本申请提供的技术方案可以提供高精度的miRNA活性预测方法。

【技术实现步骤摘要】

本文件涉及mirna活性预测,尤其涉及一种基于批量测序数据预测空间转录组mirna活性的方法及装置。


技术介绍

1、空间转录组学(spatial transcriptomics,st)是近年来兴起的一项技术,能够在组织切片的空间背景下进行基因表达的分析。st技术的出现使得研究人员能够从空间维度上更深入地了解组织中的基因表达模式。然而,传统的st技术面临着分辨率和灵敏度的限制,特别是在检测和分析微小rna(mirna)活性方面,现有空间转录组学技术包括:bulkrna-seq技术、单细胞rna-seq(scrna-seq)技术以及空间转录组学(st)技术,上述技术分别存在如下缺点:

2、bulk rna-seq是一种广泛应用的技术,用于测量大规模细胞群体中的基因表达水平。尽管这种技术能够提供丰富的基因表达信息,但由于其无法分辨单个细胞的异质性,难以解析复杂组织中不同细胞类型的具体贡献。

3、单细胞rna-seq技术能够对单个细胞进行基因表达分析,从而揭示细胞间的异质性。该技术在解析复杂生物系统和疾病机制方面具有巨大潜力。然而,单细胞rna-seq由于缺乏空间信息,难以提供组织中基因表达的空间分布。

4、st技术通过在组织切片上进行基因表达测序,提供了基因表达的空间信息。然而,目前的st技术在检测mirna活性方面存在挑战,主要由于mirna的短序列和低表达量难以被高效捕获和解析。分辨率和灵敏度的限制使得难以在高分辨率下全面解析组织中的mirna活性。

5、综上所述,现有的bulk rna-seq、scrna-seq和st技术各自存在不同的局限性和不足,特别是在解析空间转录组中的mirna活性方面。针对这些问题,提出一种基于bulk rna-seq和scrna-seq数据,建立模型预测空间转录组中mirna活性的方法,将有助于克服现有技术的缺陷,提高对组织中mirna活性的解析能力。


技术实现思路

1、本专利技术提供了一种基于批量测序数据预测空间转录组mirna活性的方法及装置,旨在解决上述问题。

2、本专利技术实施例提供了一种基于批量测序数据预测空间转录组mirna活性的方法,包括:

3、s1、收集bulk测序数据并进行预处理后获取第一数据集,收集空间转录组学数据并进行预处理后获取第二数据集;

4、s2、通过所述第一数据集获取训练好的机器学习模型,并通过网格搜索法获取所述训练好的机器学习模型的最优超参数组合;以及,

5、s3、基于所述训练好的机器学习模型预测第二数据集中的mirna活性。

6、本专利技术实施例提供了一种基于批量测序数据预测空间转录组mirna活性的装置,包括:

7、数据收集模块,用于收集bulk测序数据并进行预处理后获取第一数据集,收集空间转录组学数据并进行预处理后获取第二数据集;

8、模型构建模块,通过所述第一数据集获取训练好的机器学习模型,并通过网格搜索法获取所述训练好的机器学习模型的最优超参数组合;

9、活性预测模块,用于基于所述训练好的机器学习模型预测第二数据集中的mirna活性。

10、本专利技术实施例还提供了一种电子设备,包括:

11、处理器;以及,

12、被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行如上述基于批量测序数据预测空间转录组mirna活性的方法的步骤。

13、本专利技术实施例还提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现如上述基于批量测序数据预测空间转录组mirna活性的方法的步骤。

14、采用本专利技术实施例,通过整合多来源的bulk rna-seq数据来建立机器学习模型,并应用于空间转录组的mirna活性预测,解决了空间转录组测序技术难以检测mirna的问题,通过后续实验验证了预测方法的有效性。提出了一套系统的预处理流程,包括对bulkrna-seq和mirna-seq数据的去噪、归一化、样本对齐和批次效应消除,确保了数据的高质量和一致性。利用mirna的进化保守性原则减轻假阳性的发生,提高了数据的可靠性和预测的准确性。通过从bulk rna-seq数据中选择共同基因并构建表达矩阵,结合mirna表达数据,利用机器学习模型进行预测,实现了从宏观数据到微观mirna活性预测的转换。多个模型的五折交叉验证和网格搜索优化,提高了模型的泛化能力和预测精度。利用空间转录组数据中的共同基因表达矩阵,应用预训练的机器学习模型进行mirna活性预测,实现了对空间转录组数据中mirna表达的精确预测。通过这种方法,可以揭示mirna在不同空间位置的活性差异,为理解mirna在癌症中的作用提供了新的视角。采用mae、mse和r2等多种性能指标评估模型,确保了选择出的模型具有最佳的预测性能。通过斯皮尔曼相关系数验证预测结果的相关性,进一步保证了预测的准确性和可靠性。提出的方法在数据预处理、模型构建和性能优化方面具有显著优势,能够更准确地预测空间转录组数据中的mirna活性,为研究mirna在癌症中的作用提供了新方法。

本文档来自技高网...

【技术保护点】

1.一种基于批量测序数据预测空间转录组miRNA活性的方法,其特征在于包括:

2.根据权利要求1所述的方法,其特征在于,所述收集Bulk测序数据并进行预处理后获取第一数据集具体包括:

3.根据权利要求1所述的方法,其特征在于,所述收集空间转录组学数据并进行预处理后获取第二数据集具体包括:

4.根据权利要求1所述的方法,其特征在于,所述S2具体包括:

5.根据权利要求1所述的方法,其特征在于,所述基于批量测序数据预测空间转录组miRNA活性的方法进一步包括计算斯皮尔曼相关系数以评估机器学习模型的预测精度。

6.根据权利要求1所述的方法,其特征在于,所述基于批量测序数据预测空间转录组miRNA活性的方法进一步包括:采用平均绝对误差、均方误差以及决定系数评估机器学习模型。

7.根据权利要求1所述的方法,其其特征在于,所述S3具体包括:

8.一种基于批量测序数据预测空间转录组miRNA活性的装置,其特征在于,包括:

9.一种电子设备,包括:

10.一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现如权利要求1-7中任一项所述基于批量测序数据预测空间转录组miRNA活性的方法的步骤。

...

【技术特征摘要】

1.一种基于批量测序数据预测空间转录组mirna活性的方法,其特征在于包括:

2.根据权利要求1所述的方法,其特征在于,所述收集bulk测序数据并进行预处理后获取第一数据集具体包括:

3.根据权利要求1所述的方法,其特征在于,所述收集空间转录组学数据并进行预处理后获取第二数据集具体包括:

4.根据权利要求1所述的方法,其特征在于,所述s2具体包括:

5.根据权利要求1所述的方法,其特征在于,所述基于批量测序数据预测空间转录组mirna活性的方法进一步包括计算斯皮尔曼相关系数以评估机器学习模型的预测精度。

【专利技术属性】
技术研发人员:刘文斌袁佳琪叶正许鹏方刚陈智华
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1