组学样本的分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36946458 阅读:7 留言:0更新日期:2023-03-22 19:07
本申请实施例提供了一种组学样本的分析方法、装置、电子设备及计算机可读存储介质,涉及数据处理领域。该方法包括:获得多个样本组;获得每个参考组学物质的表达量序列;对所有表达量序列以多种聚类方式进行聚类,获得每种聚类方式对应的聚类结果,从所有聚类结果中确定目标表达量序列簇,将目标表达量序列簇对应的参考组学物质作为目标组学物质;获得训练样本集,根据训练样本集训练得到预测模型,根据所述预测模型确定每个阶段属于生物标志物的组学物质。本申请实施例可利用相对更少的数据获得更多的聚类结果,克服了现有技术需要较多组学样本的问题。学样本的问题。学样本的问题。

【技术实现步骤摘要】
组学样本的分析方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,具体而言,本申请涉及一种组学样本的分析方法、装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]生物标志物(Biomarker),是指能被客观测量和评价,反映生理或病理过程,以及对暴露或治疗干预措施产生生物学效应的指标。生物标志物是临床中广泛用于诊断、疗效评估和预后预测的工具。在临床研发中,生物标志物也正成为极为重要的工具,有助于精准发现获益/风险人群、指导伴随诊断开发、优化研发策略,提高研发的成功率。
[0003]现有技术一般是通过差异基因(例如转录、蛋白、代谢)进行无目的筛选,差异基因的差异倍数值受到生物实验影响较大,故结果特异性低下,普适性差,并且需要大量的生物样本支持,目前一个生物样本的获取成本大概在十元左右,以获得肿瘤标志物为例,现有技术往往需要数万个声纹样本才能够确定肿瘤标志物,成本较高,一旦样本量少则准确率会明显降低。

技术实现思路

[0004]本申请实施例提供了一种组学样本的分析方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决现有技术的上述的问题。所述技术方案如下:
[0005]根据本申请实施例的一个方面,提供了一种组学样本的分析方法,该方法包括:
[0006]获得多个样本组,每个样本组包括对应生理或病理过程中一个阶段的多个组学样本,所有样本组中的组学样本包括多个相同的参考组学物质;
[0007]获得每个参考组学物质的表达量序列,所述表达量序列包括按阶段的先后顺序排列的、所述参考组学物质在各样本组中的表达量;
[0008]对所有表达量序列以多种聚类方式进行聚类,获得每种聚类方式对应的聚类结果,每个聚类结果包括多个表达量序列簇,从所有聚类结果中确定目标表达量序列簇,将目标表达量序列簇对应的参考组学物质作为目标组学物质;
[0009]获得训练样本集,所述训练样本集中的训练样本为仅保留所述目标组学物质的组学样本,所述训练样本的标签为所述仅保留所述目标组学物质的组学样本对应的阶段;
[0010]根据所述训练样本集训练得到预测模型,根据所述预测模型确定每个阶段属于生物标志物的组学物质。
[0011]作为一种可能的实施方式,从所有聚类结果中确定目标表达量序列簇,包括:
[0012]确定每种聚类结果中表达量序列簇的表达量序列分布情况;
[0013]根据各种聚类结果中表达量序列簇的表达量序列分布情况确定目标表达量序列簇。
[0014]作为一种可能的实施方式,所述根据各种聚类结果中表达量序列簇的表达量序列分布情况确定目标表达量序列簇,包括:
[0015]对于每一种聚类结果,根据所述聚类结果中的各表达量序列簇的表达量序列分布情况,获得所述聚类结果的评估结果;
[0016]从评估结果符合第一预设条件的目标聚类结果中,选择表达量序列分布情况符合第二预设条件的表达量序列簇,作为所述目标表达量序列簇。
[0017]作为一种可能的实施方式,所述表达量序列分布情况以表达量序列簇的各个表达量序列的变化趋势的一致性程度进行表征;
[0018]所述根据所述聚类结果中的各表达量序列簇的表达量序列分布情况,获得所述聚类结果的评估结果,包括:
[0019]确定所述聚类结果中各表达量序列簇对应的一致性程度的平均值,作为所述聚类结果的评估结果;
[0020]所述从评估结果符合第一预设条件的目标聚类结果中,选择表达量序列分布情况符合第二预设条件的表达量序列簇,包括:
[0021]将评估结果最高的聚类结果,作为所述符合第一预设条件的目标聚类结果,将所述目标聚类结果中具有最高一致性程度的表达量序列簇作为所述符合第二预设条件的表达量序列簇。
[0022]作为一种可能的实施方式,所述确定每种聚类结果中表达量序列簇的表达量序列分布情况,包括:
[0023]确定所述表达量序列簇中每一时段的表达量最大值和最小值间的差值;
[0024]根据所述表达量序列簇中所有时段对应的差值,获得所述表达量序列簇的表达量序列分布情况。
[0025]作为一种可能的实施方式,所述根据所述训练样本集训练得到预测模型,包括:
[0026]获得多个初始模型;
[0027]根据训练样本集分别训练多个初始模型,获得与每个初始模型对应的候选预测模型;
[0028]确定每个候选预测模型的预测表现,将预测表现最好的候选预测模型作为所述预测模型。
[0029]作为一种可能的实施方式,所述获得多个初始模型,包括:
[0030]获得多个学习器,各个学习器的算法不尽相同;
[0031]以至少一种串并联方式将所述多个学习器进行连接,获得与所述串并联方式对应的初始模型。
[0032]作为一种可能的实施方式,所述预测模型用于根据样本组中各目标组学物质的权重以及表达量,获得所述样本组对应的阶段;
[0033]所述根据所述预测模型确定每个阶段属于生物标志物的组学物质,包括:
[0034]对于每个样本组,将所述样本组中权重高于预设阈值的组学物质作为所述样本组对应阶段的生物标志物。
[0035]作为一种可能的实施方式,所述对所有表达量序列以多种聚类方式进行聚类,获得每种聚类方式对应的聚类结果,包括:
[0036]通过模糊C均值算法,对所有表达量序列以多种预设簇数分别进行聚类,获得多种聚类结果,每种聚类结果包括的表达量序列簇的簇数与一种预设簇数对应。
[0037]作为一种可能的实施方式,所述获得每个参考组学物质的表达量序列,包括:
[0038]根据所述参考组学物质在每个样本组的各组学样本中的表达量,确定所述参考组学物质在每个样本组中的表达量;
[0039]按阶段的先后顺序,对所述参考组学物质在所有样本组中的表达量进行排列,获得所述参考组学物质的表达量序列。
[0040]根据本申请实施例的另一个方面,提供了一种组学样本的分析装置,该装置包括:
[0041]样本组获取模块,用于获得多个样本组,每个样本组包括对应生理或病理过程中一个阶段的多个组学样本,所有样本组中的组学样本包括多个相同的参考组学物质;
[0042]表达量序列获取模块,用于获得每个参考组学物质的表达量序列,所述表达量序列包括按阶段的先后顺序排列的、所述参考组学物质在各样本组中的表达量;
[0043]目标组学物质确定模块,用于对所有表达量序列以多种聚类方式进行聚类,获得每种聚类方式对应的聚类结果,每个聚类结果包括多个表达量序列簇,从所有聚类结果中确定目标表达量序列簇,将目标表达量序列簇对应的参考组学物质作为目标组学物质;
[0044]训练样本模块,用于获得训练样本集,所述训练样本集中的训练样本为仅保留所述目标组学物质的组学样本,所述训练样本的标签为所述仅保留所述目标组学物质的组学样本对应的阶段;
[0045]标志物确定模块,用于根据所述训练样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种组学样本的分析方法,其特征在于,包括:获得多个样本组,每个样本组包括对应生理或病理过程中一个阶段的多个组学样本,所有样本组中的组学样本包括多个相同的参考组学物质;获得每个参考组学物质的表达量序列,所述表达量序列包括按阶段的先后顺序排列的、所述参考组学物质在各样本组中的表达量;对所有表达量序列以多种聚类方式进行聚类,获得每种聚类方式对应的聚类结果,每个聚类结果包括多个表达量序列簇,从所有聚类结果中确定目标表达量序列簇,将目标表达量序列簇对应的参考组学物质作为目标组学物质;获得训练样本集,所述训练样本集中的训练样本为仅保留所述目标组学物质的组学样本,所述训练样本的标签为所述仅保留所述目标组学物质的组学样本对应的阶段;根据所述训练样本集训练得到预测模型,根据所述预测模型确定每个阶段属于生物标志物的组学物质。2.根据权利要求1所述的分析方法,其特征在于,所述从所有聚类结果中确定目标表达量序列簇,包括:确定每种聚类结果中表达量序列簇的表达量序列分布情况;根据各种聚类结果中表达量序列簇的表达量序列分布情况确定目标表达量序列簇。3.根据权利要求2所述的分析方法,其特征在于,所述根据各种聚类结果中表达量序列簇的表达量序列分布情况确定目标表达量序列簇,包括:对于每一种聚类结果,根据所述聚类结果中的各表达量序列簇的表达量序列分布情况,获得所述聚类结果的评估结果;从评估结果符合第一预设条件的目标聚类结果中,选择表达量序列分布情况符合第二预设条件的表达量序列簇,作为所述目标表达量序列簇。4.根据权利要求3所述的分析方法,其特征在于,所述表达量序列分布情况以表达量序列簇的各个表达量序列的变化趋势的一致性程度进行表征;所述根据所述聚类结果中的各表达量序列簇的表达量序列分布情况,获得所述聚类结果的评估结果,包括:确定所述聚类结果中各表达量序列簇对应的一致性程度的平均值,作为所述聚类结果的评估结果;所述从评估结果符合第一预设条件的目标聚类结果中,选择表达量序列分布情况符合第二预设条件的表达量序列簇,包括:将评估结果最高的聚类结果,作为所述符合第一预设条件的目标聚类结果,将所述目标聚类结果中具有最高一致性程度的表达量序列簇作为所述符合第二预设条件的表达量序列簇。5.根据权利要求2

4任意一项所述的分析方法,其特征在于,所述确定每种聚类结果中表达量序列簇的表达量序列分布情况,包括:确定所述表达量序列簇中每一时段的表达量最大值和最小值间的差值;根据所述表达量序列簇中所有时段对应的差值,获得所述表达量序列簇的表达量序列分布情况。6.根据权利要求1所述的分析方法,其特征在于,所述根据所述训练样本集训练得到预
测模型,包括:获得多个初始模型;根据训练样本集分别训练多个初始模型,获得与每个初始模型对应的候选预测模...

【专利技术属性】
技术研发人员:罗星张风豪黄银任建洪
申请(专利权)人:四川帕诺米克生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1