【技术实现步骤摘要】
组学样本的分析方法、装置、电子设备及存储介质
[0001]本申请涉及数据处理
,具体而言,本申请涉及一种组学样本的分析方法、装置、电子设备以及计算机可读存储介质。
技术介绍
[0002]生物标志物(Biomarker),是指能被客观测量和评价,反映生理或病理过程,以及对暴露或治疗干预措施产生生物学效应的指标。生物标志物是临床中广泛用于诊断、疗效评估和预后预测的工具。在临床研发中,生物标志物也正成为极为重要的工具,有助于精准发现获益/风险人群、指导伴随诊断开发、优化研发策略,提高研发的成功率。
[0003]现有技术一般是通过差异基因(例如转录、蛋白、代谢)进行无目的筛选,差异基因的差异倍数值受到生物实验影响较大,故结果特异性低下,普适性差,并且需要大量的生物样本支持,目前一个生物样本的获取成本大概在十元左右,以获得肿瘤标志物为例,现有技术往往需要数万个声纹样本才能够确定肿瘤标志物,成本较高,一旦样本量少则准确率会明显降低。
技术实现思路
[0004]本申请实施例提供了一种组学样本的分析方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决现有技术的上述的问题。所述技术方案如下:
[0005]根据本申请实施例的一个方面,提供了一种组学样本的分析方法,该方法包括:
[0006]获得多个样本组,每个样本组包括对应生理或病理过程中一个阶段的多个组学样本,所有样本组中的组学样本包括多个相同的参考组学物质;
[0007]获得每个参考组学物质的表达量序列,所述表达量序 ...
【技术保护点】
【技术特征摘要】
1.一种组学样本的分析方法,其特征在于,包括:获得多个样本组,每个样本组包括对应生理或病理过程中一个阶段的多个组学样本,所有样本组中的组学样本包括多个相同的参考组学物质;获得每个参考组学物质的表达量序列,所述表达量序列包括按阶段的先后顺序排列的、所述参考组学物质在各样本组中的表达量;对所有表达量序列以多种聚类方式进行聚类,获得每种聚类方式对应的聚类结果,每个聚类结果包括多个表达量序列簇,从所有聚类结果中确定目标表达量序列簇,将目标表达量序列簇对应的参考组学物质作为目标组学物质;获得训练样本集,所述训练样本集中的训练样本为仅保留所述目标组学物质的组学样本,所述训练样本的标签为所述仅保留所述目标组学物质的组学样本对应的阶段;根据所述训练样本集训练得到预测模型,根据所述预测模型确定每个阶段属于生物标志物的组学物质。2.根据权利要求1所述的分析方法,其特征在于,所述从所有聚类结果中确定目标表达量序列簇,包括:确定每种聚类结果中表达量序列簇的表达量序列分布情况;根据各种聚类结果中表达量序列簇的表达量序列分布情况确定目标表达量序列簇。3.根据权利要求2所述的分析方法,其特征在于,所述根据各种聚类结果中表达量序列簇的表达量序列分布情况确定目标表达量序列簇,包括:对于每一种聚类结果,根据所述聚类结果中的各表达量序列簇的表达量序列分布情况,获得所述聚类结果的评估结果;从评估结果符合第一预设条件的目标聚类结果中,选择表达量序列分布情况符合第二预设条件的表达量序列簇,作为所述目标表达量序列簇。4.根据权利要求3所述的分析方法,其特征在于,所述表达量序列分布情况以表达量序列簇的各个表达量序列的变化趋势的一致性程度进行表征;所述根据所述聚类结果中的各表达量序列簇的表达量序列分布情况,获得所述聚类结果的评估结果,包括:确定所述聚类结果中各表达量序列簇对应的一致性程度的平均值,作为所述聚类结果的评估结果;所述从评估结果符合第一预设条件的目标聚类结果中,选择表达量序列分布情况符合第二预设条件的表达量序列簇,包括:将评估结果最高的聚类结果,作为所述符合第一预设条件的目标聚类结果,将所述目标聚类结果中具有最高一致性程度的表达量序列簇作为所述符合第二预设条件的表达量序列簇。5.根据权利要求2
‑
4任意一项所述的分析方法,其特征在于,所述确定每种聚类结果中表达量序列簇的表达量序列分布情况,包括:确定所述表达量序列簇中每一时段的表达量最大值和最小值间的差值;根据所述表达量序列簇中所有时段对应的差值,获得所述表达量序列簇的表达量序列分布情况。6.根据权利要求1所述的分析方法,其特征在于,所述根据所述训练样本集训练得到预
测模型,包括:获得多个初始模型;根据训练样本集分别训练多个初始模型,获得与每个初始模型对应的候选预测模...
【专利技术属性】
技术研发人员:罗星,张风豪,黄银,任建洪,
申请(专利权)人:四川帕诺米克生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。