一种生物样本信息的处理方法、系统以及存储介质技术方案

技术编号:38196637 阅读:11 留言:0更新日期:2023-07-21 16:33
本发明专利技术提供了一种生物样本信息的处理方法,包括以下步骤:获取待测生物样本及多个已知的参考生物样本的转录组信息;基于转录组信息,对待测生物样本及多个参考生物样本进行基于全基因的全局分析、基于差异基因的局部分析、基于基因差异表达分析的特征分析及非负最小二乘回归分析;以及根据全局分析结果、局部分析结果、特征分析结果及非负最小二乘回归分析结果,确定待测生物样本的总体特性。本发明专利技术基于高通量测序数据,研究和建立了一套可用于系统性评价细胞、组织等生物样本间相似性的方法,并基于该方法建立一种判断细胞谱系阶段、所处状态的研究策略,对特定细胞类型、亚群在不同谱系细胞中的具体定位提供参考价值。不同谱系细胞中的具体定位提供参考价值。不同谱系细胞中的具体定位提供参考价值。

【技术实现步骤摘要】
一种生物样本信息的处理方法、系统以及存储介质


[0001]本专利技术涉及生物样本测序
,尤其涉及一种生物样本信息的处理方法、一种生物样本信息的处理系统,以及一种计算机可读存储介质。

技术介绍

[0002]随着测序技术的发展,人们发现同个谱系不同阶段/状态下的细胞、甚至是完全相同的细胞中往往仍存在亚群。然而,仅凭一种分析或者是单个特异性标志物,往往很难判断待测的目标细胞与已知的参考细胞之间的相关性(即相似程度及差异)。同时,针对组织水平的测序,当我们想比较不同动物模型、不同物种来源的相同类似样本的相关性时,仅用利于全局转录组的皮尔逊相关系数(Pearson)、斯皮尔曼(Spearman)等相关系数进行判断并不够准确。
[0003]为克服现有技术所存在的上述缺陷,本领域亟需一种用于比较细胞、组织等生物样本之间相似性的方法,用于判断细胞谱系阶段及所处状态,从而对特定细胞类型、亚群在不同谱系细胞中的具体定位提供参考。

技术实现思路

[0004]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之前序。
[0005]为克服现有技术所存在的上述缺陷,本专利技术提供了一种生物样本信息的处理方法、一种生物样本信息的处理系统,以及一种计算机可读存储介质,能够基于高通量测序数据判断细胞谱系阶段及所处状态,从而对特定细胞类型、亚群在不同谱系细胞中的具体定位提供参考。
[0006]具体来说,根据本专利技术的第一方面提供的上述生物样本信息的处理方法包括以下步骤:获取待测生物样本及多个已知的参考生物样本的转录组信息;基于所述转录组信息,对所述待测生物样本及多个所述参考生物样本进行基于全基因的全局分析、基于差异基因的局部分析、基于基因差异表达分析的特征分析及非负最小二乘回归分析;以及根据全局分析结果、局部分析结果、特征分析结果及非负最小二乘回归分析结果,确定所述待测生物样本的总体特性。
[0007]优选地,在本专利技术的一实施例中,在获取所述待测生物样本及多个所述参考生物样本的转录组信息之前,所述处理方法还包括以下步骤:基于已知的特异性标志物、功能学特征和/或形态学特征,对所述待测生物样本进行生物学鉴定;以及根据所述生物学鉴定的结果,确定相似于所述待测生物样本的参考生物样本。
[0008]优选地,在本专利技术的一实施例中,基于所述特异性标志物的生物学鉴定包括qRT

PCR检测、Western Blot检测、免疫荧光检测中的至少一者,和/或基于所述功能学特征的生
物学鉴定包括所述待测生物样本与已知的参考生物样本的功能性对比实验。
[0009]优选地,在本专利技术的一实施例中,所述获取待测生物样本及多个已知的参考生物样本的转录组信息的步骤包括:响应于所述生物学鉴定的结果无法确定相似于所述待测生物样本的参考生物样本,对所述待测生物样本及多个所述参考生物样本进行高通量测序,以分别获取其转录组信息。
[0010]优选地,在本专利技术的一实施例中,在进行所述全局分析、所述局部分析、所述特征分析及所述非负最小二乘回归分析之前,所述处理方法还包括以下步骤:将多种不同来源的转录组信息整理为统一格式的标准化数据;以及利用sva包的combat函数或limma包的removebatcheffect函数,对所述标准化数据进行批次效应的抹除。
[0011]优选地,在本专利技术的一实施例中,进行所述全局分析的步骤包括:基于所述转录组信息,对所述待测生物样本及多个所述参考生物样本进行相关性分析,以获得将所述待测生物样本与其全局相似的多个参考生物样本聚集到一起的相关性热图;基于所述转录组信息,对所述待测生物样本及多个所述参考生物样本中检测获得的全基因进行聚类及表达量热图分析,以获得将所述待测生物样本与其全局相似的多个参考生物样本聚集到一起的表达量热图;以及基于所述相关性热图及所述表达量热图,确定所述全局分析结果。
[0012]优选地,在本专利技术的一实施例中,进行所述局部分析的步骤包括:基于所述转录组信息,从所述待测生物样本及多个所述参考生物样本提取标准差(SD)最大的多个TOP SD基因进行局部聚类分析,以获得将所述待测生物样本与其局部相似的多个参考生物样本聚集到一起的TOP SD基因热图;对所述待测生物样本及多个所述参考生物样本的转录组信息进行两两之间的差异表达分析,并利用火山图展示差异表达分析结果;以及基于所述TOP SD基因热图及所述火山图,确定所述局部分析结果。
[0013]优选地,在本专利技术的一实施例中,所述对所述待测生物样本及多个所述参考生物样本的转录组信息进行两两之间的差异表达分析的步骤包括:利用limma包对所述待测生物样本及多个所述参考生物样本的转录组信息进行两两之间的差异表达分析,以分别确定所述待测生物样本及各所述参考生物样本的差异基因,其中,差异基因的数目越少指示生物样本的相似度越高。
[0014]优选地,在本专利技术的一实施例中,进行所述特征分析的步骤包括:对所述待测生物样本及多个所述参考生物样本的差异基因进行聚类及热图分析,以获得将所述待测生物样本与其特征相似的多个参考生物样本聚集到一起的聚类树热图,其中,所述差异基因指示所述待测生物样本在谱系发育中的定位;对所述聚类树热图进行主成分分析,以确定所述待测生物样本在与其特征相似的参考生物样本的谱系中的谱系阶段;对所述全基因进行差异表达分析及全基因的差异倍数散点图相关性分析,以成熟的参考生物样本为对照,获取所述全基因的差异倍数值,以模拟所述待测生物样本到所述成熟的参考生物样本之间的生物学距离,并避免各所述参考生物样本之间的批次效应;对所述全基因进行差异表达分析及差异基因的差异倍数散点图相关性分析,以确定共同差异表达基因对样本相似性的影响;对与所述待测生物样本特征具有共同特性的特征基因集进行相关性分析;以及基于所述聚类树热图、所述谱系阶段、所述生物学距离、所述影响及所述相关性分析结果,确定所述特征分析结果。
[0015]优选地,在本专利技术的一实施例中,进行所述非负最小二乘回归分析的步骤包括:经
由所述非负最小二乘回归分析,利用第二数据集B中所有参照样本(Reference)的基因表达R
B
预测第一数据集A中目标(Query)样本类型的基因表达Q
A
(Query),其中,Q
A
=β
0A

1A
(R
B
);切换所述第一数据集A和所述第二数据集B的顺序,即数据集A为Reference样本,而数据集B为Query样本,经由所述第一数据集A中所有细胞类型的基因表达R
A
,预测所述第二数据集B中目标样本的基因表达Q
B
,其中,Q
B
=β
0B

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生物样本信息的处理方法,其特征在于,包括以下步骤:获取待测生物样本及多个已知的参考生物样本的转录组信息;基于所述转录组信息,对所述待测生物样本及多个所述参考生物样本进行基于全基因的全局分析、基于差异基因的局部分析、基于基因差异表达分析的特征分析及非负最小二乘回归分析;以及根据全局分析结果、局部分析结果、特征分析结果及非负最小二乘回归分析结果,确定所述待测生物样本的总体特性。2.如权利要求1所述的处理方法,其特征在于,在获取所述待测生物样本及多个所述参考生物样本的转录组信息之前,所述处理方法还包括以下步骤:基于已知的特异性标志物、功能学特征和/或形态学特征,对所述待测生物样本进行生物学鉴定;以及根据所述生物学鉴定的结果,确定相似于所述待测生物样本的参考生物样本。3.如权利要求2所述的处理方法,其特征在于,基于所述特异性标志物的生物学鉴定包括qRT

PCR检测、Western Blot检测、免疫荧光检测中的至少一者,和/或基于所述功能学特征的生物学鉴定包括所述待测生物样本与已知的参考生物样本的功能性对比实验。4.如权利要求2所述的处理方法,其特征在于,所述获取待测生物样本及多个已知的参考生物样本的转录组信息的步骤包括:响应于所述生物学鉴定的结果无法确定相似于所述待测生物样本的参考生物样本,对所述待测生物样本及多个所述参考生物样本进行高通量测序,以分别获取其转录组信息。5.如权利要求1所述的处理方法,其特征在于,在进行所述全局分析、所述局部分析、所述特征分析及所述非负最小二乘回归分析之前,所述处理方法还包括以下步骤:将多种不同来源的转录组信息整理为统一格式的标准化数据;以及利用sva包的combat函数或limma包的removebatcheffect函数,对所述标准化数据进行批次效应的抹除。6.如权利要求1所述的处理方法,其特征在于,进行所述全局分析的步骤包括:基于所述转录组信息,对所述待测生物样本及多个所述参考生物样本进行相关性分析,以获得将所述待测生物样本与其全局相似的多个参考生物样本聚集到一起的相关性热图;基于所述转录组信息,对所述待测生物样本及多个所述参考生物样本中检测获得的全基因进行聚类及表达量热图分析,以获得将所述待测生物样本与其全局相似的多个参考生物样本聚集到一起的表达量热图;以及基于所述相关性热图及所述表达量热图,确定所述全局分析结果。7.如权利要求1所述的处理方法,其特征在于,进行所述局部分析的步骤包括:基于所述转录组信息,从所述待测生物样本及多个所述参考生物样本提取标准差最大的多个TOP SD基因进行局部聚类分析,以获得将所述待测生物样本与其局部相似的多个参考生物样本聚集到一起的TOP SD基因热图;对所述待测生物样本及多个所述参考生物样本的转录组信息进行两两之间的差异表达分析,并利用火山图展示差异表达分析结果;以及
基于所述TOP SD基因热图及所述火山图,确定所述局部分析结果。8.如权利要求7所述的处理方法,其特征在于,所述对所述待测生物样本及多个所述参考生物样本的转录组信息进行两两之间的差异表达分析的步骤包括:利用limma包对所述待测生物样本及多个所述参考生物样本的转录组信息进行两两之间的差异表达分析,以分别确定所述待测生物样本及各所述参考生物样本的差异基因,其中,差异基因的数目越少指示生物样本的相似度越高。9.如权利要求8所述的处理方法,其特征在于,进行所述特征分析的步骤包括:对所述待测生物样本及多个所述参考生物样本的差异基因进行聚类及热图分析,以获得将所述待测生物样本与其特征相似的多个参考生物样本聚集到一起的聚类树热图,其中,所述差异基因指示所述待测生物样本在谱系发育中的定位;对所述聚类树热图进行主成分分析,以确定所述待测生物样本在与其特征相似的参考生物样本的谱系中...

【专利技术属性】
技术研发人员:何志颖刘中民王喜城张文成吴国秀崔洋洋
申请(专利权)人:上海市东方医院同济大学附属东方医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1