当前位置: 首页 > 专利查询>李霞专利>正文

一种非编码RNA调控疾病风险靶通路的识别方法及系统技术方案

技术编号:26261212 阅读:42 留言:0更新日期:2020-11-06 17:58
本发明专利技术公开了一种非编码RNA调控疾病风险靶通路的识别方法及系统,所述识别方法,基于lncRNA表达谱、lncRNA‑蛋白编码基因的关联互作网络,结合通路中基因在疾病中的表达失调程度,考虑通路中基因与表达失调lncRNA关联、基因的表达失调程度、通路的拓扑结构等多方面因素。能够精细识别了不同疾病类型中lncRNA调控的风险通路区域。实现系统识别复杂疾病中lncRNA调控影响的风险靶通路,能够揭示lncRNA在疾病中的调控作用及功能,从非编码RNA调控的角度为复杂疾病的致病机制研究提供了新的参考。

【技术实现步骤摘要】
一种非编码RNA调控疾病风险靶通路的识别方法及系统
本专利技术涉及人类基因组
,特别涉及一种非编码RNA调控疾病风险靶通路的识别方法及系统。
技术介绍
人类基因组计划的提出以及高通量测序技术的发展,促使研究人员发现一类新的非编码RNA——长链非编码RNA(lncRNA),是一类在动物和植物中都广泛存在的长度超过200个碱基(nucleotide,nt)且通常不编码蛋白质的RNA转录本分子。基于新一代测序技术,研究人员获得了大量的lncRNA在不同组学层面的数据如表达、遗传变异的数据等,并发现lncRNA可以在转录后水平调控许多重要的生物学功能。随后,越来越多的研究证明lncRNA参与调控了广泛的生物学功能,与人类复杂疾病尤其是恶性肿瘤的发生发展密切相关。近些年,lncRNA与复杂疾病相关研究呈指数级增长。例如,lncRNA目前已被发现与近百种恶性肿瘤的发生发展密切相关。lncRNA的失调改变会影响肿瘤相关基因、蛋白的表达,导致重要的肿瘤生物学过程和通路相关功能的失调,从而在癌症的发生和转移过程中发挥着关键的生物学作用。然而,目前研究人员对本文档来自技高网...

【技术保护点】
1.一种非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述识别方法包括如下步骤:/n从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据;/n利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA;/n利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;/n利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白...

【技术特征摘要】
1.一种非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述识别方法包括如下步骤:
从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据;
利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA;
利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因;
计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
以调控关联蛋白质编码基因为种子节点,以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入,采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分;
根据每个蛋白质编码基因的分数,采用网络识别算法,确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域;
采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路。


2.根据权利要求1所述的非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA,具体包括:
从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据;
对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化和数据标准化处理,获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱;
利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别,计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性;
选取显著性小于显著性阈值的位置非编码RNA,作为失调非编码RNA。


3.根据权利要求1所述的非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因,具体包括:
根据蛋白编码基因的相关分子关联数据,构建非编码RNA-蛋白质编码基因的关联互作网络;
根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因。


4.根据权利要求1所述的非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因,具体包括:
利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r;
其中,n为疾病样本数目,Xi为蛋白编码基因X在第i个疾病样本中的表达值,Xu为蛋白编码基因X在n个疾病样本中的表达值的均值,Yi为失调非编码RNAY在样本i中的表达值,Yu为失调非编码RNAY在N个疾病样本中的表达值的均值;
基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值;
选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因,作为失调非编码RNA关联的蛋白质编码基因。


5.根据权利要求1所述的非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重,具体包括:
利用公式Wn=-(β1logPl+β2logPr+β3logPg),计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
其中,Pl,Pg和Pr分别代表失调非编码RNA的差异表达显著性P值、调控关联蛋白质编码基因的差异表达显著性P值和失调非编码RNA与调控关联蛋白质编码基因间调控相关性的显著性P值;β1、β2和β3分别为Pl,Pg和Pr的权重系数,β1=β2=β3=1。


6.一种非编码RNA调控疾病风险靶通路的...

【专利技术属性】
技术研发人员:张云鹏许艳军李峰李霞
申请(专利权)人:李霞张云鹏许艳军
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1