一种基于模糊k-mer使用率鉴定lncRNA的方法技术

技术编号:24358111 阅读:27 留言:0更新日期:2020-06-03 03:00
本发明专利技术公开了一种基于模糊k‑mer使用率鉴定lncRNA的方法,具体包括如下步骤:步骤1,对RNA序列数据进行预处理;步骤2,对传统k‑mer和模糊k‑mer进行定义,并计算传统k‑mer使用频率;步骤3,确定传统k‑mer与模糊k‑mer的对应关系;步骤4,求解传统k‑mer与模糊k‑mer对应关系矩阵c

A method to identify lncrna based on the utilization rate of fuzzy k-mer

【技术实现步骤摘要】
一种基于模糊k-mer使用率鉴定lncRNA的方法
本专利技术属于鉴定长链非编码RNA(lncRNA)
,涉及一种基于模糊k-mer使用率鉴定lncRNA的方法。
技术介绍
在分子生物学领域,非编码RNA(non-codingRNAs)是当前研究热点之一。非编码中的microRNA(miRNA)和长链非编码RNA(longnon-codingRNA,lncRNA)是研究的重中之重。microRNA的研究日趋成熟,科学家们对长链非编码RNA的研究正在如火如荼开展当中,长链非编码RNA有重要生物医学功能。起初人们认为长链非编码RNA只不过是基因组转录时的副产物,只是“噪音”,不具有任何生物学功能。随着Xist、Hotair等非编码RNA基因的功能被逐步发现,人们发现长链非编码RNA不仅功能十分重要、数量还大大超过编码蛋白的基因。长链非编码RNA的功能主要表现在:转录干扰、调控基因表达、转录激活、X染色体失活、核内运输、基因组印记、染色质修饰等,与疾病的发生、发展、诊断、治疗都有密切联系。鉴定长链非编码RNA是研究长链非编码RNA的必由之路,是一项十分重要的基础性前沿性工作。从原始的转录组生物学实验数据中鉴定长链非编码RNA并非易事,要联合使用多种数据和多个工具、经过多步的计算和分析才能确定下来。其中有一项十分关键的步骤,那就是评估转录本的编码能力。《BMCbioinformatics》上发表了利用k-mer特征区分蛋白编码基因和长链非编码RNA基因的算法,取名为PLEK。该算法尤其适用于从大规模的denovo组装的转录组中鉴定长链非编码RNA。大量实验表明:当k增大时准确率随之提高,但是,与此同时计算量也会随k的增大而增加。为了在准确性和计算量之间取得平衡,最终选择k=5。另外,在计算k-mer过程中,随着k的增大,会产生稀疏矩阵现象,即计算出来的k-mer频率大部分为0。当转录本中存在SNP或者indel时会影响k-mer的计算。鉴于以上问题,提出一种基于模糊k-mer使用率鉴定lncRNA的方法,模糊k-mer在k-mer使用频率的计算上具有较好的鲁棒性。
技术实现思路
本专利技术的目的是提供一种基于模糊k-mer使用率鉴定lncRNA的方法,该方法采用严格的过滤条件收集可靠的mRNA和lncRNA序列,令后续鉴定模型输出的结果更为可靠和可信,降低系统误差;采用模糊k-mer,降低计算复杂度。本专利技术所采用的技术方案是,一种基于模糊k-mer使用率鉴定lncRNA的方法,具体包括如下步骤:步骤1,对RNA序列数据进行预处理;步骤2,对传统k-mer和模糊k-mer进行定义,并计算传统k-mer使用频率;步骤3,确定传统k-mer与模糊k-mer的对应关系;步骤4,求解传统k-mer与模糊k-mer对应关系矩阵cm;步骤5,用模糊k-mer训练预测模型。本专利技术的特点还在于,步骤1的具体过程为:从RefSeq数据库下载人类编码蛋白的转录本mRNA序列和注释,从GENCODEv17收集人类长链非编码RNA,将带有putative、predicted、pseudogene注释的mRNA和lncRNA排除掉。步骤2的具体过程为:传统k-mer的定义为:传统的k-mer记为U={uj},1≤j≤N=4t,序列长度为t;模糊k-mer的定义为:模糊k-mer记为V={vi},序列长度为n,其中不能匹配碱基序列的长度为n-x,x个位置有碱基,x必须小于n;传统k-mer使用频率的计算过程为:在滑窗内的序列和特定序列i匹配,则特定序列i的使用次数Ni则增加1,采用如下公式(1)计算k-mer使用频率Fi:Fi=Ni/Mk(1);其中,Mk是长度为k的滑窗能沿着RNA序列滑动的总次数。步骤3的具体过程为:传统k-mer和模糊k-mer的一一对应关系的矩阵AM×N=[ai,j],矩阵A中元素的取值为1或0:设x是向量,长度为N,其中元素xj是uj的数量;设y是向量,长度为M,其中元素yi是长度为vi的数量,传统k-mer和模糊k-mer的一一对应关系为:y=Ax(2)。步骤4的具体过程为:对RNA转录本X,其特征向量为其中,为转录本中第i个模糊k-mer的出现次数;为k-mer的数量;为了求解公式(2)的最小L2范式解,定义核函数为:其中,Nm(S1,S2)表示序列S1和序列S2之间的m个不匹配的模糊k-mer数量;其中,r=m1+m2-2t-m,b=4。步骤5的具体过程为:首先,使用LIBSVM包中的svm-scale程序来规范化调整过的使用频率到0到1范围内的数;然后,采用径向基函数为核的支持向量机作为二分类器;使用LIBSVM包中的grid.py脚本获得优化的支持向量机的参数C和核的参数gamma;在参数搜索过程中,采用10倍交叉验证来评估每对C和gamma参数对应的分类模型的性能。本专利技术的有益效果如下:(1)理论意义:长链非编码RNA的数量远多于编码蛋白基因,其生物医学功能已被证实,鉴定这些长链非编码RNA为研究基因调控、细胞周期、复杂疾病的发生和发展等奠定理论基础。(2)生物意义:鉴定长链非编码RNA为阐明基因表达调控机制创造条件,也可以为研究物种进化,以及生物的多样性提供因果解释,深化对细胞分化和基因组层面分子调控机制的认识。(3)应用价值:本算法的实现将有助于从大规模的高通量测序数据中系统准确地鉴定各种物种、各种细胞中的长链非编码RNA。该算法还可以推广应用到鉴定其他类型的RNA分子上,比如鉴定microRNA(miRNA),piRNA(Piwi-interactingRNA)等。具体实施方式下面结合具体实施方式对本专利技术进行详细说明。本专利技术一种基于模糊k-mer使用率鉴定lncRNA的方法,具体包括如下步骤:步骤1,数据预处理:本算法采用了机器学习的方法,因此需要准确和权威的训练和测试数据集。NCBI提供了RefSeq和GENCODE两个数据库,这个两个数据库提供了没有冗余的、全面的、良好注释的RNA序列数据集。可以从RefSeq数据库(release60)下载人类编码蛋白的转录本mRNA序列和注释,从GENCODEv17收集人类长链非编码RNA(lncRNA)。人类中有34691个长度大于200nt的mRNA,有22389个长度大于200nt的lncRNA。我们把带有putative、predicted、pseudogene等注释的mRNA和lncRNA排除掉,确保处理的数据是高质量的并且是可靠的。步骤2,计算传统k-mer使用频率:k-mer使用频率的计算和滑窗的宽度以及滑窗的步长有关。本专利技术采用的滑窗步长为1个碱基(1nt)。滑窗的宽度是变化本文档来自技高网
...

【技术保护点】
1.一种基于模糊k-mer使用率鉴定lncRNA的方法,其特征在于:具体包括如下步骤:/n步骤1,对RNA序列数据进行预处理;/n步骤2,对传统k-mer和模糊k-mer进行定义,并计算传统k-mer使用频率;/n步骤3,确定传统k-mer与模糊k-mer的对应关系;/n步骤4,求解传统k-mer与模糊k-mer对应关系矩阵c

【技术特征摘要】
1.一种基于模糊k-mer使用率鉴定lncRNA的方法,其特征在于:具体包括如下步骤:
步骤1,对RNA序列数据进行预处理;
步骤2,对传统k-mer和模糊k-mer进行定义,并计算传统k-mer使用频率;
步骤3,确定传统k-mer与模糊k-mer的对应关系;
步骤4,求解传统k-mer与模糊k-mer对应关系矩阵cm;
步骤5,用模糊k-mer训练预测模型。


2.根据权利要求1所述的一种基于模糊k-mer使用率鉴定lncRNA的方法,其特征在于:所述步骤1的具体过程为:
从RefSeq数据库下载人类编码蛋白的转录本mRNA序列和注释,从GENCODEv17收集人类长链非编码RNA,将带有putative、predicted、pseudogene注释的mRNA和lncRNA排除掉。


3.根据权利要求1所述的一种基于模糊k-mer使用率鉴定lncRNA的方法,其特征在于:所述步骤2的具体过程为:
传统k-mer的定义为:传统的k-mer记为U={uj},1≤j≤N=4t,序列长度为t;
模糊k-mer的定义为:模糊k-mer记为V={vi},序列长度为n,其中不能匹配碱基序列的长度为n-x,x个位置有碱基,x必须小于n;
传统k-mer使用频率的计算过程为:
在滑窗内的序列和特定序列i匹配,则特定序列i的使用次数Ni则增加1,采用如下公式(1)计算k-mer使用频率Fi:
Fi=Ni/Mk(1);
其中,Mk是长度为k的滑窗能沿着RNA序列滑动的总次数。


4....

【专利技术属性】
技术研发人员:李爱民费蓉刘雅君周红芳刘光明王磊黑新宏周中银
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1