【技术实现步骤摘要】
一种基于模糊k-mer使用率鉴定lncRNA的方法
本专利技术属于鉴定长链非编码RNA(lncRNA)
,涉及一种基于模糊k-mer使用率鉴定lncRNA的方法。
技术介绍
在分子生物学领域,非编码RNA(non-codingRNAs)是当前研究热点之一。非编码中的microRNA(miRNA)和长链非编码RNA(longnon-codingRNA,lncRNA)是研究的重中之重。microRNA的研究日趋成熟,科学家们对长链非编码RNA的研究正在如火如荼开展当中,长链非编码RNA有重要生物医学功能。起初人们认为长链非编码RNA只不过是基因组转录时的副产物,只是“噪音”,不具有任何生物学功能。随着Xist、Hotair等非编码RNA基因的功能被逐步发现,人们发现长链非编码RNA不仅功能十分重要、数量还大大超过编码蛋白的基因。长链非编码RNA的功能主要表现在:转录干扰、调控基因表达、转录激活、X染色体失活、核内运输、基因组印记、染色质修饰等,与疾病的发生、发展、诊断、治疗都有密切联系。鉴定长链非编码RNA ...
【技术保护点】
1.一种基于模糊k-mer使用率鉴定lncRNA的方法,其特征在于:具体包括如下步骤:/n步骤1,对RNA序列数据进行预处理;/n步骤2,对传统k-mer和模糊k-mer进行定义,并计算传统k-mer使用频率;/n步骤3,确定传统k-mer与模糊k-mer的对应关系;/n步骤4,求解传统k-mer与模糊k-mer对应关系矩阵c
【技术特征摘要】
1.一种基于模糊k-mer使用率鉴定lncRNA的方法,其特征在于:具体包括如下步骤:
步骤1,对RNA序列数据进行预处理;
步骤2,对传统k-mer和模糊k-mer进行定义,并计算传统k-mer使用频率;
步骤3,确定传统k-mer与模糊k-mer的对应关系;
步骤4,求解传统k-mer与模糊k-mer对应关系矩阵cm;
步骤5,用模糊k-mer训练预测模型。
2.根据权利要求1所述的一种基于模糊k-mer使用率鉴定lncRNA的方法,其特征在于:所述步骤1的具体过程为:
从RefSeq数据库下载人类编码蛋白的转录本mRNA序列和注释,从GENCODEv17收集人类长链非编码RNA,将带有putative、predicted、pseudogene注释的mRNA和lncRNA排除掉。
3.根据权利要求1所述的一种基于模糊k-mer使用率鉴定lncRNA的方法,其特征在于:所述步骤2的具体过程为:
传统k-mer的定义为:传统的k-mer记为U={uj},1≤j≤N=4t,序列长度为t;
模糊k-mer的定义为:模糊k-mer记为V={vi},序列长度为n,其中不能匹配碱基序列的长度为n-x,x个位置有碱基,x必须小于n;
传统k-mer使用频率的计算过程为:
在滑窗内的序列和特定序列i匹配,则特定序列i的使用次数Ni则增加1,采用如下公式(1)计算k-mer使用频率Fi:
Fi=Ni/Mk(1);
其中,Mk是长度为k的滑窗能沿着RNA序列滑动的总次数。
4....
【专利技术属性】
技术研发人员:李爱民,费蓉,刘雅君,周红芳,刘光明,王磊,黑新宏,周中银,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。