一种基于模糊k-mer使用率鉴定lncRNA的方法技术

技术编号：24358111 阅读：42 留言：0更新日期：2020-06-03 03:00

本发明专利技术公开了一种基于模糊k‑mer使用率鉴定lncRNA的方法，具体包括如下步骤：步骤1，对RNA序列数据进行预处理；步骤2，对传统k‑mer和模糊k‑mer进行定义，并计算传统k‑mer使用频率；步骤3，确定传统k‑mer与模糊k‑mer的对应关系；步骤4，求解传统k‑mer与模糊k‑mer对应关系矩阵c

A method to identify lncrna based on the utilization rate of fuzzy k-mer

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模糊k-mer使用率鉴定lncRNA的方法
本专利技术属于鉴定长链非编码RNA(lncRNA)
，涉及一种基于模糊k-mer使用率鉴定lncRNA的方法。
技术介绍
在分子生物学领域，非编码RNA(non-codingRNAs)是当前研究热点之一。非编码中的microRNA(miRNA)和长链非编码RNA(longnon-codingRNA,lncRNA)是研究的重中之重。microRNA的研究日趋成熟，科学家们对长链非编码RNA的研究正在如火如荼开展当中，长链非编码RNA有重要生物医学功能。起初人们认为长链非编码RNA只不过是基因组转录时的副产物，只是“噪音”，不具有任何生物学功能。随着Xist、Hotair等非编码RNA基因的功能被逐步发现，人们发现长链非编码RNA不仅功能十分重要、数量还大大超过编码蛋白的基因。长链非编码RNA的功能主要表现在：转录干扰、调控基因表达、转录激活、X染色体失活、核内运输、基因组印记、染色质修饰等，与疾病的发生、发展、诊断、治疗都有密切联系。鉴定长链非编码RNA...

【技术保护点】
1.一种基于模糊k-mer使用率鉴定lncRNA的方法，其特征在于：具体包括如下步骤：/n步骤1，对RNA序列数据进行预处理；/n步骤2，对传统k-mer和模糊k-mer进行定义，并计算传统k-mer使用频率；/n步骤3，确定传统k-mer与模糊k-mer的对应关系；/n步骤4，求解传统k-mer与模糊k-mer对应关系矩阵c

【技术特征摘要】
1.一种基于模糊k-mer使用率鉴定lncRNA的方法，其特征在于：具体包括如下步骤：
步骤1，对RNA序列数据进行预处理；
步骤2，对传统k-mer和模糊k-mer进行定义，并计算传统k-mer使用频率；
步骤3，确定传统k-mer与模糊k-mer的对应关系；
步骤4，求解传统k-mer与模糊k-mer对应关系矩阵cm；
步骤5，用模糊k-mer训练预测模型。

2.根据权利要求1所述的一种基于模糊k-mer使用率鉴定lncRNA的方法，其特征在于：所述步骤1的具体过程为：
从RefSeq数据库下载人类编码蛋白的转录本mRNA序列和注释，从GENCODEv17收集人类长链非编码RNA，将带有putative、predicted、pseudogene注释的mRNA和lncRNA排除掉。

3.根据权利要求1所述的一种基于模糊k-mer使用率鉴定lncRNA的方法，其特征在于：所述步骤2的具体过程为：
传统k-mer的定义为：传统的k-mer记为U＝{uj}，1≤j≤N＝4t，序列长度为t；
模糊k-mer的定义为：模糊k-mer记为V＝{vi}，序列长度为n，其中不能匹配碱基序列的长度为n-x，x个位置有碱基，x必须小于n；
传统k-mer使用频率的计算过程为：
在滑窗内的序列和特定序列i匹配，则特定序列i的使用次数Ni则增加1，采用如下公式(1)计算k-mer使用频率Fi：
Fi＝Ni/Mk(1)；
其中，Mk是长度为k的滑窗能沿着RNA序列滑动的总次数。

4....

【专利技术属性】
技术研发人员：李爱民，费蓉，刘雅君，周红芳，刘光明，王磊，黑新宏，周中银，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人