【技术实现步骤摘要】
基于多特征信息融合的长链非编码RNA亚细胞定位方法
本专利技术涉及生物信息学领域,具体涉及一种新的长链非编码RNA亚细胞定位方法。
技术介绍
长链非编码RNA(longnon-codingRNA,lncRNA)是一种长度超过200个核苷酸的转录本。起初他们被认为是基因组转录的“噪音”,没有生物功能。然而,近年来研究人员发现长链非编码RNA在多种细胞和生物进程中发挥着重大的作用,如细胞分化、细胞内转运、染色质修饰、mRNA剪接,转录以及转录后调控等。此外,长链非编码RNA的失调还与多种人类疾病相关,如心血管疾病、神经退行性疾病、肥胖症以及癌症。越来越多的证据表明长链非编码RNA的亚细胞位置对其生物学功能有非常大的影响。例如,出现在细胞质中的长链非编码RNA可能参与翻译或信号传导,而出现在细胞核中的长链非编码RNA则发挥着调控基因表达的作用。因此,确定长链非编码RNA的亚细胞位置十分重要。近年来,通过实验的方法,越来越多关于长链非编码RNA亚细胞位置的信息被获取。与此同时,研究人员也构建了一系列长链非编码RNA相关的数据库,如RNALocate、LncATLAS以及l ...
【技术保护点】
1.一种基于多特征信息融合的长链非编码RNA的亚细胞定位方法,其特征在于,包括如下步骤:(1)构建基准数据集;通过对RNALocate数据库中的数据进行筛选,获取到643条位于不同亚细胞位置的长链非编码RNA序列;(2)构建特征向量;通过将长链非编码RNA的k‑mer组分与三元组结构‑序列融合起来形成特征向量,更加全面的利用了长链非编码RNA的序列与结构信息;由于8‑mer组分有独特的进化机制,因此,参数k取值为8,至此,可将一条长链非编码RNA序列表示为(4
【技术特征摘要】
1.一种基于多特征信息融合的长链非编码RNA的亚细胞定位方法,其特征在于,包括如下步骤:(1)构建基准数据集;通过对RNALocate数据库中的数据进行筛选,获取到643条位于不同亚细胞位置的长链非编码RNA序列;(2)构建特征向量;通过将长链非编码RNA的k-mer组分与三元组结构-序列融合起来形成特征向量,更加全面的利用了长链非编码RNA的序列与结构信息;由于8-mer组分有独特的进化机制,因此,参数k取值为8,至此,可将一条长链非编码RNA序列表示为(48+32)维的特征向量;(3)特征选择;采用了方差分析的方法,选取最优的特征子集;(4)应用机器学习算法;选择支持向量机来进行预测;(5)评估分类器性能;采用4个指标以及ROC曲线与AUC值来评价分类器性能。2.根据权利要求1所述基于多特征信息融合的长链非编码RNA的亚细胞定位方法,其特征在于,所述步骤(2)构建特征向量具体步骤为:(1)K-mer组分;对一条长度为L的长链非编码RNA序列来说,k-mer组分指的是这条长链非编码RNA的所有长度为k的子序列;设计一个大小为k的滑窗,使其沿着长链非编码RNA序列以步长为1个核苷酸向前滑动,当滑窗中的长链非编码RNA子序列与第i个k-mer组分匹配时,将第i个k-mer组分对应的数量值,表示为ξi,加1;因此,特征向量的第一部分可以表示为:其中,ψi代表第i个k-mer出现的频率,可以通过以下公式来计算:(2)三元组结构-序列可以将一条长链非编码RNA序列表示为:V2=[gA(″(((″),gA(″((.″),...,gA(″...″),...,gC(″(((″),...,gU(″,...″)]T(3)其中,g表示对32种不同结构组成的出现次数进行归一化处理;为了更加全面的利用长链非编码RNA的序列与结构信息,将k-mer组分与三元组结构序列融合起来,最终将长链非编码RNA表示为:3.根据权利要求1所述基于多特征信息融合的长链非编码RNA的亚细胞定位方法,其特征在于,所述步骤(3)方法通过计算每个特征的F-score来衡量该特征对分类器的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。