当前位置: 首页 > 专利查询>邵阳学院专利>正文

一种基于lightGBM的lncRNA亚细胞定位预测方法技术

技术编号：37563712 阅读：31 留言：0更新日期：2023-05-15 07:44

本发明专利技术公开了一种基于lightGBM的lncRNA亚细胞定位预测方法，包括，首先截取已知的lncRNA序列中前段多个的核苷酸作为序列样本一；然后通过基于单链多类位置特异的三核苷酸偏向性和反向互补kmer对序列样本一分别进行特征编码，两种特征编码的结合接为向量；使用lightGMB作为学习算法；使用5折交叉验证优化反向互补kmer和LightGBM的超参数；最截取未知lncRNA序列前端多个碱基作为序列样本二，并将其单链多类位置特异的三核苷酸偏向性和优化后的反向互补kmer特征编码的结合输入训练后的lightGBM中，将得到它定位的亚细胞类型，本发明专利技术专利能够根据长链非编码RNA序列预测在细胞质、细胞核、核糖体、细胞溶质、外泌体这五个亚细胞位置，本发明专利技术实现简单，预测精度高。预测精度高。预测精度高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于lightGBM的lncRNA亚细胞定位预测方法

[0001]本专利技术涉及计算生物分子学领域，特别是涉及一种基于lightGBM的lncRNA亚细胞定位预测方法。

技术介绍

[0002]lncRNA是指lncRNA(long non
‑
coding RNA,lncRNA)，是指一种超过200个核苷酸的RNA转录物，它由DNA转录而来，但从不为蛋白质编码。大量的实验研究表明，lncRNA通过与不同种类的生物大分子，如DNA、RNA或蛋白质发生相互作用而行使其功能。例如，有些lncRNA控制基因表达，有些影响DNA损伤和修复的反应，有些则参与剪接、周转和翻译以及信号通路。Xing的论文(Role of lncRNA LUCAT1 in cancer)发现，肺癌相关转录物1(lung cancer
‑
related transcript 1，LUCAT1)参与了多种肿瘤的调控，包括肺癌、乳腺癌、卵巢癌、甲状腺癌和肾细胞癌，因此被视为一种潜在的癌症预后的生物标记和治疗靶点，而lncRNA在细胞过程中的作用与它们的亚细胞定位密切相关，亚细胞定位决定了它们与哪些伙伴相互作用以及发生哪些转录后或共转录调控修饰，并影响到直接影响lncRNA功能的外部刺激。除此之外，亚细胞定位在细胞核上的lncRNA总体上比亚细胞定位到细胞质上的lncRNA更丰富、更不稳定，所以亚细胞定位在细胞核上的lncRNA的功能与亚细胞定位在细胞质上的lncRNA会有所不同。前者通过染色质相互作用和重塑来调节转录程...

【技术保护点】

【技术特征摘要】
1.一种基于lightGBM的lncRNA亚细胞定位预测方法，其特征在于，包括以下步骤：S1：收集已知lncRNA序列，分别截取定位在细胞核、细胞膜、细胞质、核糖体和外泌体lncRNA的前段多个碱基作为序列样本一用作训练集；S2：通过基于单链多类位置特异的三核苷酸偏向性和反向互补kmer对序列样本一分别进行特征编码，两种特征编码的结合接为向量；S3：使用lightGMB作为学习算法；S4：使用5折交叉验证在训练集上优化反向互补kmer和LightGBM的超参数；S5：截取未知lncRNA序列前段多个碱基作为序列样本二，并将其单链多类位置特异的三核苷酸偏向性和优化后的反向互补kmer特征编码的结合输入训练后的lightGBM中，将得到它定位的亚细胞类型。2.根据权利要求1所述的一种基于lightGBM的lncRNA亚细胞定位预测方法，其特征在于，所述步骤S2和S5中基于单链多类位置特异的三核苷酸偏向性对序列样本分别进行特征编码方法为：将序列S分割为3个连续的核苷酸如s1s2s3，s2s3s4，...，s
i
s
i+1
s
i+2
，...，s
L
‑2s
L
‑1s
L
，s
i
s
i+1
s
i+2
表示第i个位置上的3个连续核苷酸；位置特异的三核苷酸偏向矩阵可表示为其中：k表示lncRNA亚细胞种类，表示在第k类的亚细胞定位中第i个lncRNA序列的3个核苷酸在位置j出现的概率。3.根据权利要求1所述的一种基于lightGBM的lncRNA亚细胞定位预测方法，其特征在于，所述位置特异的三核苷酸偏向矩阵可以使用训练集中的相应频率进行估计，通过查询位置特异的三核苷酸偏向矩阵，lncRNA序列中任何3个连续核苷酸都可以得到一个数值令使用一个数组记录序列中lncRNA的每个位置上3个连续核苷酸对应的亚细胞类型，统计一个序列中出现次数最多的亚细胞类型，其相应的位置特异的三核苷酸偏向矩阵用来编码lncRNA，即其中:j由序列中第i位置上3个核苷酸类型决定。4.根据权利要求1所述的一种基于lightGBM的lncRNA亚细胞定位预测方法，其特征在于，所述步骤S2和S5中反向互补kmer对序列样本进行特征编码的方法为：其中：N为反向互补kmer的聚体种类个数，N

【专利技术属性】
技术研发人员：黄国华，吕建邑，
申请(专利权)人：邵阳学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

相关技术

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术