当前位置: 首页 > 专利查询>邵阳学院专利>正文

一种基于lightGBM的lncRNA亚细胞定位预测方法技术

技术编号:37563712 阅读:31 留言:0更新日期:2023-05-15 07:44
本发明专利技术公开了一种基于lightGBM的lncRNA亚细胞定位预测方法,包括,首先截取已知的lncRNA序列中前段多个的核苷酸作为序列样本一;然后通过基于单链多类位置特异的三核苷酸偏向性和反向互补kmer对序列样本一分别进行特征编码,两种特征编码的结合接为向量;使用lightGMB作为学习算法;使用5折交叉验证优化反向互补kmer和LightGBM的超参数;最截取未知lncRNA序列前端多个碱基作为序列样本二,并将其单链多类位置特异的三核苷酸偏向性和优化后的反向互补kmer特征编码的结合输入训练后的lightGBM中,将得到它定位的亚细胞类型,本发明专利技术专利能够根据长链非编码RNA序列预测在细胞质、细胞核、核糖体、细胞溶质、外泌体这五个亚细胞位置,本发明专利技术实现简单,预测精度高。预测精度高。预测精度高。

【技术实现步骤摘要】
一种基于lightGBM的lncRNA亚细胞定位预测方法


[0001]本专利技术涉及计算生物分子学领域,特别是涉及一种基于lightGBM的lncRNA亚细胞定位预测方法。

技术介绍

[0002]lncRNA是指lncRNA(long non

coding RNA,lncRNA),是指一种超过200个核苷酸的RNA转录物,它由DNA转录而来,但从不为蛋白质编码。大量的实验研究表明,lncRNA通过与不同种类的生物大分子,如DNA、RNA或蛋白质发生相互作用而行使其功能。例如,有些lncRNA控制基因表达,有些影响DNA损伤和修复的反应,有些则参与剪接、周转和翻译以及信号通路。Xing的论文(Role of lncRNA LUCAT1 in cancer)发现,肺癌相关转录物1(lung cancer

related transcript 1,LUCAT1)参与了多种肿瘤的调控,包括肺癌、乳腺癌、卵巢癌、甲状腺癌和肾细胞癌,因此被视为一种潜在的癌症预后的生物标记和治疗靶点,而lncRNA在细胞过程中的作用与它们的亚细胞定位密切相关,亚细胞定位决定了它们与哪些伙伴相互作用以及发生哪些转录后或共转录调控修饰,并影响到直接影响lncRNA功能的外部刺激。除此之外,亚细胞定位在细胞核上的lncRNA总体上比亚细胞定位到细胞质上的lncRNA更丰富、更不稳定,所以亚细胞定位在细胞核上的lncRNA的功能与亚细胞定位在细胞质上的lncRNA会有所不同。前者通过染色质相互作用和重塑来调节转录程序,而后者则通过信号通路、翻译程序和基因表达的转录后控制。因此,准确识别lncRNA亚细胞定位对于生物信息学的发展意义重大。
[0003]随着人工智能的发展,最近五年来,越来越多的学者开始使用人工智能来解决lncRNA亚细胞定位的预测问题。Su的论文(iLoc

lncRNA:predict the subcellular location of lncRNAs by incorporating octamer composition into general PseKNC)使用PseKNC(pseudo k

tuple nucleotide composition,PseKnc)这种特征来表示lncRNA序列,并建立了一个基于随机向量机的模型(iLoc

lncRNA)用于lncRNA亚细胞定位的预测。Zeng的论文(DeepLncLoc:a deep learning framework for long non

coding RNA subcellular localization prediction based on subsequence embedding)将lncRNA序列分成为m个连续的子序列,并使用word2vec来提取序列的语义特征,用于训练得到基于深度学习的模型DeepLncLoc。然而,前面模型使用k

mer特征,并不能很好表示lncRNA的信息,后面这种模型虽提取了语义特征,但由于lncRNA长度相差很大,最终搭建的深度学习模型使用的平均池化层难免会丢失大量信息。因此,这两种分类器的预测性能会被限制。

技术实现思路

[0004]本专利技术为解决以上
技术介绍
中提到的问题,提供一种基于lightGBM的lncRNA亚细胞定位预测方法,以解决现有技术的问题。
[0005]本专利技术采用的技术方案是:
[0006]一种基于lightGBM的lncRNA亚细胞定位预测方法,包括以下步骤:
[0007]S1:收集已知lncRNA序列,分别截取定位在细胞核、细胞膜、细胞质、核糖体和外泌体lncRNA的前段166个碱基作为序列样本一用作训练集;
[0008]S2:通过基于单链多类位置特异的三核苷酸偏向性和反向互补kmer对序列样本一分别进行特征编码,两种特征编码的结合接为向量;
[0009]S3:使用lightGMB作为学习算法;
[0010]S4:使用5折交叉验证在训练集上优化反向互补kmer和LightGBM的超参数;
[0011]S5:截取未知lncRNA序列前端166个碱基作为序列样本二,并将其单链多类位置特异的三核苷酸偏向性和优化后的反向互补kmer特征编码的结合输入训练后的lightGBM中,将得到它定位的亚细胞类型。
[0012]进一步地,所述步骤S2和S5中基于单链多类位置特异的三核苷酸偏向性对序列样本分别进行特征编码方法为:
[0013]将序列S分割为3个连续的核苷酸如s1s2s3,s2s3s4,

,s
i
s
i+1
s
i+2
,

,s
L
‑2s
L
‑1s
L
,s
i
s
i+1
s
i+2
表示第i个位置上的3个连续核苷酸;位置特异的三核苷酸偏向矩阵可表示为
[0014][0015]其中:k表示lncRNA亚细胞种类,表示在第k类的亚细胞定位中第i个lncRNA序列的3个核苷酸在位置j出现的概率。
[0016]进一步地,所述位置特异的三核苷酸偏向矩阵可以使用训练集中的相应频率进行估计,通过查询位置特异的三核苷酸偏向矩阵,lncRNA序列中任何3个连续核苷酸都可以得到一个数值令使用一个数组记录序列中lncRNA的每个位置上3个连续核苷酸对应的亚细胞类型,统计一个序列中出现次数最多的亚细胞类型,其相应的位置特异的三核苷酸偏向矩阵用来编码lncRNA,即
[0017][0018]其中:j由序列中第i位置上3个核苷酸类型决定。
[0019]进一步地,所述步骤S2和S5中反向互补kmer对序列样本进行特征编码的方法为:
[0020][0021]其中:N为反向互补kmer的聚体种类个数,N
()
为反向互补核苷酸i出现次数。
[0022]进一步地,所述反向互补kmer的聚体种类个数由下列公式计算:
[0023][0024]进一步地,所述步骤S3中LightGBM是一种轻量级的梯度提升树,梯度提升树是一种加法模型,由一组决策树集合构成,每次寻找一个最优树以拟合目标与前面决策树差值,构建最优树是一个迭代过程,寻求使下式最小的分割,其公式如下:
[0025][0026]其中:I
L
和I
R
分别表示拟分的左子树和右子树,I表示原分割节点,g
i
和h
i
分别表示一阶和二阶梯度,γ表示叶子节点数目。
[0027]进一步地,所述步骤S4中使用5

折交叉验证对反向互补kmer中的k,包括以下内容,
[0028]S4.1.1将训练集分成5等份,4份用于训练,1份用于测试,重复5次,每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于lightGBM的lncRNA亚细胞定位预测方法,其特征在于,包括以下步骤:S1:收集已知lncRNA序列,分别截取定位在细胞核、细胞膜、细胞质、核糖体和外泌体lncRNA的前段多个碱基作为序列样本一用作训练集;S2:通过基于单链多类位置特异的三核苷酸偏向性和反向互补kmer对序列样本一分别进行特征编码,两种特征编码的结合接为向量;S3:使用lightGMB作为学习算法;S4:使用5折交叉验证在训练集上优化反向互补kmer和LightGBM的超参数;S5:截取未知lncRNA序列前段多个碱基作为序列样本二,并将其单链多类位置特异的三核苷酸偏向性和优化后的反向互补kmer特征编码的结合输入训练后的lightGBM中,将得到它定位的亚细胞类型。2.根据权利要求1所述的一种基于lightGBM的lncRNA亚细胞定位预测方法,其特征在于,所述步骤S2和S5中基于单链多类位置特异的三核苷酸偏向性对序列样本分别进行特征编码方法为:将序列S分割为3个连续的核苷酸如s1s2s3,s2s3s4,...,s
i
s
i+1
s
i+2
,...,s
L
‑2s
L
‑1s
L
,s
i
s
i+1
s
i+2
表示第i个位置上的3个连续核苷酸;位置特异的三核苷酸偏向矩阵可表示为其中:k表示lncRNA亚细胞种类,表示在第k类的亚细胞定位中第i个lncRNA序列的3个核苷酸在位置j出现的概率。3.根据权利要求1所述的一种基于lightGBM的lncRNA亚细胞定位预测方法,其特征在于,所述位置特异的三核苷酸偏向矩阵可以使用训练集中的相应频率进行估计,通过查询位置特异的三核苷酸偏向矩阵,lncRNA序列中任何3个连续核苷酸都可以得到一个数值令使用一个数组记录序列中lncRNA的每个位置上3个连续核苷酸对应的亚细胞类型,统计一个序列中出现次数最多的亚细胞类型,其相应的位置特异的三核苷酸偏向矩阵用来编码lncRNA,即其中:j由序列中第i位置上3个核苷酸类型决定。4.根据权利要求1所述的一种基于lightGBM的lncRNA亚细胞定位预测方法,其特征在于,所述步骤S2和S5中反向互补kmer对序列样本进行特征编码的方法为:其中:N为反向互补kmer的聚体种类个数,N

【专利技术属性】
技术研发人员:黄国华吕建邑
申请(专利权)人:邵阳学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1