当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于评分机制与LightGBM的CircRNA功能预测方法技术

技术编号:27747412 阅读:28 留言:0更新日期:2021-03-19 13:42
为克服现有技术的不足,本发明专利技术的目的在于利用评分机制结合LightGBM方法对circRNA的功能进行预测。本发明专利技术为解决其问题所采用的技术方案主要步骤是:(1)将大数据样本的circRNA以(.bed)文件形式输入。(2)将circRNA(.bed)文件映射到全人类基因组(hg19版本)上,得到circRNA序列信息(.fasta)文件。(3)提出了一种特征融合算法,对CircRNA特征进行融合。(4)将特征输入至A类判决系统,将编码蛋白型circRNA区分出来。(5)其它CircRNA分别经过三个模型,依照顺序判别CircRNA各项功能,得到预测概率值。(6)根据评分机制,将上述所得到的三个预测概率值,通过B类判决系统,得到最终的circRNA功能分类预测结果。

【技术实现步骤摘要】
一种基于评分机制与LightGBM的CircRNA功能预测方法
本专利技术涉及生物信息学
,特别是涉及CircRNA功能预测的领域。
技术介绍
CircRNA在生物学中具有多种功能,如富含miRNA结合位点,在细胞中起到了海绵体的作用;通过与蛋白质结合来调控蛋白质的活性;有些CircRNA甚至可以被翻译成蛋白质。因此它也成为了近年来比较重要的潜在生物标记物,而对于其功能的识别是一件繁琐的事情,传统方法常利用实验法根据CircRNA已存在的多种功能对新CircRNA的功能进行一一检验,这种方法费时费力,并且对于大批量的CircRNA功能识别十分困难。目前暂未有任何一种方法来提前预测CircRNA的功能,从而针对性地检验其某种功能,进而分析它在临床医学中的具体作用。
技术实现思路
为克服现有技术的不足,本专利技术的目的在于利用评分机制结合LightGBM方法对CircRNA的功能进行预测。它充分利用已发现的CircRNA各种功能的大数据信息,从机器学习的方法训练出模型,利用模型,可实现只需要简便输入需要进行功能预测的DNA或RNA相关序列,就可以预测出CircRNA具有哪一种具体的功能,经实验验证准确率高达85%以上,极大地省去了对新发现的CircRNA的所有功能—检验所浪费的实验时间和器材损耗的经济成本,能对实验项目的进行起到事半功倍的效果。本专利技术为解决其问题所采用的技术方案主要步骤是:S1.将大数据样本的CircRNA以(.bed)文件形式输入,其中包含染色体号、序列起始位点、正负链标记。S2.将CircRNA(.bed)文件根据起始位点等相关信息映射到全人类基因组(hg19版本)上。得到具体的CircRNA序列信息(.fasta)文件。S3.提出了一种特征融合算法,用于根据CircRNA所表达的具体功能作为特征标签,并且提取相应功能的表达过程中相关的所有特征作为特征向量,进行融合处理。如miRNA结合位点、甲基化、连接数等特征。S4.将相关的特征输入至判断“编码蛋白型”CircRNA的A类判决系统,并根据A类判决系统的流程将“编码蛋白型”CircRNA区分出来。S5.在S4中判定为“非编码蛋白型”的CircRNA,将继续进入下一步的判决,分别经过三个由LightGBM二分类算法所构建的模型,依照顺序判别CircRNA各项功能。经过三个系统分别得到一个预测概率值。S6.根据评分机制,将上述所得到的三个预测概率值,通过我们提出的B类判决系统中的“可信值计算”得到相应的分数,再通过评分机制输出最终的CircRNA功能分类预测结果。S7.在整个过程中,对于三个LightGBM算法所构建的二分类模型,我们通过调整树的最大深度max_depth、叶子可能具有的最小记录数min_data_in_leaf、每次迭代时用的数据比例bagging_fraction等参数,以获取模型最佳参数。与现有技术相比,本专利技术的有益效果是:本专利技术使用的算法,通过理论推导,提出了评价机制,并且三个利用LightGBM方法的二分类模型中都用到了LightGBM的核心算法GOSS,来对样本数据进行抽样,EFB对特征数量进行采样,最后通过调整树的最大深度、叶子的最小记录数等,获取模型最佳参数。本专利技术利用CircRNA功能表达时所涉及到的多种特征,如甲基化、增强子等信息。通过提取这些特征,并采用多特征融合的算法将多种特征组合起来,作为特征信息的输入。本专利技术提供的方法,可应用于预测新发现的CircRNA可能具有的功能类型,在准确率以及计算速度、算法稳定度等方面有较大的改进提高,能够更好地适用于实际CircRNA功能预测的工作中。附图说明图1专利技术流程图图2专利技术使用图图3LightGBM核心算法图图4为LightGBM的参数解决过拟合等问题的调优步骤图5最佳参数ROC曲线图具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,以下结合实施例及其附图对本专利技术作进一步说明。参照图1本实施例基于评价机制与LightGBM的CircRNA功能方法的流程图。本专利技术为解决其问题所采用的技术方案主要步骤是:S1.将大数据样本的CircRNA以(.bed)文件形式输入,其中包含染色体号、序列起始位点、正负链标记。S2.将CircRNA(.bed)文件根据起始位点等相关信息映射到全人类基因组(hg19版本)上。得到具体的CircRNA序列信息(.fasta)文件。S3.提出了一种特征融合算法,用于根据CircRNA所表达的具体功能作为特征标签,并且提取相应功能的表达过程中相关的所有特征作为特征向量,进行融合处理。如miRNA结合位点、甲基化、连接数等特征。S4.将相关的特征输入至判断“编码蛋白型”CircRNA的A类判决系统,并根据A类判决系统的流程将“编码蛋白型”CircRNA区分出来。S5.在S4中判定为“非编码蛋白型”的CircRNA,将继续进入下一步的判决,分别经过三个由LightGBM二分类算法所构建的模型,依照顺序判别CircRNA各项功能。经过三个系统分别得到一个预测概率值。S6.根据评分机制,将上述所得到的三个预测概率值,通过我们提出的B类判决系统中的“可信值计算”得到相应的分数,再通过评分机制输出最终的CircRNA功能分类预测结果。S7.在整个过程中,对于三个LightGBM算法所构建的二分类模型,我们通过调整树的最大深度max_depth、叶子可能具有的最小记录数min_data_in_leaf、每次迭代时用的数据比例bagging_fraction等参数,以获取模型最佳参数。参见图2为专利技术使用图,即在训练好参数模型之后,对于新的CircRNA进行功能预测的流程图。参见图3,为LightGBM的核心算法流程图。S1.LightGBM的主要算法包含了GOSS和EFB,分别为大样本数据环境下,降低数据量以及降低特征维度,加快计算速度。如下为GOSS算法的流程:输入:CircRNA大样本训练数据,迭代步数d,大梯度数据的采样率a(0<a<1),小梯度数据的采样率b(0<a<1),选择损失函数和弱学习器类;具体过程为以下步骤:(1)按照样本的梯度绝对值对样本进行降序排列。(2)选取(1)中排序结果的前a*100%的样本生成一个大梯度样本点的子集;(3)对剩下的样本集合(1-a)*100%的样本,随机的选取b*(1-a)*100%个样本点,生成一个小梯度样本点的集合;(4)将大梯度样本和采样的小梯度样本合并;(5)将小梯度样本乘上一个权重系数;(6)使用上述的采样的样本,学习一个新的弱学习器;(7)不断地重复(1)~(6)步骤直到达到规定的迭代次数或者收敛为止。输出:训练好的强学习器;以上的GOSS算法采用了数据抽样的方式,这种随机性增加本文档来自技高网...

【技术保护点】
1.一种基于评分机制与LightGBM的CircRNA功能预测方法,其特征在于:/n此种方法包括了LightGBM算法和评分机制,并且首次提出利用机器学习的方法,将circRNA在生物体内所表达的功能进行分类预测,利用了lightGBM算法并与评分机制相结合对经多特征融合方法处理的原始实验验证的大数据样本进行训练,最终将得到的模型用于后续新的circRNA的功能预测。/n

【技术特征摘要】
1.一种基于评分机制与LightGBM的CircRNA功能预测方法,其特征在于:
此种方法包括了LightGBM算法和评分机制,并且首次提出利用机器学习的方法,将circRNA在生物体内所表达的功能进行分类预测,利用了lightGBM算法并与评分机制相结合对经多特征融合方法处理的原始实验验证的大数据样本进行训练,最终将得到的模型用于后续新的circRNA的功能预测。


2.根据权利要求1所述的一种基于评分机制与LightGBM的CircRNA功能预测方法,其特征在于,包括以下步骤:
S1.将大数据样本的circRNA以(.bed)文件形式输入,其中包含染色体号、序列起始位点、正负链标记。
S2.将circRNA(.bed)文件根据起始位点等相关信息映射到全人类基因组(hg19版本)上。得到具体的circRNA序列信息(.fasta)文件。
S3.提出了一种特征融合算法,用于根据circRNA所表达的具体功能作为特征标签,并且提取相应功...

【专利技术属性】
技术研发人员:邓怡云王高平戴宪华
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1