当前位置: 首页 > 专利查询>枣庄学院专利>正文

一种基于自然语义增强的环状RNA标志物预测方法技术

技术编号:37523205 阅读:27 留言:0更新日期:2023-05-12 15:46
本发明专利技术提供一种基于自然语义增强的环状RNA标志物预测方法,该方法利用自然语义增强的图注意力神经网络的优势抽取环状RNA标志物的深层特征,并利用旋转森林分类器准确预测出具有关联的环状RNA标志物。本发明专利技术能够有效利用自然语言处理策略表征环状RNA序列信息,结合最新的图注意力神经网络深度学习算法,从而并行计算每个节点及其相邻节点的注意力,在减少数据的计算量的同时提高了预测的精度,取得优异的预测效果。本发明专利技术方法计算代价低,功耗小;可以有效地预测潜在的环状RNA标志物,预测准确率可以达到92%以上。准确率可以达到92%以上。准确率可以达到92%以上。

【技术实现步骤摘要】
一种基于自然语义增强的环状RNA标志物预测方法


[0001]本专利技术涉及机器学习和生物信息学领域,具体涉及一种新型的环状RNA标志物预测方法。

技术介绍

[0002]环状RNA是一类具有闭环结构的非编码RNA分子,不受RNA外切酶的影响,表达稳定,具有时空特异性,已被证明广泛存在于真核转录组。作为非编码RAN研究领域的新宠,环状RNA在物种间是保守的,而组织和不同发育阶段存在表达特异性。最近的研究表明,环状RNA分子富含microRNA(miRNA)结合位点,在细胞中充当miRNA海绵,从而减轻miRNA对其靶基因的抑制作用,并提高靶基因的表达水平。这些特性使circRNA在调节基因转录和开发作为新型生物标记物的应用方面具有明显优势。
[0003]越来越多的研究表明,环状RNA与疾病密切相关,发挥重要的调节作用。例如,Tan等人发现来自融合基因EML4

ALK的环状RNA F

circEA具有促进细胞增殖和迁移的功能,表明F

circEA有可能作为EML4

ALK阳性非小细胞肺癌的诊断标志物。通过比较具有高/低比例肿瘤浸润淋巴细胞(TIL)的肝细胞癌患者的全局环状RNA微阵列表达谱,Weng等人发现hsa\u circ\u 0064428的高表达水平与低比例的TIL、低患者存活率、高表达率和高表达率呈正相关,提示TILs可以预测患者的临床预后,TILs比例越高的肝癌患者的总生存率越高。吴等报道,血浆中的circ
/>RPL15可作为慢性淋巴细胞白血病(CLL)的致癌驱动因子,在CLL的发病过程中发挥重要作用,也是CLL的重要诊断标志物。Dimmeler等人发现,lncRNA

ANRIL的外显子在动脉粥样硬化中转录成circANRIL,它通过干扰核糖体RNA成熟来特异性调节平滑肌细胞的死亡和增殖,从而保护动脉粥样硬化。
[0004]随着研究的深入,医学科学家鉴定出的环状RNA标志物的数量不断增加。这些实验验证数据的增加为计算模拟方法预测环状RNA标志物提供了可靠保证。基于这些可用的实验数据,研究人员设计了各种模型来预测环状RNA标志物。例如,王等人设计了一个半监督SGANRDA模型来预测环状RNA标志物。在该模型中,使用大量未标记样本预训练生成对抗网络,然后使用标记样本微调神经网络模型的参数以获得更好的训练效果。郑等人提出了一种新的基于生物序列位置信息的iCDA CGR模型。该模型使用混沌博弈表示(CGR)技术获取环状RNA序列的位置信息,并通过量化其非线性关系来预测环状RNA标志物。王等人将环状RNA的杰拉德和高斯核相似信息与语义信息相结合,提出了IMS

CDA模型,该模型通过深度堆叠自动编码器算法提取样本隐藏特征,准确预测环状RNA标志物。Wei等人提出了iCricDA LTR模型来预测环状RNA标志物,该模型使用排序框架模拟查询环状RNA之间的排序关联,并使用学习排序算法对各种环状RNA标志物进行监督排序。尽管上述方法极大地促进了环状RNA标志物预测的研究,但仍需克服以下问题:1)现有模型对数据属性一视同仁,不关注最具影响力的属性,导致高误报率。2)没有良好的可扩展性,具有未知关联的新样本无法直接应用于模型的归纳学习问题。3)没有充分利用属性之间的相关性和共生关系来深入挖掘样本的潜在语义信息。
[0005]为了克服环状RNA标志物预测中出现的上述问题,本专利技术提出了一种基于自然语义增强的计算模型。特别是,我们首先将环状RNA序列识别为一种生物语言,并使用自然语言理解理论对其进行分析,从而提取环状RNA序列的自然语义属性。然后,我们基于环状RNA之间的相关性、环状RNA自然语义之间的共生关系建立了一个模型。并通过图注意力网络(GAT)计算不同相邻节点的权重,并注意最有影响力的输入,以充分挖掘数据的隐藏信息。最后,使用旋转森林算法有效预测环状RNA标志物。值得注意的是,对于具有未知网络关联的新样本,本专利技术可以根据属性信息将其直接应用于归纳学习问题,从而准确预测其关联关系。

技术实现思路

[0006]针对现有技术的缺陷,本专利技术提供一种基于自然语义增强的环状RNA标志物预测方法,有效抽取环状RNA序列的自然语义信息,使其充分表征环状RNA的生物语义;利用深度学习的图注意力神经网络框架对环状RNA信息进行充分挖掘,抽取出它们关联的深度特征;利用旋转森林分类器构建模型,大大提高了预测精度,从而得到较好的预测效果。
[0007]为了解决所述技术特征,本专利技术采用的技术方案是:一种基于自然语义增强的环状RNA标志物预测方法,包括以下步骤:
[0008]S01)、数据集的选择与建立:利用收集自CircR2Disease数据库的环状RNA关联数据构建预测环状RNA标志物的数据集;
[0009]S02)、环状RNA自然语义构建:将环状RNA序列解析为生物语言,其碱基视为构成环状RNA的单词,其排列模式视为语言学中的语法,其功能视为语义,通过自然语言处理技术解析环状RNA自然语义特征,得到环状RNA的词向量矩阵;
[0010]S03)、疾病语义相似性构建:基于提供了严格分类的MeSH数据库,将疾病的分类属性关系构造为有向无环图,由此构建网络层次表征和数量表征的语义相似性矩阵;
[0011]S04)、图注意力神经网络构建,利用图注意力机制将注意力集中在有向无环图权重大于设定阈值的节点上,而忽略权重小于设定阈值的节点,通过分别加权不同的邻居节点,准确抽取环状RNA标志物的深度隐藏特征;
[0012]S05)、分类器模型构建,利用旋转森林算法,基于完整数据集训练多个基分类器,构建快速准确的分类器模型。
[0013]进一步的,步骤S02)使用自然语言处理Word2vec算法的Skip

Gram模型将环状RNA序列转换为数值向量,以文本学习的方式用词向量表征环状RNA的自然语义信息。
[0014]进一步的,步骤S03)中,对于某一节点,其有向无环图表示为DAG
d
=(d,N
d
,E
d
),d表示疾病分类属性关系中的某个节点,N
d
表示与节点d相关的节点,E
d
表示它们之间的关系,某一节点d对节点s的贡献D
d
(s)计算如下:
[0015][0016]其中μ表示贡献率,s

表示s的儿子节点;
[0017]节点d的语义值通过累加DAG
d
中所有节点的贡献来计算:
[0018][0019]DAG之间共享的节点越多,其相似性越高,则节点i和j之间的语义相似性SV1(i,j)
计算如下:
[0020][0021]其中:D
i
(s)表示节点i对节点s的贡献,D
j
(s)表示节点j对节点s的贡献,DV(i)表示节点i的语义值本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自然语义增强的环状RNA标志物预测方法,其特征在于:包括以下步骤:S01)、数据集的选择与建立:利用收集自CircR2Disease数据库的环状RNA关联数据构建预测环状RNA标志物的数据集;S02)、环状RNA自然语义构建:将环状RNA序列解析为生物语言,其碱基视为构成环状RNA的单词,其排列模式视为语言学中的语法,其功能视为语义,通过自然语言处理技术解析环状RNA自然语义特征,得到环状RNA的词向量矩阵;S03)、疾病语义相似性构建:基于提供了严格分类的MeSH数据库,将疾病的分类属性关系构造为有向无环图,由此构建网络层次表征和数量表征的语义相似性矩阵;S04)、图注意力神经网络构建,利用图注意力机制将注意力集中在有向无环图权重大于设定阈值的节点上,而忽略权重小于设定阈值的节点,通过分别加权不同的邻居节点,准确抽取环状RNA标志物的深度隐藏特征;S05)、分类器模型构建,利用旋转森林算法,基于完整数据集训练多个基分类器,构建快速准确的分类器模型。2.根据权利要求1所述的基于自然语义增强的环状RNA标志物预测方法,其特征在于:步骤S02)使用自然语言处理Word2vec算法的Skip

Gram模型将环状RNA序列转换为数值向量,以文本学习的方式用词向量表征环状RNA的自然语义信息。3.根据权利要求1所述的基于自然语义增强的环状RNA标志物预测方法,其特征在于:步骤S03)中,对于某一节点,其有向无环图表示为DAG
d
=(d,N
d
,E
d
),d表示疾病分类属性关系中的某个节点,N
d
表示与节点d相关的节点,E
d
表示它们之间的关系,某一节点d对节点s的贡献D
d
(s)计算如下:其中μ表示贡献率,s

表示s的儿子节点;节点d的语义值通过累加DAG
d
中所有节点的贡献来计算:DAG之间共享的节点越多,其相似性越高,则节点i和j之间的语义相似性SV1(i,j)计算如下:其中:D
i
(s)表示节点i对节点s的贡献,D
j
(s)表示节点j对节点s的贡献,DV(i)表示节点i的语义值,DV(j)表示节点j的语义值;通过步骤S03得到疾病分类属性关系中节点间的语义相似性矩阵。4.根据权利要求1所述的基于自然语义增强的环状RNA标志物预测...

【专利技术属性】
技术研发人员:王磊
申请(专利权)人:枣庄学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1