System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于自然语言处理的丙二酰化位点预测方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>山东大学专利>正文

基于自然语言处理的丙二酰化位点预测方法及系统技术方案

技术编号:40075299 阅读:6 留言:0更新日期:2024-01-17 01:04
本公开属于生物信息技术领域,提供了一种基于自然语言处理的丙二酰化位点预测方法及系统,包括以下步骤:获取基准数据集;对基准数据集进行平衡处理;将基准数据集分割为多个氨基酸单位,采用Word2vec中的Skip‑gram方法将氨基酸序列从原始空间映射到多维空间;将多维空间特征向量输入CNN预测模型中识别氨基酸序列中丙二酰化位点。本公开使用seqGAN网络进行数据集增强,采用词嵌入技术中的word2vec技术将连续分割后的氨基酸序列映射成高维空间的数字向量,解决了深度网络计算成本大的弊端,提升了丙二酰化位点预测的准确率。

【技术实现步骤摘要】

本公开涉及生物信息,具体涉及一种基于自然语言处理的丙二酰化位点预测方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。

2、蛋白质翻译后修饰(ptm)被定义为蛋白质在核糖体中翻译后的酶变化。目前,已经鉴别出400多种修饰类型,如磷酸化、糖基化、甲基化、泛素化、丙二酰化、乙酰化、s-磺化、甲酰化和亚硝基化等。ptm作为作用和协调蛋白质功能的重要机制,参与各种细胞生命活动,是调节许多生物过程的基本机制之一。然而异常的ptms可能会引起严重的疾病,例如癌症、糖尿病和自身免疫性疾病。因此,深入研究蛋白质的ptm对揭示生命活动机制、筛选疾病的临床药物和确定药物靶点具有重要意义。

3、丙二酰化是2011年首次发现的一种进化上保守的赖氨酸翻译后修饰类型。对丙二酰化位点的准确预测和研究对人类生理疾病有着重要的影响,有助于了解丙二酰化修饰的潜在生物学意义,并促进药物开发和疾病治疗以及更好地理解分子功能。

4、丙二酰化位点的检测是一项繁琐的任务,现有技术中,人们常用基于机器学习和深度学习的方法来预测蛋白质的赖氨酸丙二酰化位点。这两种方法各有缺陷:现有的基于机器学习的预测方法需要专家预先定义信息特征。而现有的基于深度学习的方法存在以下三点不足:1、在特征表述时只是针对丙二酰化进行不同的特征提取,例如结构特征、序列特征、顺序特征等,于此特征选择就起到了决定性作用,需要专家经验,这一点非常耗费时间与金钱,且特征提取和分类被视为两个过程,会对预测效果产生不利影响;2、在数据集建立方面,由于人工标注的阳性位点数据较少,阴性样本居多,使得数据集极度不平衡,而现有的基于深度学习的方法没有进行数据平衡,这导致预测效果达不到最佳效果;3、使用监督学习的浅层模型,如svm、随机森林或xgboost,或者使用全连接网络,容易造成过度拟合,对预测效果产生不利影响。


技术实现思路

1、为了解决上述问题,本公开提出了一种基于自然语言处理的丙二酰化位点预测方法及系统,使用seqgan网络进行数据集增强,采用词嵌入技术中的word2vec技术,将分割后的氨基酸序列映射成高维空间的数字向量,提升了丙二酰化位点预测的准确率。

2、为了实现上述目的,本公开采用如下技术方案:

3、本公开第一方面提供了一种基于自然语言处理的丙二酰化位点预测方法,包括以下步骤:

4、获取氨基酸序列的基准数据集;

5、使用seqgan网络对基准数据集进行平衡处理;

6、将基准数据集中的氨基酸序列分割为多个氨基酸单位,采用基于负样本采样优化的word2vec中的skip-gram方法,以分割后的氨基酸序列任何位置的氨基酸单位作为中心,通过预测其上下文中氨基酸单位的概率来获得相应的特征向量,将氨基酸序列从原始空间映射到多维空间;

7、将多维空间特征向量输入cnn预测模型中识别氨基酸序列中丙二酰化位点。

8、优选的,seqgan网络包括生成器和判别器,生成器用以合成数据,判别器用以将合成数据与真实数据进行对比,逐渐缩小两者差值,使得生成器产生数据逐渐逼近真实数据。

9、优选的,所述将基准数据集中的氨基酸序列分割为多个氨基酸单位具体为:采用间隔序列切割方式,通过设置一定大小和步幅的滑动窗口,从左到右扫描基准数据集中的每个氨基酸序列,构建成组的氨基酸序列。

10、优选的,所述优化的word2vec中的skip-gram方法为一个带权采样的过程,为基准数据集中的每一个氨基酸单位分配一个权重,权重越大,被随机抽取的概率越大,计算公式为:

11、

12、ω是给定当前氨基酸单位,c是氨基酸序列,u是氨基酸序列中任一氨基酸单位,counter(ω)表示ω在氨基酸序列中出现的次数。

13、优选的,cnn预测模型将卷积层与最大池化层作为一个整体,以特征映射结束后的多维空间特征向量作为输入,进行特征提取和分类,并使用校正线性单元函数激活结果。

14、优选的,负样本采样即在正确氨基酸单位以外的负样本中进行采样。

15、优选的,其还包括利用敏感性、特异性、准确性、马修斯相关系数和受试者工作特征曲线下面积指标对预测模型方法评估。

16、本公开第二方面提供了一种基于自然语言处理的丙二酰化位点预测系统,包括:

17、数据采集模块,被配置为:获取氨基酸序列的基准数据集;

18、数据平衡模块,被配置为:使用seqgan网络对基准数据集进行平衡处理;

19、词嵌入模块,被配置为:将基准数据集中的氨基酸序列分割为多个氨基酸单位,采用基于负样本采样优化的word2vec中的skip-gram方法,以分割后的氨基酸序列任何位置的氨基酸单位作为中心,通过预测其上下文中氨基酸单位的概率来获得相应的特征向量,将氨基酸序列从原始空间映射到多维空间;

20、模型预测模块,被配置为:将多维空间特征向量输入cnn预测模型中识别氨基酸序列中丙二酰化位点。

21、本公开第三方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现本公开第一方面所述的基于自然语言处理的丙二酰化位点预测方法中的步骤。

22、本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现本公开第一方面所述的基于自然语言处理的丙二酰化位点预测方法中的步骤。

23、与现有技术相比,本公开的有益效果为:

24、1.本公开采用词嵌入技术中的word2vec技术来表征丙二酰化氨基酸序列的内部信息,word2vec本身是一个三层神经网络,它可以反应序列间内部关系,对氨基酸基团进行加权处理,通过赋予不同基团不同的权重提高贡献率大的氨基酸基团的重要性,从而提高预测的准确性和鲁棒性。将连续分割后的氨基酸序列映射成高维空间的数字向量,解决了现存工具在特征编码时需要依靠专家经验的难题。

25、2.本公开利用seqgan网络平衡正负样本的数据集,对基准数据集进行增强,通过生成器与判别器的对抗训练后,生成器产生的数据可以看作来自真实世界,因此seqgan可以保证输入数据数量的同时也保证了数据质量。通过使用策略梯度来解决梯度下降问题和对生成的序列数据进行评价,解决了传统数据增强方法的局限性。

26、3.本公开选择两层卷积神经网络,一方面预防了模型的过度拟合,另一方面解决了深度网络计算成本大的弊端。

本文档来自技高网...

【技术保护点】

1.一种基于自然语言处理的丙二酰化位点预测方法,其特征在于,包括以下步骤:

2.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,seqGAN网络包括生成器和判别器,生成器用以合成数据,判别器用以将合成数据与真实数据进行对比,逐渐缩小两者差值,使得生成器产生数据逐渐逼近真实数据。

3.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,所述将基准数据集中的氨基酸序列分割为多个氨基酸单位具体为:采用间隔序列切割方式,通过设置一定大小和步幅的滑动窗口,从左到右扫描基准数据集中的每个氨基酸序列,构建成组的氨基酸序列。

4.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,所述优化的Word2vec中的Skip-gram方法为一个带权采样的过程,为基准数据集中的每一个氨基酸单位分配一个权重,权重越大,被随机抽取的概率越大,计算公式为:

5.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,CNN预测模型将卷积层与最大池化层作为一个整体,以特征映射结束后的多维空间特征向量作为输入,进行特征提取和分类,并使用校正线性单元函数激活结果。

6.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,负样本采样即在正确氨基酸单位以外的负样本中进行采样。

7.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,其还包括利用敏感性、特异性、准确性、马修斯相关系数和受试者工作特征曲线下面积指标对预测模型方法评估。

8.一种基于自然语言处理的丙二酰化位点预测系统,其特征在于,包括:

9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于自然语言处理的丙二酰化位点预测方法中的步骤。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于自然语言处理的丙二酰化位点预测方法中的步骤。

...

【技术特征摘要】

1.一种基于自然语言处理的丙二酰化位点预测方法,其特征在于,包括以下步骤:

2.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,seqgan网络包括生成器和判别器,生成器用以合成数据,判别器用以将合成数据与真实数据进行对比,逐渐缩小两者差值,使得生成器产生数据逐渐逼近真实数据。

3.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,所述将基准数据集中的氨基酸序列分割为多个氨基酸单位具体为:采用间隔序列切割方式,通过设置一定大小和步幅的滑动窗口,从左到右扫描基准数据集中的每个氨基酸序列,构建成组的氨基酸序列。

4.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于,所述优化的word2vec中的skip-gram方法为一个带权采样的过程,为基准数据集中的每一个氨基酸单位分配一个权重,权重越大,被随机抽取的概率越大,计算公式为:

5.如权利要求1中所述的基于自然语言处理的丙二酰化位点预测方法,其特征在于...

【专利技术属性】
技术研发人员:杨润涛孙宁张丽娜
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1