本发明专利技术公开了一种基于突变信息的蛋白相互作用影响判断方法,是一个对于蛋白质中发生的单点突变是否会对原有该基因的蛋白相互作用产生负面影响的判断工具(MIPPI),包括数据收集筛选、特征选取提取和模型建立三部分。本发明专利技术技术方案可以为基因、蛋白突变的相关研究者提供直观的突变对于蛋白互作影响的辅助判断标准,主要基于蛋白序列突变信息来对突变造成的蛋白相互作用的影响进行判断,能够改善对于蛋白突变严重程度的判断。
Judgment method of protein interaction based on mutation information
【技术实现步骤摘要】
基于突变信息的蛋白相互作用影响判断方法
本专利技术属于生物计算机
,具体涉及一种基于突变信息的蛋白相互作用影响判断方法。
技术介绍
人类基因组中普遍存在着基因突变,据文献报道每个人基因中平均包含了约175个突变点位,平均每个人会携带有3个以上的有害突变。基因突变点位大多数位于基因组的非编码区域,只有少数落在编码区域。落在编码区域的错义突变会导致蛋白质编码发生改变,从而改变蛋白质的结构和功能,并对相关的生物学过程和功能造成影响。目前已知大量的疾病与基因突变相关,典型的为精神疾病,如自闭症、强迫症、阿尔兹海默症、双向情感障碍等,其他相关疾病如高血压、糖尿病、色盲以及最受关注的癌症都和基因突变密切相关。所以,研究基因突变的致病机制成为了医学领域的重要研究领域。错义突变会导致蛋白质序列编码发生变化,蛋白质在生物体内执行多种功能,包括催化代谢反应,DNA复制,应激反应等。大多数生物过程,包括细胞增殖,信号传导和蛋白质转运等,都是通过复杂的蛋白相互作用在生物体内进行内在协调。所以,蛋白质复合物的形成在众多生物学过程的调节中起着至关重要的作用。蛋白质间相互作用的亲和力和特异性的合理设计或修饰是一个具有挑战性的问题,因为它提出了许多有希望的应用,特别是用于治疗目的。蛋白质界面的特征已经被普遍研究,但是蛋白质相互之间结合模式的多样性使得得出简单通用的识别规则受到了阻碍,仅一些全局性的理化特征,如疏水性等被研究所重视。目前已有大量研究关注于蛋白质相互作用界面的预测及研究,这些研究大多数依赖于机器学习方法来集成表征每个氨基酸残基及其环境的各种功能。这些特征通常包括有关序列保守性的信息,以及物理化学信息(如残基疏水性,静电荷),结构信息(如溶剂可及性,二级结构)或者各类能量参数。尽管这些方法需要了解蛋白复合物的结构,但也已实现了从序列对于相互作用界面的预测。相比于蛋白质互作界面的研究,突变对于蛋白质相互作用影响的研究对突变直接造成的生物影响研究更具有直接意义。目前,在这方面的研究中主要集中于突变对于蛋白质结合自由能的影响,还没有通过序列信息直接对突变造成的蛋白质相互作用影响做出判断的研究。该方面研究主要存在的问题有:1)可使用的研究数据不足,没有足够的经过实验验证的标注数据作为支撑来进行相关研究的进行,目前大多数的蛋白互作相关数据集并未对突变产生的互作影响进行分类标注;2)多数关于突变对于蛋白质本身及蛋白相互作用的研究中,都使用到了较为复杂的各种蛋白结构信息作为特征依据,目前为止,已经具有全面结构信息,并且标注了相关点位突变后对于蛋白互作影响的数据不足,大量数据缺乏实验验证,对相关研究造成了阻碍。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于突变信息的蛋白相互作用影响判断方法,以解决现有技术中的不足。该方法集中了能够描述蛋白突变对于原有蛋白相互作用造成影响的特征,从蛋白序列突变信息中判断出突变影响程度,可普遍用于蛋白及非同义突变的影响预测。为了达到上述目的,本专利技术的目的是通过下述技术方案实现的:提供一种基于突变信息的蛋白相互作用影响判断方法,其中,包括数据收集筛选、特征选取提取和模型建立三部分,其中:在数据收集筛选步骤,使用预设的数据集,将该数据集根据研究需要进行筛选,选取人类的蛋白序列单点突变条目并排除矛盾标注条目,获得符合条件的注释条目,这些条目中包含了三类蛋白点突变对于蛋白互作的影响种类,分别为破坏原有互作、减弱原有互作、对原有互作无影响;在特征选取提取步骤中,特征选取为蛋白序列特征和序列保守性特征,通过深度学习模型训练将序列中的定量特征进行映射计算得到,序列保守性特征作为对于序列特征的补充,保守性数值通过NCBIPsiblast序列比对工具进行初步计算,得到蛋白序列特异性得分PSSM矩阵,其中包含了对应蛋白中氨基酸残基的进化保守性信息,提取突变残基前25位以及后25位氨基酸窗口长度的矩阵信息,经标准化处理得到保守性相关特征;在模型建立步骤中,使用深度学习中的卷积神经网络模型,卷积神经网络模型包含卷积层、激活层和全连接层,卷积层通过设置多个卷积核对原有特征进行提取和计算,激活层将线性计算非线性化,全连接层在不同神经元节点中进行线性映射运算,最终给出突变对于互作影响的分类结果;深度学习网络模型使用卷积神经网络作为基础,并进行调整以适应具体任务,从不同尺度对于输入进行特征提取识别,并在训练网络模型的过程中针对不同类别样本数比例不平衡的问题,设置对应的类别损失惩罚权重进行平衡调整,在最后给出综合判断结果。上述基于突变信息的蛋白相互作用影响判断方法,其中,在特征选取提取步骤,将经过数据清洗的注释条目进行特征提取工作,一类特征为蛋白序列信息,以突变点位为中心,选取前后邻近25位氨基酸作为参考,得到突变相关氨基酸滑动窗序列作为数据样例,将得到的滑动窗序列进行独热编码,将序列转化为数字矩阵,并添加一行指示列来提示该位点是否存在氨基酸序列;另一类特征为蛋白序列保守性特征,该类特征的提取依赖于NCBIPsiblast工具,输入发生突变的蛋白序列信息,通过序列对比参考库对比该蛋白序列的相似序列,得出该蛋白序列各点位的氨基酸特异性矩阵,其中包含蛋白序列各氨基酸残基位点的保守性信息,通过发生突变的氨基酸点位进行定位,取前后邻近25位氨基酸形成滑动窗序列作为数据样例,经过标准化处理,得到突变相关氨基酸保守性特征。上述基于突变信息的蛋白相互作用影响判断方法,其中,在模型建立步骤,在模型训练过程中选取模型损失函数值最小的训练模型作为最优模型。本专利技术技术方案的有益效果是:可以为基因、蛋白突变的相关研究者提供直观的突变对于蛋白互作影响的辅助判断标准,主要基于蛋白序列突变信息来对突变造成的蛋白相互作用的影响进行判断,能够改善对于蛋白突变严重程度的判断。附图说明图1为本专利技术方法流程示意图。图2为本专利技术方法在数据集内划分的独立测试集中的预测混淆矩阵示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。参看图1所示,本专利技术基于突变信息的蛋白相互作用影响判断方法包括数据收集筛选、特征选取提取和模型建立三部分。本专利技术中将所输入的蛋白突变通过已训练的深度学习模型进行预测,将蛋白突变分为两类,一类为对蛋白互作会造成负面影响,另一类为无影响。在数据收集筛选阶段,开发过程中使用了2019年1月份发表于Naturecommunications期刊IMEx组织的文章中给出的数据集(S1)。该数据集包含了IMEx联盟机构收集了14年以上的蛋白序列点突变数据,这些数据全部基于实验验证结果进行相关注释标注,并持续更新,于2019年7月已收录了超过43000条相关注释。数据集中的突变条目与UniprotKB中的基础蛋白序列相关联并持续更新。将该数据集根据研究需要进行筛选,选取人类的蛋白序列单点突变条目,并排除矛盾标注条目,获得12000余条符合条件的注释条目。这些条目中包含了三类蛋白点突变对于蛋白互作的影响种类,本文档来自技高网...
【技术保护点】
1.一种基于突变信息的蛋白相互作用影响判断方法,其特征在于,包括数据收集筛选、特征选取提取和模型建立三部分,其中:/n在数据收集筛选步骤,使用预设的数据集,将该数据集根据研究需要进行筛选,选取人类的蛋白序列点突变条目并排除矛盾标注条目,获得符合条件的注释条目,这些条目中包含了三类基因点突变对于蛋白互作的影响种类,分别为破坏原有互作、减弱原有互作、对原有互作无影响;/n在特征选取提取步骤,特征选取为蛋白序列特征和序列保守性特征,通过深度学习模型训练将序列中的定量特征进行映射计算得到,序列保守性特征作为对于序列特征的补充,保守性数值通过NCBIPsiblast序列比对工具进行初步计算,得到蛋白序列特异性得分矩阵,进一步处理提取相关区段得到保守性相关特征;/n在模型建立步骤,使用深度学习中的卷积神经网络模型,卷积神经网络模型包含卷积层、激活层和全连接层,卷积层通过设置多个卷积核对原有特征进行提取和计算,激活层将线性计算非线性化,全连接层在不同神经元节点中进行线性映射运算,最终给出突变对于互作影响的分类结果;卷积神经网络模型使用卷积神经网络作为基础,并进行调整以适应具体任务,从不同尺度对于输入进行特征提取识别,在最后给出综合判断结果。/n...
【技术特征摘要】
1.一种基于突变信息的蛋白相互作用影响判断方法,其特征在于,包括数据收集筛选、特征选取提取和模型建立三部分,其中:
在数据收集筛选步骤,使用预设的数据集,将该数据集根据研究需要进行筛选,选取人类的蛋白序列点突变条目并排除矛盾标注条目,获得符合条件的注释条目,这些条目中包含了三类基因点突变对于蛋白互作的影响种类,分别为破坏原有互作、减弱原有互作、对原有互作无影响;
在特征选取提取步骤,特征选取为蛋白序列特征和序列保守性特征,通过深度学习模型训练将序列中的定量特征进行映射计算得到,序列保守性特征作为对于序列特征的补充,保守性数值通过NCBIPsiblast序列比对工具进行初步计算,得到蛋白序列特异性得分矩阵,进一步处理提取相关区段得到保守性相关特征;
在模型建立步骤,使用深度学习中的卷积神经网络模型,卷积神经网络模型包含卷积层、激活层和全连接层,卷积层通过设置多个卷积核对原有特征进行提取和计算,激活层将线性计算非线性化,全连接层在不同神经元节点中进行线性映射运算,最终给出突变对于互作影响的分类结果;卷积神经网络模型使用卷积神经网络作为基础,并进行调整以适应具体任务,从不同尺度对于输入进行特征提取识别,在最后给出综合判断结果。
2.如权利要求1所述基于蛋白序列信息的蛋...
【专利技术属性】
技术研发人员:林关宁,钱威,
申请(专利权)人:上海市精神卫生中心上海市心理咨询培训中心,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。