当前位置: 首页 > 专利查询>中南大学专利>正文

预测蛋白质RNA结合物热点的方法、系统及存储介质技术方案

技术编号:19009380 阅读:29 留言:0更新日期:2018-09-22 09:13
本发明专利技术涉及生物信息技术领域,公开了一种预测蛋白质RNA结合物热点的方法、系统及存储介质,以解决生物实验的盲目性和成本高等问题,并提高预测的精度和效果。本实施例方法包括:确定有效数据集,其包括已明确标签的一类数据和待明确标签的二类数据,在该一类数据中,将结合能大于等于1.0的数据作为正样本的热点数据,结合能小于1.0的作为负样本数据;根据该一类数据,采用半监督学习算法中的标签传播算法对该二类数据进行标签值预测,并将预测后的数据归入训练集;以及基于各样本的特征集合,以极度梯度提升算法、神经网络算法和极性随机数算法分别构造分类器以对每个样本的分类进行投票,并对各投票结果进行加权平均得出预测结果。

Method, system and storage medium for predicting protein RNA binding hotspot

The invention relates to the field of biological information technology, and discloses a method, a system and a storage medium for predicting the hot spots of protein RNA binding compounds, so as to solve the problems of blindness and high cost in biological experiments, and to improve the accuracy and effect of prediction. The method of the present embodiment includes: determining a valid data set, including a class of data that has been clearly labeled and a class of data to be clearly labeled. In this class of data, the data with binding energy greater than or equal to 1.0 is taken as the hot point data of positive samples, and the data with binding energy less than 1.0 is taken as the negative sample data. The label propagation algorithm in supervised learning algorithm predicts the label value of the two kinds of data, and classifies the predicted data into training set; and based on the feature set of each sample, classifiers are constructed by extreme gradient lifting algorithm, neural network algorithm and polar random number algorithm to vote on the classification of each sample. And the weighted average of the voting results is used to predict the results.

【技术实现步骤摘要】
预测蛋白质RNA结合物热点的方法、系统及存储介质
本专利技术涉及生物信息
,尤其涉及一种预测蛋白质RNA结合物热点的方法、系统及存储介质。
技术介绍
蛋白质和RNA(核糖核酸)是生命化合物中最重要的两种生物大分子。蛋白质和RNA间的相互作用在很多重要的生命活动中扮演着不可或缺的角色。在蛋白质和RNA的交界面上存在有许多残基,而只有一小部分残基占据了大量的结合自由能,对蛋白质和RNA的相互作用影响很大,通常把这一小部分残基称为热点残基。近年来的研究发现,热点残基对于分子识别机制的研究、蛋白质工程和药物的设计都具有重要的作用和影响。目前,对于热点残基的研究仅在蛋白质-蛋白质复合物的热点残基研究方面比较完善,现在已经有两三个热点数据库供研究人员免费使用。而对于蛋白质RNA复合物的热点残基的研究还处于初期阶段,在国内更是一片空白。目前,已经有许多热点残基通过生物实验的方法进行了鉴定,但是这种方法实施起来不仅花费的成本多,而且耗时耗力。然而,如果采用数据挖掘的方法对大量蛋白质RNA复合物残基进行预测,不仅预测精度高、方便、快速,而且节约成本。因此,如果能运用一种有效的方法,从大量的残基中找到热点残基,将更好的解释蛋白质和RNA之间的相互关系,进而为药物的设计和分子的内部研究提供帮助。
技术实现思路
本专利技术目的在于公开一种预测蛋白质RNA结合物热点的方法、系统及存储介质,以解决生物实验的盲目性和成本高等问题,并提高预测的精度和效果。为实现上述目的,本专利技术公开了一种预测蛋白质RNA结合物热点的方法,包括:步骤S1、构建蛋白质RNA复合物的初始数据集;步骤S2、对所述初始数据集进行过滤,筛选出蛋白质RNA结合面上的残基,并过滤掉蛋白质内部的残基、以及蛋白质表面残基;所述蛋白质RNA结合面上的残基的筛选条件包括:条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基溶剂可及性值的差值大于条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5%;步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理,得到用于分类的有效数据集,所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据,在所述一类数据中,将结合能大于等于1.0的数据作为正样本的热点数据,结合能小于1.0的作为负样本数据;步骤S4、根据所述一类数据,采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测,并将预测后的数据归入训练集,所述训练集还包括部分所述一类数据;同时,从所述一类数据中抽取部分数据构建成测试集;所述训练集和测试集不存在交集且都含有正样本和负样本;步骤S5、以序列特征、结构特征、残基相互作用网络特征和溶剂暴露特征作为特征集,将同一样本的各个特征值整合到一条特征序列中组合构造成样本的特征集合;步骤S6、基于各样本的特征集合,以极度梯度提升算法(XGBoost,eXtremeGradientBoosting)、神经网络算法(Neuralnetworkalgorithm)和极性随机数算法(ERT,EnsembleofRegressionTress)分别构造分类器以对每个样本的分类进行投票,然后对各分类器的投票结果进行加权平均得到蛋白质RNA结合面上残基是否为热点的预测结果。优选地,各所述分类器的投票结果都为0到1之间的概率值,若三个概率值加权平均的最终结果大于或等于0.5,则判定为正样本,即热点,反之为非热点。与上述方法相对应的,本专利技术还公开一种预测蛋白质RNA结合物热点的系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。进一步的,本专利技术还公开一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。本专利技术具有以下有益效果:1、首次将残基相互作用网络特征和溶剂暴露特征应用到蛋白质RNA结合物热点预测,有效的提高预测的精度。2、通过标签传播算法将训练集中的大量没有标签的数据预测出相对可靠的标签值。不仅扩充了训练集的数量,而且将大量关于蛋白质RNA复合物热点的信息包含了进来,有助于提高分类器的性能。3、将多个分类效果好的单一算法集成起来作为一个集成算法进行分类。这样做的优点在于它可以克服单一算法的缺点,集聚多个算法的优点,使最终的分类结果更加准确可靠。通过实验证实,本专利技术相比其他方法(如:HotSPRing、RNABindRPlus、PPRint等方法)能够更加准确的从大量的残基中辨别热点残基,可以显著提高预测蛋白质RNA复合物中热点残基的精度。具体实施方式以下对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。实施例1本实施例公开一种预测蛋白质RNA结合物热点的方法,包括以下步骤:步骤S1、构建蛋白质RNA复合物的初始数据集。步骤S2、对所述初始数据集进行过滤,筛选出蛋白质RNA结合面上的残基,并过滤掉蛋白质内部的残基、以及蛋白质表面残基。该步骤中,所述蛋白质RNA结合面上的残基的筛选条件包括:条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基溶剂可及性值的差值大于条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5%。步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理,得到用于分类的有效数据集,所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据,在所述一类数据中,将结合能大于等于1.0的数据作为正样本的热点数据,结合能小于1.0的作为负样本数据。步骤S4、根据所述一类数据,采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测,并将预测后的数据归入训练集,所述训练集还包括部分所述一类数据;同时,从所述一类数据中抽取部分数据构建成测试集;所述训练集和测试集不存在交集且都含有正样本和负样本。现实生活中往往能容易获得大量未标记的样本,这些样本虽然没有标签,但是它蕴含的信息量是非常大的而且对于我们来说这些信息也是非常重要。而有标记的样本却要耗费大量的人力、物力和财力。例如,在计算机辅助医学图像分析中,可以从医院获得大量的医学图像作为训练例,但如果要求医学专家把这些图像中的病灶都标识出来,则往往是不现实的。同样的情况也出现在预测蛋白质RNA结合物热点领域中。蛋白质RNA结合物热点在生物领域中及其重要,对于理解分子的识别机制和药物靶点的识别都具有重要的作用。然而,现实中这类热点被实验鉴定过的数据(有标签的数据)非常少,而且无人去搜集整理过。但是未被实验鉴定过的热点数据非常多,并且容易搜集到。该步骤通过标签传播算法将训练集中的大量没有标签的数据预测出相对可靠的标签值。不仅扩充了训练集的数量,而且将大量关于蛋白质RNA复合物热点的信息包含了进来,有助于提高分类器的性能。同时,采用数据挖掘的方法对大量蛋白质RNA复合物残基进行预测,不仅预测精度高、方便、快速,而且节约成本。在该步骤中,有关标签传播算法的可参照2013年1月(第30卷第1期)出版的《计算机应用研究》中的论文《标签传播算法理论及其用用研究综述》,作者为南京大学信息管理学院的张俊丽本文档来自技高网...

【技术保护点】
1.一种预测蛋白质RNA结合物热点的方法,其特征在于,包括:步骤S1、构建蛋白质RNA复合物的初始数据集;步骤S2、对所述初始数据集进行过滤,筛选出蛋白质RNA结合面上的残基,并过滤掉蛋白质内部的残基、以及蛋白质表面残基;所述蛋白质RNA结合面上的残基的筛选条件包括:条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基的溶剂可及性值的差值大于

【技术特征摘要】
1.一种预测蛋白质RNA结合物热点的方法,其特征在于,包括:步骤S1、构建蛋白质RNA复合物的初始数据集;步骤S2、对所述初始数据集进行过滤,筛选出蛋白质RNA结合面上的残基,并过滤掉蛋白质内部的残基、以及蛋白质表面残基;所述蛋白质RNA结合面上的残基的筛选条件包括:条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基的溶剂可及性值的差值大于条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5%;步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理,得到用于分类的有效数据集,所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据,在所述一类数据中,将结合能大于等于1.0的数据作为正样本的热点数据,结合能小于1.0的作为负样本数据;步骤S4、根据所述一类数据,采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测,并将预测后的数据归入训练集,所述训练集还包括部分所述一类数据;同时,从所述一类数据中抽取部分数据构建成测试集...

【专利技术属性】
技术研发人员:邓磊潘玉亮
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1