蛋白质检索模型构建方法、检索方法、设备和存储介质技术

技术编号:22784824 阅读:28 留言:0更新日期:2019-12-11 04:41
本申请公开了一种蛋白质检索模型构建方法、检索方法、设备和存储介质,对数据集中的所有蛋白质分别生成溶剂排除表面的三角网格,对三角网格进行去冗余和去噪声的简化处理,缩短检索时间,提高检索效率;检索算法融合WKS与HKS两种算法,保持了形状描述符在转换过程中的不变性,加强了形状描述符对蛋白质变形的不敏感性,提高了检索精度。

Protein retrieval model construction method, retrieval method, equipment and storage medium

The application discloses a protein retrieval model construction method, retrieval method, device and storage medium, which generates a triangular mesh of solvent exclusion surface for all proteins in the data set, and simplifies the process of removing redundancy and noise for the triangular mesh, so as to shorten the retrieval time and improve the retrieval efficiency; the retrieval algorithm integrates two algorithms, wks and HKS, and maintains the shape descriptor The invariance in the transformation process enhances the insensitivity of shape descriptors to protein deformation and improves the retrieval accuracy.

【技术实现步骤摘要】
蛋白质检索模型构建方法、检索方法、设备和存储介质
本申请涉及生物信息学和计算机生物学
,具体涉及一种蛋白质检索模型构建方法、检索方法、设备和存储介质。
技术介绍
蛋白质相似性分析已经成为生物信息学和计算机生物学的热门话题,三维分子结构在蛋白质功能预测、计算机辅助分子设计、合理的药物设计和蛋白质对接等方面有着广泛的应用,使用相关技术研究蛋白质的结构,使人类更加准确地掌握蛋白质结构和功能的知识,是当今生物信息学中最重要的课题之一,将促进生物学、医学、药学等生命科学领域的发展。随着分子数据库的快速增长,蛋白质的分子研究受益于结构基因组学项目,并以此获取到越来越多的功能仍未知的蛋白质结构。目前的蛋白质数据库已然非常庞大,从数据库中寻找含特定功能和要求的数据需要合适的蛋白质结构编码,以便快速比较。在分子对接过程中,研究者常模拟筛选到的分子与大分子生物受体对接的过程,以估计不同蛋白质的结合性能,这些技术催生了海量的类药物分子数据库。现代化学和药物研究中的三维分子结构数据库相较于原本的分子数据库,三维的分子数据库收集了更加大量的化学知识,比如分子中原子的空间位置,通过包含几个可能的构象来了解分子的灵活性,甚至能进一步分析出分子的生物活性细节,这种特殊形式的扩展,使得三维的数据库应用场景更加广泛,得到的结果更精确。对三维蛋白质模型检索算法而言,最大的挑战就是形状描述符的设计。由于三维蛋白质表现出丰富的可变性以及蛋白质分子间的互相作用,要求形状描述符在形状的不同转换中保持形式不变,而且要具有对蛋白质变形的不敏感性及易于计算和存储的特点。传统的蛋白质检索方法是基于内容的形状检索,使用蛋白质形状本身作为查询依据,并基于形状的几何拓扑属性的比较,能取得一定的检索效果。但由于三维蛋白质表现出丰富的可变性,而传统方法要求在不同的转换类下,必须保证基本的三维表面形状是不变的,这就使得基于内容的形状检索变得更加复杂,且传统的检索框架对数据的预处理不友好,使得模型冗余检索效率低下,限制了三维蛋白质模型形状检索的发展和应用。
技术实现思路
本申请实施例提供一种蛋白质检索模型构建方法、检索方法、设备和存储介质,解决相关技术利用蛋白质形状本身作为查询依据时存在的检索效率低下及复杂度高的问题。本申请解决其技术问题所采用的技术方案如下:一方面,提供一种蛋白质检索模型构建方法,包括:对数据集中的所有蛋白质分别生成溶剂排除表面的三角网格,并进行简化和缺陷修复;用WKS算法计算经前一步骤处理后所有三角网格每个顶点的WKS特征,选取适量的WKS特征,用K均值算法进行聚类,生成第一词典,根据每个蛋白质的三角网格的每个顶点的WKS特征和所述第一词典,计算相应蛋白质的第一BoF特征;用HKS算法计算经前一步骤处理后所有三角网格每个顶点的HKS特征,选取适量的HKS特征,用K均值算法进行聚类,生成第二词典,根据每个蛋白质的三角网格的每个顶点的HKS特征和所述第二词典,计算相应蛋白质的第二BoF特征;将每一个蛋白质的所述第一BoF特征和第二BoF特征进行归一化处理并拼接,得到每一个蛋白质的第三BoF特征;根据不同蛋白质的第三BoF特征的差异程度进行相似度评估;模型训练,确定所述三角网格模型面大小及所述第一词典和第二词典大小。优选的,所述三角网格模型面大小为4000,所述第一词典和第二词典大小均为1000。优选的,所述根据不同蛋白质的第三BoF特征的差异程度进行相似度评估,包括:根据归一化后不同蛋白质的所述第三BoF特征的L1-范数距离大小评估其形状相似程度。优选的,所述模型训练,确定三角网格模型面大小及所述第一词典和第二词典大小,包括:固定所述第一词典和第二词典大小,改变三角网格模型面大小进行训练,根据训练结果确定所述三角网格模型面大小;依据确定的所述三角网格模型面大小,改变所述第一词典和第二词典大小进行训练,根据训练结果确定所述第一词典和第二词典大小。另一方面,提供一种蛋白质检索方法,包括:将待检索蛋白质输入上述方面所述的方法所构建的蛋白质检索模型中,生成溶剂排除表面的三角网格,并进行简化和缺陷修复;用WKS算法计算经前一步骤处理后的所述三角网格每个顶点的WKS特征,结合所述蛋白质检索模型的第一词典,计算待检索蛋白质的第一BoF特征;用HKS算法计算经前一步骤处理后的所述三角网格每个顶点的HKS特征,结合所述蛋白质检索模型的第二词典,计算待检索蛋白质的第二BoF特征;将所述第一BoF特征和第二BoF特征进行归一化处理并拼接,得到待检索蛋白质的第三BoF特征;根据所述第三BoF特征与所述蛋白质检索模型中已有蛋白质的第三BoF特征的差异程度进行相似度评估,输出与所述待检索蛋白质相似的已知蛋白质的信息。优选的,相似性评估的方法,包括:根据归一化后待检索蛋白质的所述第三BoF特征与所述蛋白质检索模型中已有蛋白质的第三BoF特征的L1-范数距离大小评估其形状相似程度。另一方面,提供一种蛋白质检索模型构建设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的至少一个存储器;所述至少一个存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述方面所述的蛋白质检索模型构建方法。另一方面,提供一种蛋白质检索设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的至少一个存储器;所述至少一个存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述方面所述的蛋白质检索方法。另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理执行时,实现如上述方面所述的蛋白质检索模型构建方法,或,如上述方面所述的蛋白质检索方法。本申请实施例提供的技术方案带来的有益效果至少包括:对三角网格进行去冗余和去噪声的简化处理,缩短检索时间,提高检索效率;检索算法融合WKS与HKS两种算法,保持了形状描述符在转换过程中的不变性,加强了形状描述符对蛋白质变形的不敏感性,提高检索精度。实验结果表明,与单独使用WKS或HKS算法的方法相比,本方法具有更好的检索效果。附图说明图1是本申请一个实施例提供的蛋白质检索模型构建方法的流程图;图2是采用WKS算法以及HKS算法计算第三BoF特征的流程图;图3是本申请一个实施例提供的蛋白质检索方法的流程图;图4是模型面为4000、第一词典和第二词典大小均为1000时,本申请一个实施例在MolMovDB数据库上的P-R曲线;图5是模型面为4000、第一词典和第二词典大小均为1000时,本申请一个实施例在SHREC2018数据集上的P-R曲线;图6是本申请一个实施例的设备框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申本文档来自技高网
...

【技术保护点】
1.一种蛋白质检索模型构建方法,其特征在于,包括:/n对数据集中的所有蛋白质分别生成溶剂排除表面的三角网格,并进行简化和缺陷修复;/n用WKS算法计算经前一步骤处理后所有三角网格每个顶点的WKS特征,选取适量的WKS特征,用K均值算法进行聚类,生成第一词典,根据每个蛋白质的三角网格的每个顶点的WKS特征和所述第一词典,计算相应蛋白质的第一BoF特征;用HKS算法计算经前一步骤处理后所有三角网格每个顶点的HKS特征,选取适量的HKS特征,用K均值算法进行聚类,生成第二词典,根据每个蛋白质的三角网格的每个顶点的HKS特征和所述第二词典,计算相应蛋白质的第二BoF特征;/n将每一个蛋白质的所述第一BoF特征和第二BoF特征进行归一化处理并拼接,得到每一个蛋白质的第三BoF特征;/n根据不同蛋白质的第三BoF特征的差异程度进行相似度评估;/n模型训练,确定所述三角网格模型面大小及所述第一词典和第二词典大小。/n

【技术特征摘要】
1.一种蛋白质检索模型构建方法,其特征在于,包括:
对数据集中的所有蛋白质分别生成溶剂排除表面的三角网格,并进行简化和缺陷修复;
用WKS算法计算经前一步骤处理后所有三角网格每个顶点的WKS特征,选取适量的WKS特征,用K均值算法进行聚类,生成第一词典,根据每个蛋白质的三角网格的每个顶点的WKS特征和所述第一词典,计算相应蛋白质的第一BoF特征;用HKS算法计算经前一步骤处理后所有三角网格每个顶点的HKS特征,选取适量的HKS特征,用K均值算法进行聚类,生成第二词典,根据每个蛋白质的三角网格的每个顶点的HKS特征和所述第二词典,计算相应蛋白质的第二BoF特征;
将每一个蛋白质的所述第一BoF特征和第二BoF特征进行归一化处理并拼接,得到每一个蛋白质的第三BoF特征;
根据不同蛋白质的第三BoF特征的差异程度进行相似度评估;
模型训练,确定所述三角网格模型面大小及所述第一词典和第二词典大小。


2.根据权利要求1所述的蛋白质检索模型构建方法,其特征在于,所述三角网格模型面大小为4000,所述第一词典和第二词典大小均为1000。


3.根据权利要求1所述的蛋白质检索模型构建方法,其特征在于,所述根据不同蛋白质的第三BoF特征的差异程度进行相似度评估,包括:根据归一化后不同蛋白质的所述第三BoF特征的L1-范数距离大小评估其形状相似程度。


4.根据权利要求1所述的蛋白质检索模型构建方法,其特征在于,所述模型训练,确定所述三角网格模型面大小及所述第一词典和第二词典大小,包括:
固定所述第一词典和第二词典大小,改变三角网格模型面大小进行训练,根据训练结果确定所述三角网格模型面大小;
依据确定的所述三角网格模型面大小,改变所述第一词典和第二词典大小进行训练,根据训练结果确定所述第一词典和第二词典大小。


5.一种蛋白质检索方法,其特征在于,包括:
将待检索蛋白...

【专利技术属性】
技术研发人员:彭玉旭彭贤张广平罗元盛黄园媛
申请(专利权)人:长沙理工大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1