一种基于量子卷积神经网络的蛋白质结构分类系统技术方案

技术编号:36575227 阅读:9 留言:0更新日期:2023-02-04 17:33
本发明专利技术公开了一种基于量子卷积神经网络的蛋白质结构分类系统,其中所述系统包括:蛋白质序列氨基酸特征数据的编码模块,其用于从蛋白质结构分类数据集中提读取蛋白质序列信息以及对应的结构信息;量子卷积和池化模块,其用于通过参数化的量子门实现对所述蛋白质结果的分类;构建损失函数模块,其用于获得用于表征所述系统性能的损失函数;更新量子线路参数模块,其用于更新量子线路参数。与现有技术相比,本发明专利技术实现了一种高效的量子计算机卷积神经网络系统,能够高效的分类蛋白质结构,系统所使用的模型可以大大加速蛋白质结构的预测,加快药物的开发。加快药物的开发。加快药物的开发。

【技术实现步骤摘要】
一种基于量子卷积神经网络的蛋白质结构分类系统


[0001]本专利技术属于量子计算机
,尤其涉及一种基于量子卷积神经网络的蛋白质结构分类系统。

技术介绍

[0002]蛋白质是生命活动的主要承担者,其功能与结构密切相关。对蛋白质结构进行有效地分类可以极大提高蛋白质结构预测的准确性。目前,已有的经典机器学习算法(神经网络、支持向量机、随机森林等)在蛋白质结构分类方向已经做了很多工作。这些工作首先会基于一个蛋白质数据集进行数据的前处理,涉及的蛋白质数据一般有序列信息、二级结构信息、突变信息等。传统计算机可以通过独热编码等方式,将蛋白质数据信息编码储存到经典比特上。随后将数据集分成训练数据集和测试数据集。在训练数据集上,通过机器学习算法提取特征,训练得到预测模型,之后再测试数据集上测试模型的准确性。
[0003]现有的技术使用经典计算机上的机器学习模型对蛋白质结构进行分类。经典计算机使用经典比特进行计算,与量子计算机使用的量子比特有比较大的区别。经典计算机中蛋白质的编码方式并不能很好的反应蛋白质的内在信息。蛋白质中的氨基酸序列具有时序性质,如果使用量子计算机编码到量子比特上,可以很好的通过量子比特的纠缠性质体现氨基酸序列的时序性质。此外,蛋白质数据库数量大、种类繁多,经典计算机储存数据、计算数据等能力有限,无法处理过于庞大的数据集。

技术实现思路

[0004]针对上述现有技术中存在的缺陷,本专利技术提供一种基于量子卷积神经网络的蛋白质结构分类系统,其包括:蛋白质序列氨基酸特征数据的编码模块,量子卷积和池化模块,构建损失函数模块和更新量子线路参数模块,其特征在于,所述蛋白质序列氨基酸特征数据的编码模块,其用于从蛋白质结构分类数据集中提读取蛋白质序列信息以及对应的结构信息;量子卷积和池化模块,其用于通过参数化的量子门实现对所述蛋白质结果的分类;构建损失函数模块,其用于获得用于表征所述系统性能的损失函数;更新量子线路参数模块,其用于更新量子线路参数。
[0005]其中,将所述蛋白质结构分类数据集按照99:1的比例分成训练数据集和测试数据集。
[0006]其中,所述量子卷积和池化模块包括:量子卷积层基本单元,其用于对加载了蛋白质序列特征信息的量子态进行演化;量子池化层基本单元,其用于将两个量子比特的信息映射到一个量子比特上。
[0007]其中,所述量子卷积和池化模块还用于通过交替作用量子卷积层和量子池化层,直到只剩一个量子比特为止,随后测量最后一个量子比特的泡利Z期望值,将其作为蛋白质
结构分类的最终预测值。
[0008]其中,所述构建损失函数模块,具体用于将每个批次b中的蛋白质氨基酸序列特征数据输入基于所述量子卷积和池化模块中,每个蛋白质氨基酸序列均通过所述量子卷积和池化模块获得一个预测值,然后通过求每个批次所有蛋白质氨基酸序列预测值相对于其真实标签的均方误差,获得用于表征系统性能的损失函数。
[0009]其中,所述损失函数的表达式如下式:,其中表示当前蛋白质氨基酸结构分类的真实标签,k为批次b所包含的蛋白质氨基酸序列个数。
[0010]其中,更新量子线路参数模块具体用于基于参数化电路移动法则,求所述损失函数关于量子线路参数的解析梯度,然后更新量子线路参数。
[0011]其中,所述基于参数化电路移动法则,求所述损失函数关于量子线路参数的解析梯度具体包括:假定测量算符在参数化量子线路下的期望值可表示为,其中,表示量子卷积层和池化层构成的参数化量子线路,表示量子卷积层和池化层中的参数;则期望值函数关于参数化量子线路参数的梯度可以表示为。
[0012]其中,所述系统采用上述训练数据集训练多个epoch,直到达到期望的准确度后停止。
[0013]与现有技术相比,本专利技术实现了一种高效的量子计算机卷积神经网络系统,能够高效的分类蛋白质结构,系统所使用的模型可以大大加速蛋白质结构的预测,加快药物的开发。
附图说明
[0014]通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:图1是示出根据本专利技术实施例的蛋白质氨基酸特征属性的PSSM矩阵数据;图2(a)是示出根据本专利技术实施例的将蛋白质序列的单个氨基酸的20维数据编码到10个量子比特上的量子线路图;图2(b)是示出根据本专利技术实施例的整个蛋白质氨基酸序列特征数据的编码实现框图;图3(a)是示出根据本专利技术实施例的量子卷积层的基本单元实现框图;图3(b)是示出根据本专利技术实施例的量子池化层的基本单元实现框图;图4是示出根据本专利技术实施例的基于量子卷积神经网络的蛋白质结构分类系统的
框图;图5是示出根据本专利技术实施例的基于量子卷积神经网络的蛋白质结构分类系统的框图。
具体实施方式
[0015]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0016]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
[0017]应当理解,尽管在本专利技术实施例中可能采用术语第一、第二、第三等来描述
……
,但这些
……
不应限于这些术语。这些术语仅用来将
……
区分开。例如,在不脱离本专利技术实施例范围的情况下,第一
……
也可以被称为第二
……
,类似地,第二
……
也可以被称为第一
……

[0018]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0019]取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0020]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于量子卷积神经网络的蛋白质结构分类系统,其包括:蛋白质序列氨基酸特征数据的编码模块,量子卷积和池化模块,构建损失函数模块和更新量子线路参数模块,其特征在于,所述蛋白质序列氨基酸特征数据的编码模块,其用于从蛋白质结构分类数据集中提读取蛋白质序列信息以及对应的结构信息;量子卷积和池化模块,其用于通过参数化的量子门实现对所述蛋白质结果的分类;构建损失函数模块,其用于获得用于表征所述系统性能的损失函数;更新量子线路参数模块,其用于更新量子线路参数。2.如权利要求1所述基于量子卷积神经网络的蛋白质结构分类系统,其特征是,其中将所述蛋白质结构分类数据集按照99:1的比例分成训练数据集和测试数据集。3.如权利要求1所述基于量子卷积神经网络的蛋白质结构分类系统,其特征是,其中所述量子卷积和池化模块包括:量子卷积层基本单元,其用于对加载了蛋白质序列特征信息的量子态进行演化;量子池化层基本单元,其用于将两个量子比特的信息映射到一个量子比特上。4.如权利要求3所述基于量子卷积神经网络的蛋白质结构分类系统,其特征是,其中所述量子卷积和池化模块还用于通过交替作用量子卷积层和量子池化层,直到只剩一个量子比特为止,随后测量最后一个量子比特的泡利Z期望值,将其作为蛋白质结构分类的最终预测值。5.如权利要求1所述基于量子卷积神经网络的蛋白质结构分类系统,其特征是,其中所...

【专利技术属性】
技术研发人员:胡咏梅刘海建耿咏忠李宁杨昱升赵立祥崔国龙
申请(专利权)人:国药控股上海生物医药有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1