一种基于量子计算机的蛋白质氨基酸性质的编码方法及系统技术方案

技术编号:37140427 阅读:15 留言:0更新日期:2023-04-06 21:44
本发明专利技术公开了一种基于量子计算机的蛋白质氨基酸性质的编码方法及系统,其中所述方法包括:识别所述蛋白质;从PDB蛋白质数据库中获取所述蛋白质的序列信息;基于所述序列信息读取对应的氨基酸;定义所述氨基酸的待编码的属性数量N;基于所述N,选择相应的编码规则。相比于之前的编码方法,本发明专利技术所需要的量子比特数目更少,更好地适用于目前各大公司发展的各种含噪声中尺度量子计算机(NISQ),并用于蛋白质序列的特征学习,从而使得我们可以充分利用目前已经发展的量子计算机到生物蛋白领域当中,以解决这一领域中一些经典计算机不能或者难以解决的问题。以解决的问题。以解决的问题。

【技术实现步骤摘要】
一种基于量子计算机的蛋白质氨基酸性质的编码方法及系统


[0001]本专利技术属于量子计算机
,尤其涉及一种基于量子计算机的蛋白质氨基酸性质的编码方法及系统。

技术介绍

[0002]蛋白质由氨基酸构成,是生命活动的主要承担者。蛋白质的结构和功能十分复杂,研究起来十分困难。相比于传统计算机,量子计算机的储存和计算能力更加强大,在模拟蛋白质的问题上具有较大的优势。但是,量子计算机无法直接识别并读取蛋白质中的氨基酸序列。因此,我们必须通过合适的编码方式,将组成蛋白质的氨基酸序列编码到量子计算机中的量子比特上。蛋白质中的常见氨基酸有二十种不同类型。在传统的量子编码方式中,二十种氨基酸被表示成简单的二进制独热编码,然后将这些二进制数简单地映射到量子比特上。
[0003]在传统的量子编码方式中,仅仅使用二进制数将二十种氨基酸表示成二十个独立的状态。该方法只能反应出蛋白质序列中氨基酸的有与没有,除此之外不能反应出氨基酸的其他任何性质。在化学上,不同的氨基酸的性质相差较大。氨基酸按照支链性质分类,可以分为疏水、亲水氨基酸等;按照酸碱性来分,可以分为酸性和碱性氨基酸。使用简单的二进制编码显然无法体现氨基酸的独特性质。

技术实现思路

[0004]针对上述现有技术中存在的缺陷,本专利技术提供一种基于量子计算机的蛋白质氨基酸性质的编码方法,包括以下步骤:步骤S101、识别所述蛋白质;步骤S103、从PDB蛋白质数据库中获取所述蛋白质的序列信息;步骤S105、基于所述序列信息读取对应的氨基酸;步骤S107、定义所述氨基酸的待编码的属性数量N;步骤S109、基于所述N,选择相应的编码规则。
[0005]其中,所述步骤S109包括:判断所述属性数量N是否大于2;若所述N大于2,则选择第一编码规则;否则,选择第二编码规则。
[0006]其中,所述步骤S109还包括:读取N个属性参数,得到所述蛋白质序列中每个氨基酸的特征向量;将所述特征向量输入相应的编码模型。
[0007]其中,将所述特征向量输入相应的编码模型之前,包括:特征向量可以通过取反正切函数处理的方式,进行预处理。
[0008]其中,所述预处理具体包括:
将特征向量,逐元素的求反正切函数,得到量子门的旋转角。
[0009],其中,表示特征向量中的一个特征元素,即氨基酸的一种属性。
[0010]其中,所述第一编码规则为:通过交替作用旋转量子门和旋转量子门在单个量子特上,将蛋白质序列氨基酸的经典特征数据编码在量子态的振幅上。
[0011]其中,当N=3时,所述量子门的交替作用,实现如下式所示,,由上式可见,在量子态上交替作用旋转量子门和旋转量子门,氨基酸特征向量中的三个特征属性均可被编码在量子态的振幅上。
[0012]其中,所述第二编码规则为:通过正交的旋转量子门和旋转门作用在单个量子比特上,使得单个量子比特就可以将特征向量的两个属性。
[0013]其中,所述属性参数至少包括:极化率、范德华体积、疏水性、等电点、螺旋性、折叠性。
[0014]本专利技术还提出了一种基于上述方法的基于量子计算机的蛋白质氨基酸性质的编码系统,其特征在于,所述系统包括:识别模块,其用于识别所述蛋白质;获取模块,其用于从PDB蛋白质数据库中获取所述蛋白质的序列信息;读取模块,其用于基于所述序列信息读取对应的氨基酸;定义模块,其用于定义所述氨基酸的待编码的属性数量N;选择模块,其用于基于所述N,选择相应的编码规则。
[0015]与现有技术相比,本专利技术提出的编码方法非常灵活,它可以根据特征属性的维度,提供的真实量子计算机有效的量子比特数自行改变交替作用的旋转门数G。相比于之前的编码方法,所需要的量子比特数目更少,更好地适用于目前各大公司发展的各种含噪声中尺度量子计算机(NISQ),并用于蛋白质序列的特征学习,从而使得我们可以充分利用目前已经发展的量子计算机到生物蛋白领域当中,以解决这一领域中一些经典计算机不能或者难以解决的问题。
附图说明
[0016]通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:图1是示出根据本专利技术实施例的与第一编码规则对应的编码特征属性的量子线路原理框图;图2是示出根据本专利技术实施例的与第一编码规则对应的编码特征属性的量子线路
原理框图;图3是示出根据本专利技术实施例的一种基于量子计算机的蛋白质氨基酸性质的编码方法流程图。
具体实施方式
[0017]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0018]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
[0019]应当理解,尽管在本专利技术实施例中可能采用术语第一、第二、第三等来描述
……
,但这些
……
不应限于这些术语。这些术语仅用来将
……
区分开。例如,在不脱离本专利技术实施例范围的情况下,第一
……
也可以被称为第二
……
,类似地,第二
……
也可以被称为第一
……

[0020]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0021]取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0022]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
[0023]文中缩略语解释PDB(Protein Data Bank) 蛋白质数据库NISQ(noisy本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于量子计算机的蛋白质氨基酸性质的编码方法,其特征是,包括以下步骤:步骤S101、识别所述蛋白质;步骤S103、从PDB蛋白质数据库中获取所述蛋白质的序列信息;步骤S105、基于所述序列信息读取对应的氨基酸;步骤S107、定义所述氨基酸的待编码的属性数量N;步骤S109、基于所述N,选择相应的编码规则。2.如权利要求1所述基于量子计算机的蛋白质氨基酸性质的编码方法,其特征是,其中所述步骤S109包括:判断所述属性数量N是否大于2;若所述N大于2,则选择第一编码规则;否则,选择第二编码规则。3.如权利要求2所述基于量子计算机的蛋白质氨基酸性质的编码方法,其特征是,其中所述步骤S109还包括:读取N个属性参数,得到所述蛋白质序列中每个氨基酸的特征向量;将所述特征向量输入相应的编码模型。4.如权利要求3所述基于量子计算机的蛋白质氨基酸性质的编码方法,其特征是,其中将所述特征向量输入相应的编码模型之前,包括:特征向量可以通过取反正切函数处理的方式,进行预处理。5.如权利要求4所述基于量子计算机的蛋白质氨基酸性质的编码方法,其特征是,其中所述预处理具体包括:将特征向量,逐元素的求反正切函数,得到量子门的旋转角,,其中,表示特征向量中的一个特征元素,即氨基酸的一种属性。6.如权利要求5所述基于量子计算机的蛋白质...

【专利技术属性】
技术研发人员:杨昱升刘海建耿咏忠胡咏梅李宁赵立祥崔国龙
申请(专利权)人:国药控股上海生物医药有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1