【技术实现步骤摘要】
基于量子技术的基因搜索BLAST加速方法及系统
[0001]本专利技术涉及量子计算和生物信息领域,尤其涉及基于量子的序列比对方法
、
量子线路化简与量子线路映射,具体涉及一种基于量子技术的基因搜索
BLAST
加速方法及系统,用于加速经典
BLAST
算法并降低其对应量子线路在物理量子计算机的运行要求
。
技术介绍
[0002]干扰素是免疫学研究领域中的关键因子,其对于多个免疫学中研究领域的发展具有重要作用
。
如它可以调节增强人类的免疫反应;抑制病毒的复制和传播;抑制肿瘤细胞的增殖和增长
。
目前对于干扰素的研究一般都基于注释信息
。
对于已注释的物种,可以非常方便的获取其在染色体上的位置;而对于未注释的物种,其全基因组信息是数以百万计的
ATCG
字符组成的序列,这将为研究带来巨大的阻碍
。
为此,研究者需要使用已知干扰素序列去和全基因序列进行比对,来获得干扰素的具体信息
。
[0003]序列比对是一种在生物信息学中常用的关键分析方法
。
通过序列比对,研究者可以获得未注释物种中干扰素的位置等信息
。
当前应用最广泛的序列比对算法之一是
BLAST。
其在
NCBI
等多个知名数据库中都有使用
。
不仅如此,
BLAST
对基因注释
、
疾病研究 >、
进化生物学及新基因的发现都起到了关键作用
。
随着生物数据量的快速增长,
BLAST
成为确保数据整合
、
解析和应用的必备工具
。
[0004]经典
BLAST
主要流程为三步,第一步根据查询序列
query sequence
生成固定长度的字段
words
;第二步通过
words
,在数据库中扫描索引,并得到位点
hits
;第三步以
hits
为中心向两端延伸从而寻找超过设定阈值的高分片段
。BLAST
算法中第一步和第三步的时间复杂度依赖于
query sequence
的长度
L
,为
O(L)
,第二步的时间复杂度依赖于目标序列
subject sequence
的长度
N
,为
O(N)。
由于
query sequence
的长度远小于
subject sequence
,所以经典
BLAST
算法的主要时间开销来源于第二步
。
[0005]目前,已经有许多针对
BLAST
的优化方法被提出,比如在第三步前进行剪枝,使用多核
CPU
或
GPU
进行并行运算
。
尽管这些方法较好地改善了经典
BLAST
的运行效率,但未从时间复杂度上改变经典
BLAST
算法的运行效率
。
近年来,量子计算的快速发展,为加速
BLAST
提供了一种新的可能
。
[0006]因为受制于物理量子计算机
(
物理机
)
的硬件缺陷,量子算法中的门操作会引入误差,所以针对量子线路的简化和等效替代对减少物理机上的计算误差具有重要作用
。ZX
‑
calculus
是一种通用量子电路的优化方法,但是,该方法的计算时间复杂度很高
。
[0007]在现有的物理机中,量子比特之间的纠缠效果较弱,且这种纠缠效果会随着距离的增加而进一步减弱
。
这意味着量子门仅在相邻的两个量子比特之间产生作用
。
相隔较远的量子比特在执行操作前,需要先进行多个
SWAP
操作使其相邻
。
然而这会引入额外门操作,增加量子计算误差
。
需要使用量子线路映射算法来将量子线路映射至物理机
。
然而,目前多数物理机缺乏线路映射方法,映射量子线路需要手动映射,较为困难,无法有效减少
SWAP
操作
。
[0008]有鉴于此,构建一种基于量子技术的基因搜索
BLAST
加速方法具有重要意义
。
技术实现思路
[0009]本专利技术的目的在于针对传统方法无法改善经典
BLAST
算法的时间复杂度
、
通用线路化简方法化简基于量子计算的
BLAST
算法的量子线路的时间开销大以及如何方便的映射量子线路的问题,提供了基于量子技术的
BLAST
加速方案
。
本专利技术基于量子技术的量子基因序列比对方法
QGSA(Quantum Gene Sequence Alignment)
改进了经典
BLAST
算法的时间复杂度,基于真值表的量子线路化简方法
OQCBTT(Optimization of Quantum Circuit Based on Truth Table)
降低了化简
QGSA
量子线路的时间开销,并基于神经布局的映射模型
QCMM(Quantum Circuit Mapping Model)
提供了一种简易的线路映射方法
。
[0010]具体而言,本专利技术提供了以下技术方案:
[0011]一方面,本专利技术提供了一种基于量子技术的基因搜索
BLAST
加速方法,该方法包括:
[0012]S1、
对目标序列和字段进行量子比特编码,并构建初始状态,所述初始状态包括索引串比特
、
目标串比特和模式串比特;目标序列形成目标串比特,字段形成模式串比特;进行循环位移操作,依据索引串比特将目标串比特转换为各状态的叠加;寻找正确的解状态,并对解状态进行振幅放大;
[0013]S2、
基于
S1
循环位移操作中索引串比特状态与目标串比特状态的对应关系获得真值表并提取简化的真值表,根据简化的真值表获得目标串比特
、
模式串比特和索引串比特;遍历索引串
(
即遍历索引串比特状态
)
并更新计数表以完成量子线路的搭建,获得化简后量子线路;其中,每个目标比特维护一张计数表,所述目标比特指目标串比特中的一个比特;所述索引串指索引串比特状态对应二进制串,索引串可以指示出索引串比特的状态;
[0014]S3、
训练
QCMM
模型,将简化后的量子线路映射到物理机本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
基于量子技术的基因搜索
BLAST
加速方法,其特征在于,所述方法包括:
S1、
对目标序列和字段进行量子比特编码,并构建初始状态,所述初始状态包括索引串比特
、
目标串比特和模式串比特;进行循环位移操作,依据索引串比特将目标串比特转换为各状态的叠加;寻找正确的解状态,并对解状态进行振幅放大;
S2、
基于
S1
循环位移操作中索引串比特状态与目标串比特状态的对应关系获得真值表,并提取简化的真值表,根据简化的真值表获得目标串比特
、
模式串比特和索引串比特;遍历索引串并更新计数表以完成量子线路的搭建,获得化简后量子线路;其中,每个目标比特维护一张计数表,所述目标比特指目标串比特中的一个比特;所述索引串指索引串比特状态对应二进制串;
S3、
训练
QCMM
模型,将简化后的量子线路映射到物理机上
。2.
根据权利要求1所述的方法,其特征在于,所述
S1
中,对目标序列和字段进行量子比特编码,在构建初始状态中,对于索引串比特用
H
门构建叠加态,对于目标串比特与模式串比特用
X
门构建量子状态
。3.
根据权利要求2所述的方法,其特征在于,构建初始状态结束后,量子比特状态公式为:其中,
t
i
为目标串比特第
i
位,
p
j
为模式串比特第
j
位,
T
为目标串比特长度,
P
为模式串比特长度,
k
表示索引串比特对应的量子状态
。4.
根据权利要求1所述的方法,其特征在于,所述
S1
中,循环位移操作具体为:利用索引串比特的叠加态对目标串比特进行位移,索引串比特的状态指示位移的位数
,
并对应不同的目标串比特状态;位移操作结束后量子比特的状态为:其中,
t
i
为目标串比特第
i
位,
p
j
为模式串比特第
j
位,
T
为目标串比特长度,
P
为模式串比特长度,
k
表示索引串比特对应的量子状态
,
表示索引串比特形成的均匀叠加态
|s>
,即各状态的叠加
。5.
根据权利要求4所述的方法,其特征在于,所述
S1
中,寻找正确的解状态的方式为:使用
CNOT
门实现
XOR
操作,以识别均匀叠加态
|s>
中正确的解状态
|w>
,运算结束后量子比特的状态为:然后通过
U
w
为
|s>
中正确的解状态
|w>
添加负相位
,U
w
如下:
其中,
p
i
为模式串比特第
i
位,
P
为模式串比特长度
。6.
根据权利要求5所述的方法,其特征在于,对状态
U
w
|s>
运用
U
s
进行振幅放大,其中:
U
s
=
2|s><s|
‑
I(
关于状态
|s>
的反射
)
到状态
U
w
|s>
;
I
表示单位门
。7.
根据权利要求1所述的方法,其特征在于,所述
S2
中还包括:对每个目标比特,维护一张
N
×
logN
的计数表,其中
N
表示目标序列长度;为计数表第
i
个索引串添加指针:若该索引串比特中1的数量为
j
,那么以计数表的第
i
行第
j
列为起点添加指针,指针指向计数表中同列位置,并且该位置对应索引串比特中为1的位置,必须包含第
i
个索引串比特中为1的位置
。8.
根据权利要求7所述的方法,其特征在于,所述
S2
还包括:根据简化的真值表获取索引表,索引表第一列为索引串比特的不同状态,第二列为不同状态的索引串比特对应的目标串比特的前
P
个量子比特对应状态,其中
P
表示模式串比特长度;遍历索引串并更新计数表具体方式为:遍历索引表;
index
表示索引表第一列索引串比特的不同状态对应的十进制值;
x
表示目标比特;
q
xi
表示
index
=
i
时
,
目标比特
x
在索引表中对应的状态,称作目标比特值;若索引表中索引
index
为0,且对应
q
x0
为1,则在目标比特
x
对应的量子线路上施加
X
门;如果
index
不为0,则计算该行索引在目标比特
x
的计数表中对应行所有列的和
sum
;如果
sum/2
=0,则
temp
=
q
x0
,
否则,比较
temp
和目标比特值
q
xindex
,
如果
temp≠q
xindex
,
则根据索引串施加门;其中
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。