分子序列的比对方法、装置、电子设备、存储介质及产品制造方法及图纸

技术编号:38434584 阅读:12 留言:0更新日期:2023-08-11 14:20
本申请提供了一种分子序列的比对方法、装置、电子设备、计算机可读存储介质及计算机程序产品,包括:获取包括第一分子序列及第二分子序列的分子序列对,分子序列对中的每一个分子序列由多个单位分子组合而成;对第一分子序列中各单位分子分别进行字符转化,得到第一字符序列,并对第二分子序列中各单位分子分别进行字符转化,得到第二字符序列;其中,第一字符序列及第二字符序列均由多个单位字符组合而成,单位字符与单位分子存在对应关系;将第一字符序列的字符与第二字符序列的字符进行字符比对,得到比对结果,比对结果用于指示,将第一字符序列转化为第二字符序列所需执行的目标操作的数量。如此,能够提高分子序列的比对效率。效率。效率。

【技术实现步骤摘要】
分子序列的比对方法、装置、电子设备、存储介质及产品


[0001]本申请涉及计算机
,尤其涉及一种分子序列的比对方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]相关技术中的DNA序列比对方法主要为全局比对(needleman

wunsch)算法以及局部比对(smith

waterman)算法。对于全局对比算法,即查询序列与目标序列都是从头到尾的全部碱基进行比对,该算法在早期的蛋白序列比对中应用广泛,但是随着生物序列越来越多,越来越长,研究人员发现功能相关的蛋白之间虽然整体的序列相差甚远,但是常常具有相同的功能域,因此,仅利用全局对比算法进行DNA序列的比对则导致比对效率较低;而对于局部对比算法,求的是局部最优匹配序列,需要通过回溯实现,在长序列的场景下对该内存消耗要求较高,也并不适用。基于此,相关技术中的DNA序列的比对效率较低。

技术实现思路

[0003]本申请实施例提供一种分子序列的比对方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高分子序列的比对效率。
[0004]本申请实施例的技术方案是这样实现的:本申请实施例提供一种分子序列的比对方法,所述方法包括:获取包括第一分子序列及第二分子序列的分子序列对,所述分子序列对中的每一个分子序列由多个单位分子组合而成;对所述第一分子序列中各单位分子分别进行字符转化,得到第一字符序列,并对所述第二分子序列中各单位分子分别进行字符转化,得到第二字符序列;其中,所述第一字符序列及所述第二字符序列均由多个单位字符组合而成,所述单位字符与所述单位分子存在对应关系;将所述第一字符序列的字符与所述第二字符序列的字符进行字符比对,得到比对结果,所述比对结果用于指示,将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量。
[0005]本申请实施例提供一种分子序列的比对装置,所述装置包括:获取模块,用于获取包括第一分子序列及第二分子序列的分子序列对,所述分子序列对中的每一个分子序列由多个单位分子组合而成;转化模块,用于对所述第一分子序列中各单位分子分别进行字符转化,得到第一字符序列,并对所述第二分子序列中各单位分子分别进行字符转化,得到第二字符序列;其中,所述第一字符序列及所述第二字符序列均由多个单位字符组合而成,所述单位字符与所述单位分子存在对应关系;比对模块,用于将所述第一字符序列的字符与所述第二字符序列的字符进行字符比对,得到比对结果,所述比对结果用于指示,将所述第一字符序列转化为第二字符序列所
需执行的目标操作的数量。
[0006]在上述方案中,所述比对模块,还用于遍历i分别执行以下处理:针对所述第一字符序列中的前i个单位字符,将所述前i个单位字符分别与所述第二字符序列中前j个单位字符进行匹配,得到匹配结果;其中,i和j为自然数,0≤i≤M,0≤j≤N,M用于指示所述第一字符序列中所述单位字符的总数量,N用于指示所述第二字符序列中所述单位字符的总数量;基于所述匹配结果,获取将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量。
[0007]在上述方案中,所述比对模块,还用于遍历i以执行以下处理:针对所述第一字符序列中的第i个单位字符,遍历j,将所述第i个单位字符,分别与遍历得到的所述第二字符序列中第j个单位字符进行匹配,得到匹配结果。
[0008]在上述方案中,所述i和所述j分别为大于1的正整数,所述比对模块,还用于当所述匹配结果表征所述第一字符序列中第i个单位字符,与所述第二字符序列中第j个单位字符相匹配时,将所述第一字符序列中前i

1个单位字符,转化为第二字符序列中前j

1个单位字符所需执行的目标操作的数量,确定为将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量。
[0009]在上述方案中,所述比对模块,还用于当所述匹配结果表征所述第一字符序列中第i个字符,与所述第二字符序列中第j个单位字符不匹配时,获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量;基于所述最少数量,确定将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量。
[0010]在上述方案中,所述目标操作包括字符添加操作、字符删除操作以及字符替换操作;所述比对模块,还用于获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的字符添加操作的第一数量;获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的字符删除操作的第二数量;获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的字符替换操作的第三数量;从所述第一数量、所述第二数量以及所述第三数量中,选取最小的数量,并将所述最小的数量,确定为将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量。
[0011]在上述方案中,所述j为大于1的正整数,所述目标操作包括字符添加操作,所述比对模块,还用于获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j

1个单位字符所需执行的字符添加操作的第一目标数量;将所述第一目标数量进行加一所得到的第一数量,确定为将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量。
[0012]在上述方案中,所述i为大于1的正整数,所述目标操作包括字符删除操作,所述比对模块,还用于获取将所述第一字符序列中前i

1个单位字符,转化为第二字符序列中前j个单位字符所需执行的字符删除操作的第二目标数量;将所述第二目标数量进行加一所得到第二数量,确定为将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量。
[0013]在上述方案中,所述i和所述j分别为大于1的正整数,所述目标操作包括字符替换
操作,所述比对模块,还用于获取将所述第一字符序列中前i

1个单位字符,转化为第二字符序列中前j

1个单位字符所需执行的字符替换操作的第三目标数量;将所述第三目标数量进行加一所得到第三数量,确定将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量。
[0014]在上述方案中,所述装置还包括分析模块,所述分析模块,用于对所述第一分子序列进行分析,得到所述第一分子序列包括的多个单位分子,并对所述第二分子序列进行分析,得到所述第二分子序列包括的多个单位分子;获取所述单位分子与所述单位字符间的对应关系;所述转化模块,还用于基于所述对应关系,对所述第一分子序列包括的多个单位分子分别进行字符转化,得到第一字符序列;基于所述对应关系,对所述第二分子序列包括的多个单位分子分别进行字符转化,得到第二字符序列。
[0015]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分子序列的比对方法,其特征在于,所述方法包括:获取包括第一分子序列及第二分子序列的分子序列对,所述分子序列对中的每一个分子序列由多个单位分子组合而成;对所述第一分子序列中各单位分子分别进行字符转化,得到第一字符序列,并对所述第二分子序列中各单位分子分别进行字符转化,得到第二字符序列;其中,所述第一字符序列及所述第二字符序列均由多个单位字符组合而成,所述单位字符与所述单位分子存在对应关系;将所述第一字符序列的字符与所述第二字符序列的字符进行字符比对,得到比对结果,所述比对结果用于指示,将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量。2.如权利要求1所述的方法,其特征在于,所述将所述第一字符序列的字符与所述第二字符序列的字符进行字符比对,得到比对结果,包括:遍历i分别执行以下处理:针对所述第一字符序列中的前i个单位字符,将所述前i个单位字符分别与所述第二字符序列中前j个单位字符进行匹配,得到匹配结果;其中,i和j为自然数,0≤i≤M,0≤j≤N,M用于指示所述第一字符序列中所述单位字符的总数量,N用于指示所述第二字符序列中所述单位字符的总数量;基于所述匹配结果,获取将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量。3.如权利要求2所述的方法,其特征在于,针对所述第一字符序列中的前i个单位字符,将所述前i个单位字符分别与所述第二字符序列中前j个单位字符进行匹配,得到匹配结果,包括:遍历i以执行以下处理:针对所述第一字符序列中的第i个单位字符,遍历j,将所述第i个单位字符,分别与遍历得到的所述第二字符序列中第j个单位字符进行匹配,得到匹配结果。4.如权利要求2所述的方法,其特征在于,所述i和所述j分别为大于1的正整数,所述基于所述匹配结果,获取将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量,包括:当所述匹配结果表征所述第一字符序列中第i个单位字符,与所述第二字符序列中第j个单位字符相匹配时,将所述第一字符序列中前i

1个单位字符,转化为第二字符序列中前j

1个单位字符所需执行的目标操作的数量,确定为将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量。5.如权利要求2所述的方法,其特征在于,所述基于所述匹配结果,获取将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量,包括:当所述匹配结果表征所述第一字符序列中第i个字符,与所述第二字符序列中第j个单位字符不匹配时,获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量;基于所述最少数量,确定将所述第一字符序列转化为第二字符序列所需执行的目标操作的数量。
6.如权利要求5所述的方法,其特征在于,所述目标操作包括字符添加操作、字符删除操作以及字符替换操作;所述获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量,包括:获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的字符添加操作的第一数量;获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的字符删除操作的第二数量;获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的字符替换操作的第三数量;从所述第一数量、所述第二数量以及所述第三数量中,选取最小的数量,并将所述最小的数量,确定为将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量。7.如权利要求5所述的方法,其特征在于,所述j为大于1的正整数,所述目标操作包括字符添加操作,所述获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j个单位字符所需执行的目标操作的最少数量,包括:获取将所述第一字符序列中前i个单位字符,转化为第二字符序列中前j

1个单位字符所需执行的字符添加操作的第一目标数量;将所述第一目标数量进行加一...

【专利技术属性】
技术研发人员:王玮犀
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1