基因序列非比对方法、装置和电子设备制造方法及图纸

技术编号:33307409 阅读:29 留言:0更新日期:2022-05-06 12:17
本发明专利技术提供一种基因序列非比对方法、装置和电子设备,其中基因序列非比对方法,包括:基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;基于预设k

【技术实现步骤摘要】
基因序列非比对方法、装置和电子设备


[0001]本专利技术涉及基因组进化分析
,尤其涉及一种基因序列非比对方法、装置和电子设备。

技术介绍

[0002]基因组进化分析一直是生物信息学研究中的一个重要问题,通过基因组进化分析的方式构建系统发育树,有助于人们了解生物的进化历史过程。
[0003]相关技术中,先基于传统k

mer算法确定基因序列中所有连续的k个碱基字符串的频数,再利用频数构成特征向量,以此计算出基因序列数据集中各个基因序列的特征向量,然后利用多个特征向量计算出每两个基因序列之间的欧式距离,最后基于距离矩阵构建进化树。
[0004]然而,由于相关技术中将基因序列划分为多个碱基字符串时直接基于每个碱基字符串的频数构成特征向量,从而导致基因组进化分析的运算耗时过长且准确率不高。

技术实现思路

[0005]本专利技术提供一种基因序列非比对方法、装置和电子设备,用以解决现有技术中将基因序列划分为多个碱基字符串时直接基于每个碱基字符串的频数构成特征向量而导致的基因组进化分析的运算耗时过长且准确率不高的缺陷,实现通过无比对的基因组分类方式达到提高基因组进化分析的效率及准确率的目的。
[0006]本专利技术提供一种基因序列非比对方法,包括:
[0007]基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;
[0008]基于预设k/>‑
mer模型,确定所述目标氨基酸序列的目标k

mer特征向量;其中,所述预设k

mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k

mer特征向量;
[0009]根据所述目标k

mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
[0010]根据本专利技术提供的一种基因序列非比对方法,所述基于预设非比对原则,将参考基因序列转换为目标氨基酸序列,包括:
[0011]获取参考基因序列,所述参考基因序列包括n个碱基;
[0012]基于预设非比对原则,将所述n个碱基中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组的目标氨基酸序列;其中,n、m分别为大于1的整数且n>m。
[0013]根据本专利技术提供的一种基因序列非比对方法,所述基于预设非比对原则,将所述n个碱基中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组
的目标氨基酸序列,包括:
[0014]基于预设非比对原则,将所述n个碱基划分为n

2个目标碱基组;其中,所述n

2个目标碱基组中每个目标碱基组包括连续的m个碱基且所述n

2个目标碱基组的n

2个首碱基连续,n为大于2的整数;
[0015]基于所述n

2个目标碱基组,确定包括所述n

2个目标碱基组的目标氨基酸序列;其中,所述目标氨基酸序列包括n

2个目标氨基酸且每个所述目标氨基酸分别表征一个目标碱基组。
[0016]根据本专利技术提供的一种基因序列非比对方法,在所述基于预设k

mer模型,确定所述目标氨基酸序列的目标k

mer特征向量的步骤之前,所述方法还包括:
[0017]获取参数k值;
[0018]确定所述参数k值对应的预设k

mer模型。
[0019]根据本专利技术提供的一种基因序列非比对方法,所述参数k值的获取过程包括:
[0020]基于取值范围获取参数k值;其中,[
·
]表示
·
为闭区间,表示对
·
向下取整,log表示对数操作,min表示基因序列数据库中最短基因序列的长度,p表示氨基酸的种类数,q表示大于0的正整数。
[0021]根据本专利技术提供的一种基因序列非比对方法,所述参考基因序列的数量为多个时,所述根据所述目标k

mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树,包括:
[0022]计算不同所述目标k

mer特征向量之间的欧几里得距离;
[0023]根据所述欧几里得距离,确定多个所述参考基因序列的距离矩阵。
[0024]本专利技术还提供一种基因序列非比对装置,包括:
[0025]转化模块,用于基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;
[0026]确定模块,基于预设k

mer模型,确定所述目标氨基酸序列的目标k

mer特征向量;其中,所述预设k

mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k

mer特征向量;
[0027]处理模块,用于根据所述目标k

mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。
[0028]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基因序列非比对方法的步骤。
[0029]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基因序列非比对方法的步骤。
[0030]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基因序列非比对方法的步骤。
[0031]本专利技术提供的基因序列非比对方法、装置和电子设备,其中基因序列非比对方法,先通过基于预设非比对原则将参考基因序列转换为目标氨基酸序列,由于预设非比对原则
用于将参考基因序列划分为目标碱基组且基于目标碱基组确定目标氨基酸序列,因此能够减少目标氨基酸序列的长度,降低了运算时长;进一步的,通过基于预设k

mer模型,确定目标氨基酸序列的目标k

mer特征向量;由于预设k

mer模型用于基于目标氨基酸序列中连续k个目标氨基酸的频率确定目标k

mer特征向量,因此并不需要比对即能得到目标氨基酸序列的目标k

mer特征向量,以此使得后续通过目标k

mer特征向量确定参考基因序列的距离矩阵的方式构建发育树时能够大大提高发育树的准确度,从而也有效提高了基因组进化分析的效率及准确率。
附图说明
[0032]为了更清楚地说明本专利技术或现有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基因序列非比对方法,其特征在于,包括:基于预设非比对原则,将参考基因序列转换为目标氨基酸序列;其中,所述预设非比对原则用于将所述参考基因序列划分为目标碱基组且基于所述目标碱基组确定所述目标氨基酸序列;基于预设k

mer模型,确定所述目标氨基酸序列的目标k

mer特征向量;其中,所述预设k

mer模型用于基于所述目标氨基酸序列中连续k个目标氨基酸的频率确定所述目标k

mer特征向量;根据所述目标k

mer特征向量,确定所述参考基因序列的距离矩阵,以构建发育树。2.根据权利要求1所述的基因序列非比对方法,其特征在于,所述基于预设非比对原则,将参考基因序列转换为目标氨基酸序列,包括:获取参考基因序列,所述参考基因序列包括n个碱基;基于预设非比对原则,将所述n个碱基中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组的目标氨基酸序列;其中,n、m分别为大于1的整数且n>m。3.根据权利要求2所述的基因序列非比对方法,其特征在于,所述基于预设非比对原则,将所述n个碱基中每连续m个碱基分别转化为一个目标碱基组,从而得到包括多个所述目标碱基组的目标氨基酸序列,包括:基于预设非比对原则,将所述n个碱基划分为n

2个目标碱基组;其中,所述n

2个目标碱基组中每个目标碱基组包括连续的m个碱基且所述n

2个目标碱基组的n

2个首碱基连续,n为大于2的整数;基于所述n

2个目标碱基组,确定包括所述n

2个目标碱基组的目标氨基酸序列;其中,所述目标氨基酸序列包括n

2个目标氨基酸且每个所述目标氨基酸分别表征一个目标碱基组。4.根据权利要求1所述的基因序列非比对方法,其特征在于,在所述基于预设k

mer模型,确定所述目标氨基酸序列的目标k

mer特征向量的步骤之前,所述方法还包括:获取参数...

【专利技术属性】
技术研发人员:何黎黎包晓娜
申请(专利权)人:北京建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1