多序列保守区间的探测方法技术

技术编号:39592821 阅读:7 留言:0更新日期:2023-12-03 19:47
本申请涉及生物技术领域,具体涉及多序列保守区间的探测方法

【技术实现步骤摘要】
多序列保守区间的探测方法、简并引物的设计方法、相关装置和电子设备


[0001]本申请涉及生物
,具体涉及多序列保守区间的探测方法

简并引物的设计方法

相关装置和电子设备


技术介绍

[0002]如果一个基因存在于多个物种,那么不同物种间该基因的差异可以用来进行物种鉴定

环境多样性评估和系统发育生物学等相关研究

相同或不同物种的同一基因存在序列上的差异,所以需要通过多序列比对将所有序列有序地排列在一起(对齐为相同长度),从而进行多序列之间保守区间的探测,用来进行简并引物的设计

[0003]通过简并引物(多重引物)进行特定基因序列的检测已经成为一种越来越流行的生物学研究方法,广泛应用于物种鉴定

临床诊断

环境多样性评估和系统发育生物学等研究领域中

然而,由于不同基因和样本的复杂性,进行简并引物设计需要准确度很高的方法,尽可能地探测所有可能的保守区间

[0004]目前一般是通过一致性序列方法来探测保守区间,从而完成引物设计

一致性序列(
consensus sequence
)是
2018
年全国科学技术名词审定委员会公布的生物物理学名词,是指在一组多序列比对结果中每个位置出现频率最高的核苷酸或氨基酸序列

[0005]然而,一致性序列方法存在着保守区间探测不完

保守区间评估不准确等问题,需要开发一种更全面

更准确的多序列保守区间的探测方法,用以提高简并引物的覆盖度


技术实现思路

[0006]有鉴于此,本专利技术提供了多序列保守区间的探测方法

简并引物的设计方法

相关装置和电子设备

该探测方法实现了对多序列比对结果保守区间的更全面和准确的探测,从而提高了设计的简并引物的覆盖度

[0007]为了实现上述专利技术目的,本专利技术提供以下技术方案:
[0008]第一方面,本专利技术提供了一种多序列保守区间的探测方法,包括:获取多条核苷酸序列的多序列比对文件;计算多序列比对文件中各个位点的香农熵
F(X)
,其中,
X
表示多序列比对文件中某一列碱基的相对位置;计算保守位点的香农熵最大阈值
N
;判断各个位点的
F(X)
是否小于等于
N
,根据所得的判断结果判定待判定位点是否为保守位点,得到保守位点信息;根据保守位点信息,得到若干个保守区间

[0009]核苷酸共有4种碱基,分别为
A、T、C、G
,多序列比对中空缺或间隔用短横线
“‑”
表示,因此多序列比对结果中每个位置最多有上述5种符号

专利技术人发现,一致性序列方法一般只考虑每个位置上最大频率或者频率较高的核苷酸,但是这也带来了以下几个问题:(1)使用一致性序列方法探测保守区间,导致过高评估探测区间的保守性,获得保守性较低的保守区间

如一个位点有四种碱基,
A
占比
70%

C
占比
10%

T
占比
10%

G
占比
10%

通常一致性序列会保留频率大于等于
10%
的碱基,会将包含四种碱基的上述位点作为保守区间的一部分

因此,该方法由于对位点的保守性评估不准确,导致获得保守性较低的保守区间;(2)使用一致性序列方法探测保守区间,会漏掉占比较小的核苷酸种类,从而降低了最终多重引物的覆盖率

比如一个位点有两种碱基,
A
占比
98%

G
占比
2%
,通常一致性序列方法会只考虑
A
,而忽略了碱基
G。
因此,该方法由于保守性评估多采用最高碱基频率,丧失了碱基组成复杂度信息

[0010]基于上述原因,一致性序列方法存在着保守区间评估不准确

保守区间碱基复杂度丢失等问题

[0011]本专利技术方法使用了香农熵来描述一个位点的系统复杂度,能够全面地考虑每个位点的所有符号(
A、T、C、G、
空缺),很好地评估每个位点的符号种类多样性,准确地计算每个位点的保守性,提高保守区间鉴定的准确性,进而提高引物设计的覆盖度

分辨力和特异性

因此,本专利技术方法可以更准确地评估每个位点的多样性和复杂性,实现了对多序列比对结果保守区间的更全面和准确的探测,从而提高了设计的简并引物的覆盖度

[0012]在本专利技术实施方式中,若干个是指1个或1个以上

例如为
1、2、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000
中的任一数值或上述任意两两数值组成的范围值内的任一数值

[0013]在本专利技术实施方式中,计算多序列比对文件中各个位点的香农熵
F(X)
中的位点是指多序列比对文件中某一列碱基所在的位点

如第一列碱基所在的位点为位点1,第二列碱基所在的位点为位点2,以此类推

[0014]在本专利技术实施方式中,香农熵
F(X)
的计算公式如下:上述公式为归一化香农熵公式

其中,
x
表示某一列碱基中的碱基种类,包括
A、T、C、G

“‑”
中的至少一种,
“‑”
表示多序列比对中的空缺;
P(x)
表示某一列碱基中某个碱基的频率

[0015]在本专利技术实施方式中,保守位点的香农熵最大阈值
N
的获取方法如下:设置一种碱基的最大频率阈值为
n∈[0.5,1.0],基于
n
的最小多样性频率数组为
{n,1.0

n,0,0,0}
,根据公式
I
计算
{n,1.0

n,0,0,0}
的香农熵,记为
N。
[0016]在本专利技术实施方式中,一种碱基的最大频率阈值为
n∈[0.5,1.0],例如为
0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1.0
中的任一数值或上述任意两两数值组成的范围值中的任一数值
。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多序列保守区间的探测方法,其特征在于,包括:获取多条核苷酸序列的多序列比对文件;计算所述多序列比对文件中各个位点的香农熵
F(X)
,其中,
X
表示多序列比对文件中某一列碱基的相对位置;计算保守位点的香农熵最大阈值
N
;判断各个位点的
F(X)
是否小于等于
N
,根据所得的判断结果判定待判定位点是否为保守位点,得到保守位点信息;根据所述保守位点信息,得到若干个保守区间
。2.
根据权利要求1所述的探测方法,其特征在于,所述香农熵
F(X)
的计算公式如下:其中,
x
表示某一列碱基中的碱基种类,包括
A、T、C、G

“‑”
中的至少一种,
“‑”
表示多序列比对中的空缺;
P(x)
表示某一列碱基中某个碱基的频率
。3.
根据权利要求1所述的探测方法,其特征在于,所述保守位点的香农熵最大阈值
N
的获取方法如下:设置一种碱基的最大频率阈值为
n∈[0.5,1.0]
,基于
n
的最小多样性频率数组为
{n,1.0

n,0,0,0}
,根据公式
I
计算
{n,1.0

n,0,0,0}
的香农熵,记为
N。4.
根据权利要求1所述的探测方法,其特征在于,所述判断各个位点的
F(X)
是否小于等于
N
,根据所得的判断结果判定待判定位点是否为保守位点包括:若待判定位点的
F(X)
小于等于
N
,则判定该待判定位点为保守位点;若待判定位点的
F(X)
大于
N
,则判定该待判定位点为非保守位点
。5.
根据权利要求1所述的探测方法,其特征在于,所述保守区间的个数为2个或2个以上,则在所述得到若干个保守区间之后还包括:计算相邻的两个保守区间之间所有非保守位点的香农熵之和,记为
F

;设置非保守位点的香农熵之和的最大阈值为
m

m∈[0,3]
;判断
F

是否小于等于
m
,根据所得的判断结果判定是否合并相邻的两个保守区间为一个保守区间;根据判定结果执行合并和
/
或不合并的操作,得到若干个...

【专利技术属性】
技术研发人员:刘万飞杨林林强崔鹏
申请(专利权)人:中国农业科学院深圳农业基因组研究所岭南现代农业科学与技术广东省实验室深圳分中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1