【技术实现步骤摘要】
多序列保守区间的探测方法、简并引物的设计方法、相关装置和电子设备
[0001]本申请涉及生物
,具体涉及多序列保守区间的探测方法
、
简并引物的设计方法
、
相关装置和电子设备
。
技术介绍
[0002]如果一个基因存在于多个物种,那么不同物种间该基因的差异可以用来进行物种鉴定
、
环境多样性评估和系统发育生物学等相关研究
。
相同或不同物种的同一基因存在序列上的差异,所以需要通过多序列比对将所有序列有序地排列在一起(对齐为相同长度),从而进行多序列之间保守区间的探测,用来进行简并引物的设计
。
[0003]通过简并引物(多重引物)进行特定基因序列的检测已经成为一种越来越流行的生物学研究方法,广泛应用于物种鉴定
、
临床诊断
、
环境多样性评估和系统发育生物学等研究领域中
。
然而,由于不同基因和样本的复杂性,进行简并引物设计需要准确度很高的方法,尽可能地探测所有可能的保守区间
。
[0004]目前一般是通过一致性序列方法来探测保守区间,从而完成引物设计
。
一致性序列(
consensus sequence
)是
2018
年全国科学技术名词审定委员会公布的生物物理学名词,是指在一组多序列比对结果中每个位置出现频率最高的核苷酸或氨基酸序列
。
[0005]然而,一致性序列方法存在着保守区间探测不完 ...
【技术保护点】
【技术特征摘要】
1.
一种多序列保守区间的探测方法,其特征在于,包括:获取多条核苷酸序列的多序列比对文件;计算所述多序列比对文件中各个位点的香农熵
F(X)
,其中,
X
表示多序列比对文件中某一列碱基的相对位置;计算保守位点的香农熵最大阈值
N
;判断各个位点的
F(X)
是否小于等于
N
,根据所得的判断结果判定待判定位点是否为保守位点,得到保守位点信息;根据所述保守位点信息,得到若干个保守区间
。2.
根据权利要求1所述的探测方法,其特征在于,所述香农熵
F(X)
的计算公式如下:其中,
x
表示某一列碱基中的碱基种类,包括
A、T、C、G
或
“‑”
中的至少一种,
“‑”
表示多序列比对中的空缺;
P(x)
表示某一列碱基中某个碱基的频率
。3.
根据权利要求1所述的探测方法,其特征在于,所述保守位点的香农熵最大阈值
N
的获取方法如下:设置一种碱基的最大频率阈值为
n∈[0.5,1.0]
,基于
n
的最小多样性频率数组为
{n,1.0
‑
n,0,0,0}
,根据公式
I
计算
{n,1.0
‑
n,0,0,0}
的香农熵,记为
N。4.
根据权利要求1所述的探测方法,其特征在于,所述判断各个位点的
F(X)
是否小于等于
N
,根据所得的判断结果判定待判定位点是否为保守位点包括:若待判定位点的
F(X)
小于等于
N
,则判定该待判定位点为保守位点;若待判定位点的
F(X)
大于
N
,则判定该待判定位点为非保守位点
。5.
根据权利要求1所述的探测方法,其特征在于,所述保守区间的个数为2个或2个以上,则在所述得到若干个保守区间之后还包括:计算相邻的两个保守区间之间所有非保守位点的香农熵之和,记为
F
和
;设置非保守位点的香农熵之和的最大阈值为
m
,
m∈[0,3]
;判断
F
和
是否小于等于
m
,根据所得的判断结果判定是否合并相邻的两个保守区间为一个保守区间;根据判定结果执行合并和
/
或不合并的操作,得到若干个...
【专利技术属性】
技术研发人员:刘万飞,杨林,林强,崔鹏,
申请(专利权)人:中国农业科学院深圳农业基因组研究所岭南现代农业科学与技术广东省实验室深圳分中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。