【技术实现步骤摘要】
一种转录因子结合位点搜索方法、系统、存储介质、终端
本专利技术属于高通量测序
,尤其涉及一种转录因子结合位点搜索方法TFBS搜索方法、系统、存储介质、终端。
技术介绍
目前,基因表达是受到调控的,转录水平上的调控对基因表达起着至关重要的作用。转录因子结合到DNA序列影响着转录的时间、位置和效率。与转录因子结合的DNA序列位点称为转录因子结合位点(Transcriptionfactorbindingsites,TFBS)。搜索TFBS对研究基因的转录调控有着重要意义。如果某一序列中含有某个转录因子的结合位点,那么称这条序列对这个转录因子是特异的。已知某转录因子的结合位点信息,在给定的DNA序列数据集中,搜索该转录因子的结合位点,称为TFBS搜索。随着高通量测序技术的不断发展,高通量测序数据集已成为基因组水平搜索TFBS的重要数据来源。当前要处理规模庞大的高通量测序数据集,使得研究者面临着计算性能和搜索准确率等多方面的挑战。在DNA序列中搜索TFBS是计算生物学中的热点问题,在过去的二十多年时间里,涌现了大量的研究 ...
【技术保护点】
1.一种TFBS搜索方法,其特征在于,所述TFBS搜索方法包括:/n基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;/n基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入第三集合中;/n计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。/n
【技术特征摘要】
1.一种TFBS搜索方法,其特征在于,所述TFBS搜索方法包括:
基于位置权值矩阵的TFBS搜索方法扫描序列第一集合,将找到的TFBS信息添加到TFBS集合中,将没有找到TFBS的序列存入序列第二集合;
基于深度学习的TFBS搜索方法扫描序列第二集合,将含有TFBS的序列存入第三集合中;
计算序列第三集合中每条序列中各个位点的分数,将分数最高的位点作为TFBS并添加到TFBS集合中,输出TFBS集合。
2.如权利要求1所述的TFBS搜索方法,其特征在于,所述TFBS搜索方法的阈值α确定,引入限制条件:基于位置权值矩阵的TFBS搜索算法的准确率Acc,包含p-value≤α的位点的正样本序列和负样本序列的个数分别为x和y,准确率Acc的计算公式:
求解的阈值α对应于一个最大的数值x,并且满足Acc大于等于深度学习的准确率AccDB。
3.如权利要求1所述的TFBS搜索方法,其特征在于,所述TFBS搜索方法的阈值α确定包括:
(1)确定采样区间[a,b];
(2)在给定的采样区间中均匀的采集包括a和b在内的n个数,将采样区间分成n-1等份,将这n个数依次赋值给阈值α,输出对应的准确率Acc,找到满足Acc大于等于AccDB的最大阈值,如果没有满足Acc大于等于AccDB的阈值,则找到最高准确率所对应的阈值;
(3)在n个数中找到和过程(2)确定的阈值相邻的数,将较小的相邻的数赋值给a,较大的相邻的数赋值给b,生成新的采样区间[a,b];
(4)重复执行采样过程(2)~(3),直到采样区间小于0.000001,输出最佳阈值。
4.如权利要求1所述的TFBS搜索方法,其特征在于,所述序列第一集合是输入的DNA序列数据集Dt,包含t条DNA序列,分别为S1,S2,...,St;首先,计算特定PWM下所有位点的p-value值,将p-value值小于等于阈值α的位点作为潜在的TFBS;然后用字符串匹配算法扫描序列第一集合中的每条序列Si(1≤i≤t),如果序列Si中含有潜在的TFBS,则将此TFBS信息添加到TFBS集合中;如果序列Si不含有TFBS,则将序列Si存入序列第二集合。
5.如权利要求1所述的TFBS搜索方法,其特征在于,所述序列第二集合是基于PWM的TFBS搜索方法没有搜索出TFBS的序列的集合。用大量含有特定转录因子的结合位点的DNA序列训练序列分类器,然后用该分类器识别序列第二集合中的每条序列,如果判断一条序列含有TFBS,将该序列存入序列第三集合中。
...
【专利技术属性】
技术研发人员:于强,胡雅娜,张晓,张瑞燊,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。