The invention of the invention is a kind of prokaryotes.
【技术实现步骤摘要】
一种原核生物σ54启动子的预测方法
本专利技术涉及基于机器学习的基因序列数据技术,具体是一种原核生物σ54启动子的预测方法。
技术介绍
启动子是基因的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。启动子就像“开关”,决定基因的活动。启动子本身并不控制基因活动,而是通过与称为转录因子的这种蛋白质结合而控制基因活动的。转录因子就像一面“旗子”,指挥着RNA聚合酶的活动。因此,启动子对于基因表达有着至关重要的作用。在原核生物中,RNA全酶的σ54启动子识别并结合启动子基因转录过程中的序列。σ54启动子负责响应于环境的特异性基因的转录变化。σ54启动子通常含有两个碱性调节元件,其中一个元件在-12bp附近的TGC[AT][TA],另一个是在-24bp附近的[CT]TGGCA[CT][GA]。并且σ54启动子的全酶在启动RNA合成的时候将取决于增强子结合蛋白。一旦启动子活性异常,则可能导致基因表达的调节障碍,从而有可能导致疾病的发生。找到组织特异性启动子和某些疾病关键基因异常表达与启动子的关系可以为靶向治疗和基因治疗提供可能。也正因如此,如何精确的预测出启动子的 ...
【技术保护点】
一种原核生物σ
【技术特征摘要】
1.一种原核生物σ54启动子的预测方法,其特征在于,包括如下步骤:1)数据样本编码:对sigma54promoter序列集中给定的原核生物σ54启动子数据样本,采用伪K-元组核苷酸方法进行编码,k的取值范围为1到∞,得到维度为4k的特征向量,即:假定161组正样本和161组负样本作为基准数据集S,可以用公式(1)表示为S=S+∪S-(1)其中子集S+仅包含正样本即启动子序列,子集S-包含负样本即非启动子序列,而∪表示两个序列集合的并集,采用伪k-元组核苷酸来配置DNA并对基因序列进行编码,最终得到如公式(2)所示的4k分量的向量,即:其中是在DNA序列中的第i个伪k-元组核苷酸归一化的出现频率;2)特征选择:采用F-score方法对编码后的数据样本进行特征选择,定义如公式(3)所示:其中n+表示正样本的总数,n-表示负样本的总数,表示正样本的第i个特征的平均值,表示负样本的第i个特征的平均值,表示所有样本的平均值,表示正数据集中的第k个样本的第i个特征,表示负数据集中第k个样本的i个特征;3)构造预测模型:将SVM作为弱预测器的基础上采用AdaBoost方法构造预测模型,给定一个训练集样本T={(x1,y1),(x2,y2),…,(xN,yN)},其中x∈χ,空间yi是标签集合{1,2,3,4,5,6},N是训练样本的数量,初始化训练样本的权值分布,每一个样本都被赋予相同的权重1/N,即如公式(4):选用SVM作为弱预测器,对训练样本进行训练,得到一个弱预测器Gm(x),SVM在对训练样本训练结束以后会得到一组预测值,也就是预测标签,将预测标签与给定的训练标签进行比对就可以计算Gm(x)在训练样本上的分类错误率em,如公式(5):
【专利技术属性】
技术研发人员:樊永显,吕成伟,蔡国永,张向文,张龙,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。