【技术实现步骤摘要】
基于DNA序列数据的细胞特异性增强子预测方法与系统
[0001]本专利技术属于信息处理
,尤其涉及基于
DNA
序列数据的细胞特异性增强子预测方法与系统
。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术
。
[0003]增强子是
DNA
序列中的非编码片段,可调节基因表达和转录
。
作为一类调控元件,增强子控制着特异性基因表达
、
细胞生长和分化以及细胞癌变等各种细胞活动
。
增强子的突变或异常表达会破坏基因调控网络,从而影响细胞功能
、
组织发育和疾病进展
。
因此,增强子的鉴定对于研究基因表达和调控至关重要
。
[0004]近年来已经提出了几种用于增强子识别的计算方法,但这些方法所基于的数据集存在两个问题:
[0005]首先,该数据集中的增强子被提取为固定长度
(200bp)
的短序列,导致这些方法是否可以用于不等长序列并在不等长序列上保持优越性能是未知的
。
[0006]此外,该数据集是一个混合通用数据集,而研究表明增强子具有细胞特异性,在通用数据集上研究的增强子预测方法应用性不强
。
[0007]因此,已有方法
Enhancer
‑
IF
认识到这些不足,提取了八个细胞系的增强子,即采用基准数据集,以预测细胞特异性增 ...
【技术保护点】
【技术特征摘要】
1.
基于
DNA
序列数据的细胞特异性增强子预测方法,其特征是,包括:针对
DNA
序列采用两种不同特征编码的方式提取序列信息,两种不同特征编码对应获得
Dna2vec
特征和基序频率特征;其中,采用
Dna2vec
特征编码时,利用
Dna2vec
中提供的预训练
DNA
模型来索引序列编码;采用基序频率特征编码时,提取每个
DNA
序列中
TFBS
基序的数量,并将其转换为频率;融合
Dna2vec
特征和基序频率特征用来构建深度学习模型;基于深度学习模型判断
DNA
序列数据是否属于增强子
。2.
如权利要求1所述的基于
DNA
序列数据的细胞特异性增强子预测方法,其特征是,所述
Dna2vec
用于计算
DNA
序列中可变长度
k
‑
mers
的分布式表示,其使用人类基因组序列作为学习语料库,在
word2vec
中使用连续
skip
‑
gram
模型进行无监督训练,将
k
‑
mers
嵌入到连续向量空间中
。
优选的,在
word2vec
中使用连续
skip
‑
gram
模型进行无监督训练时,将3个核苷酸作为一个单词进行预训练性能最优
。
优选的,在
word2vec
中使用连续
skip
‑
gram
模型进行无监督训练时,具体为:设每条
DNA
序列的长度为
L
,当
k
=3时,将其分为
(L
‑
2)
个单词,使用
Dna2vec
中的预训练模型,获得了每个单词对应的第一特征向量,所有单词的特征向量被连接起来,获得第二特征向量;优选的,使用自适应池化操作将特征维度归一化,以便将它们输入到深度学习模型中
。3.
如权利要求1所述的基于
DNA
序列数据的细胞特异性增强子预测方法,其特征是,提取每个
DNA
序列中
TFBS
基序的数量时,从数据库中获得基序的位置权重矩阵,用于与该数据集中的序列数据进行滑动比例匹配,具体匹配规则:假设基序的长度为
L
m
,则
PWM
是一个行为
L
m
、
列为4的矩阵,表示当碱基分别为
A、C、G
和
T
时每个碱基的对应分数;假设
DNA
序列的长度为
L
s
,
将该序列划分为长度为
L
m
的子序列片段,步长为1,从而得到
L
s
‑
L
m
+1
个子序列片段;对于每个子序列片段,将每个碱基对应分数的总和作为最终匹配分数并与相应的阈值分数进行比较,以确定该子序列片段是否与基序匹配
。4.
如权利要求3所述的基于
DNA
序列数据的细胞特异性增强子预测方法,其特征是,子序列片段比较的规...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。