当前位置: 首页 > 专利查询>山东大学专利>正文

基于制造技术

技术编号:39664295 阅读:5 留言:0更新日期:2023-12-11 18:27
本发明专利技术提出了基于

【技术实现步骤摘要】
基于DNA序列数据的细胞特异性增强子预测方法与系统


[0001]本专利技术属于信息处理
,尤其涉及基于
DNA
序列数据的细胞特异性增强子预测方法与系统


技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术

[0003]增强子是
DNA
序列中的非编码片段,可调节基因表达和转录

作为一类调控元件,增强子控制着特异性基因表达

细胞生长和分化以及细胞癌变等各种细胞活动

增强子的突变或异常表达会破坏基因调控网络,从而影响细胞功能

组织发育和疾病进展

因此,增强子的鉴定对于研究基因表达和调控至关重要

[0004]近年来已经提出了几种用于增强子识别的计算方法,但这些方法所基于的数据集存在两个问题:
[0005]首先,该数据集中的增强子被提取为固定长度
(200bp)
的短序列,导致这些方法是否可以用于不等长序列并在不等长序列上保持优越性能是未知的

[0006]此外,该数据集是一个混合通用数据集,而研究表明增强子具有细胞特异性,在通用数据集上研究的增强子预测方法应用性不强

[0007]因此,已有方法
Enhancer

IF
认识到这些不足,提取了八个细胞系的增强子,即采用基准数据集,以预测细胞特异性增强子,但该方法仍存在特征提取方案简单

预测细胞特异性增强子的性能不佳

性能验证不全面的缺点


技术实现思路

[0008]为克服上述现有技术的不足,本专利技术提供了基于
DNA
序列数据的细胞特异性增强子预测方法,用以识别细胞特异性增强子

[0009]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0010]第一方面,公开了基于
DNA
序列数据的细胞特异性增强子预测方法,包括:
[0011]针对
DNA
序列采用两种不同特征编码的方式提取序列信息,两种不同特征编码对应获得
Dna2vec
特征和基序频率特征;
[0012]其中,采用
Dna2vec
特征编码时,利用
Dna2vec
中提供的预训练
DNA
模型来索引序列编码;
[0013]采用基序频率特征编码时,提取每个
DNA
序列中
TFBS
基序的数量,并将其转换为频率;
[0014]融合
Dna2vec
特征和基序频率特征用来构建深度学习模型;
[0015]基于深度学习模型判断
DNA
序列数据是否属于增强子

[0016]作为进一步的技术方案,所述
Dna2vec
用于计算
DNA
序列中可变长度
k

mers
的分布式表示,其使用人类基因组序列作为学习语料库,在
word2vec
中使用连续
skip

gram
模型进
行无监督训练,将
k

mers
嵌入到连续向量空间中

[0017]作为进一步的技术方案,在
word2vec
中使用连续
skip

gram
模型进行无监督训练时,将3个核苷酸作为一个单词进行预训练性能最优

[0018]作为进一步的技术方案,在
word2vec
中使用连续
skip

gram
模型进行无监督训练时,具体为:
[0019]设每条
DNA
序列的长度为
L
,当
k
=3时,将其分为
(L

2)
个单词,使用
Dna2vec
中的预训练模型,获得了每个单词对应的第一特征向量,所有单词的特征向量被连接起来,获得第二特征向量

[0020]作为进一步的技术方案,使用自适应池化操作将特征维度归一化,以便将它们输入到深度学习模型中

[0021]作为进一步的技术方案,提取每个
DNA
序列中
TFBS
基序的数量时,从数据库中获得基序的位置权重矩阵,用于与该数据集中的序列数据进行滑动比例匹配,具体匹配规则:
[0022]假设基序的长度为
L
m
,则
PWM
是一个行为
L
m

列为4的矩阵,表示当碱基分别为
A、C、G

T
时每个碱基的对应分数;
[0023]假设
DNA
序列的长度为
L
s
,
将该序列划分为长度为
L
m
的子序列片段,步长为1,从而得到
L
s

L
m
+1
个子序列片段;
[0024]对于每个子序列片段,将每个碱基对应分数的总和作为最终匹配分数并与相应的阈值分数进行比较,以确定该子序列片段是否与基序匹配

[0025]作为进一步的技术方案,子序列片段比较的规则如下:
[0026]其中,
j
的值取为0,1,2和3,对应于子序列片段中的碱基为
A

C

G

T

Q
表示匹配分数;
[0027]假设
P
表示相应基序的
p
值阈值得分
(10
‑4)
,则当
Q>P
时,认为子序列片段与此基序匹配;
[0028]通过遍历每个序列,获得了每个
DNA
序列中每个
TFBS
基序的数量信息

[0029]作为进一步的技术方案,将基序数量除以每条序列长度得到的特征向量作为深度学习模型的输入

[0030]作为进一步的技术方案,所述深度学习模型包括:
Dna2vec
模块和一个基序模块;
[0031]Dna2vec
模块和基序模块分别使用
Dna2vec
和基序频率这两种序列编码方案作为输入

[0032]作为进一步的技术方案,在
Dna2vec
模块中,数据交替通过三个一维卷积层和三个最大池本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于
DNA
序列数据的细胞特异性增强子预测方法,其特征是,包括:针对
DNA
序列采用两种不同特征编码的方式提取序列信息,两种不同特征编码对应获得
Dna2vec
特征和基序频率特征;其中,采用
Dna2vec
特征编码时,利用
Dna2vec
中提供的预训练
DNA
模型来索引序列编码;采用基序频率特征编码时,提取每个
DNA
序列中
TFBS
基序的数量,并将其转换为频率;融合
Dna2vec
特征和基序频率特征用来构建深度学习模型;基于深度学习模型判断
DNA
序列数据是否属于增强子
。2.
如权利要求1所述的基于
DNA
序列数据的细胞特异性增强子预测方法,其特征是,所述
Dna2vec
用于计算
DNA
序列中可变长度
k

mers
的分布式表示,其使用人类基因组序列作为学习语料库,在
word2vec
中使用连续
skip

gram
模型进行无监督训练,将
k

mers
嵌入到连续向量空间中

优选的,在
word2vec
中使用连续
skip

gram
模型进行无监督训练时,将3个核苷酸作为一个单词进行预训练性能最优

优选的,在
word2vec
中使用连续
skip

gram
模型进行无监督训练时,具体为:设每条
DNA
序列的长度为
L
,当
k
=3时,将其分为
(L

2)
个单词,使用
Dna2vec
中的预训练模型,获得了每个单词对应的第一特征向量,所有单词的特征向量被连接起来,获得第二特征向量;优选的,使用自适应池化操作将特征维度归一化,以便将它们输入到深度学习模型中
。3.
如权利要求1所述的基于
DNA
序列数据的细胞特异性增强子预测方法,其特征是,提取每个
DNA
序列中
TFBS
基序的数量时,从数据库中获得基序的位置权重矩阵,用于与该数据集中的序列数据进行滑动比例匹配,具体匹配规则:假设基序的长度为
L
m
,则
PWM
是一个行为
L
m

列为4的矩阵,表示当碱基分别为
A、C、G

T
时每个碱基的对应分数;假设
DNA
序列的长度为
L
s
,
将该序列划分为长度为
L
m
的子序列片段,步长为1,从而得到
L
s

L
m
+1
个子序列片段;对于每个子序列片段,将每个碱基对应分数的总和作为最终匹配分数并与相应的阈值分数进行比较,以确定该子序列片段是否与基序匹配
。4.
如权利要求3所述的基于
DNA
序列数据的细胞特异性增强子预测方法,其特征是,子序列片段比较的规...

【专利技术属性】
技术研发人员:吴昊张瑶张鹏宇
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1