基于深度稀疏表示网络的DNA结合蛋白识别方法技术

技术编号:34441566 阅读:47 留言:0更新日期:2022-08-06 16:31
一种基于深度稀疏表示网络的DNA结合蛋白识别方法,包括以下具体步骤:获取DNA结合蛋白序列数据集,分为训练集和测试集;采用PSL

【技术实现步骤摘要】
基于深度稀疏表示网络的DNA结合蛋白识别方法


[0001]本专利技术涉及一种基于深度稀疏表示网络的DNA结合蛋白识别方法。

技术介绍

[0002]DNA结合蛋白是一种能够与DNA结合和交互的特殊蛋白质。DNA结合蛋白参与到许多生物进程中,例如:特异性核苷酸的鉴定,转录调控和基因表达调控。同时,DNA结合蛋白是抗癌药物、抗生素和类固醇的重要成分,在抗癌药物的研究和遗传疾病的治疗中发挥着重要作用。早期的DNA结合蛋白识别方法一般是生物实验方法,比如过滤器结合法,基因分析法,染色质免疫共沉淀技术和X

射线结晶法。生物实验方法既耗时又耗力,不能满足大规模蛋白质序列检测的需要。
[0003]现有技术中常见的检测方法为科学计算方法,如专利号202111056316.9所述的基于XGboost算法的DNA结合蛋白识别研究方法、系统、存储介质及设备。方法过程:获取处理的DNA结合蛋白特征数据集;采用不同的提取算法提取DNA结合蛋白数据集的特征数据;将不同的特征提取算法提取的序列特征拼接起来,得到拼接后的特征矩阵;然后对生成的特征矩阵本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度稀疏表示网络的DNA结合蛋白识别方法,其特征在于:包括以下具体步骤:S1,获取DNA结合蛋白序列数据集,所述DNA结合蛋白序列数据集分为训练集和测试集;S2,采用PSL

BLAST软件计算所述DNA结合蛋白序列数据集内所有序列的特异性打分矩阵;S3,将所有的所述特异性打分矩阵分别填充或裁剪成相同尺寸的新特异性打分矩阵;S4,采用深度稀疏表示网络构建并训练DNA结合蛋白识别分类器模型;S5,将步骤S3中的所述新特异性打分矩阵输入所述DNA结合蛋白识别分类器模型内,完成对所述DNA结合蛋白序列的识别。2.根据权利要求1所述的基于深度稀疏表示网络的DNA结合蛋白识别方法,其特征在于:步骤S4具体包括:S41,将步骤S1中的所述训练集和所述测试集进行行拼接得到拼接数据集其中X
train
为所述训练集,所述训练集X
test
为所述测试集,所述测试集其中,d0表示所述训练集和所述测试集的维度,n表示训练集样本个数,m表示测试集样本个数;S42,将所述拼接数据集X输入包含编码器、解码器和稀疏表示层的深度稀疏表示网络模型中,所述拼接数据集X经过所述编码器输出编码Z,Z=[Z
train
,Z
test
],其中,Z
train
表示训练集编码,Z
test
表示测试集编码,所述编码Z经过所述稀疏表示层得到其中即可定义即可定义I
n
是单位矩阵,0
n
×
m
,0

【专利技术属性】
技术研发人员:钱昱磬丁漪杰吴宏杰
申请(专利权)人:苏州科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1