基于深度卷积自动编码器的转录因子结合位点预测的方法技术

技术编号：24583034 阅读：51 留言：0更新日期：2020-06-21 01:23

本发明专利技术公开一种基于深度卷积自动编码器的转录因子结合位点预测的方法，应用于计算机技术和生物信息技术领域，为了解决模型对没有结合位点的阴性序列样本的依赖性同时提高模型泛化能力；本发明专利技术首先通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段，从而获得原始数据集；然后对原始数据集进行预处理，得到训练数据集；其次将训练数据集输入卷积自动编码器进行训练；最后根据训练完成的卷积自动编码器进行结合位点识别；实验证明本发明专利技术能够针对不同细胞系的不同转录因子结合位点预测，且具备高准确率识别的效果。

Prediction of transcription factor binding sites based on deep convolution coder

全部详细技术资料下载

【技术实现步骤摘要】
基于深度卷积自动编码器的转录因子结合位点预测的方法
本专利技术属于计算机技术和生物信息
，特别涉及一种转录因子结合位点预测技术。
技术介绍
在研究转录因子结合位点早期，传统的转录因子结合位点识别问题是通过实验从DNA序列中获取真实的转录因子结合位点。之后伴随着生物信息学的发展，各种利用数学模型的方法被开发出来，利用数学模型使得研究者不局限于仅有的转录因子结合位点信息。转录因子结合位点(transcriptionfactorbindingsite，TFBS)的研究己有很长时间，最早被广泛应用于研究共表达基因(co-expressedgenes)的上游promoter区的转录调控因子。由于转录因子结合位点序列相对较短，同一转录因子会结合相同或相似的DNA序列，这使得精确的转录因子结合位点的识别变得更具挑战性。对识别转录因子结合位点的算法，总的来说或者基于概率模型，搜索为基础。具体来说，对于识别转录因子结合位点的问题可概括为以下几类。基于一致序列的转录因子结合位点的识别方法是一种模式驱动的方法。在输入序列空间进行搜索...

【技术保护点】
1.基于深度卷积自动编码器的转录因子结合位点预测的方法，其特征在于，包括：/nS1、通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段，从而获得原始数据集；/nS2、对原始数据集进行预处理，得到训练数据集；/nS3、将训练数据集输入卷积自动编码器进行训练；/nS4、根据训练完成的卷积自动编码器进行结合位点识别。/n

【技术特征摘要】
1.基于深度卷积自动编码器的转录因子结合位点预测的方法，其特征在于，包括：
S1、通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段，从而获得原始数据集；
S2、对原始数据集进行预处理，得到训练数据集；
S3、将训练数据集输入卷积自动编码器进行训练；
S4、根据训练完成的卷积自动编码器进行结合位点识别。

2.根据权利要求1所述的基于深度卷积自动编码器的转录因子结合位点预测的方法，其特征在于，步骤S2所述预处理具体为：
A1、对原始数据集进行筛选；使用四种不同的呼叫峰值工具通过统一的管道对原始数据集进行了重新处理，从每个数据集的4个峰值集合中，迭代地排除具有低S的那个，直到数据集中的大和小S之间的比率小于或等于2，该数据集如果仅剩下一个峰值集，则删除整个数据集；S表示轻尾的经验权重；
A2、去除经步骤A1处理后样本数不超过5000个的数据集；
A3、通过设置序列长度，从经步骤A2处理后的数据集中选取，获得定长的DNA序列的有效数据。

3.根据权利要求2所述的基于深度卷积自动编码器的转录因子结合位点预测的方法，其特征在于，步骤A3具体包括以下分步骤：
A3...

【专利技术属性】
技术研发人员：张永清，乔少杰，郜东瑞，曾圆麒，陈庆园，卢荣钊，林志宇，
申请(专利权)人：成都信息工程大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人