基于Caffe的堆栈降噪自编码基因信息特征提取的方法技术

技术编号：14350144 阅读：116 留言：0更新日期：2017-01-04 20:54

本发明专利技术公开了基于Caffe的堆栈降噪自编码基因信息特征提取的方法，该基于Caffe的堆栈降噪自编码基因信息特征提取的方法具体步骤如下：S1：数据准备，S2：搭建基于Caffe的堆栈降噪自编码基因特征提取模型，S3：逐层训练堆栈降噪自编码基因特征提取模型，S4：使用有标签基因数据微调堆栈降噪自编码基因特征提取模型，S5：使用训练好的基因特征提取模型搭建基因性状识别系统，本发明专利技术的技术方案采用深度学习的算法框架，在图像特征提取的基础上，通过训练分类识别模型，以此可进行对待测基因的特征提取和进一步的分类识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物信息
，具体为基于Caffe的堆栈降噪自编码基因信息特征提取的方法。
技术介绍
人类基因组计划奠定了从基因切入研究复杂疾病的基础，人们希望找到人类发病与基因之间的关系。全基因组关联研究(Genome-wideassociationstudy)是指在人类全基因组范围内找出存在的序列变异，即单核苷酸多态性(SNP)，从中筛选出与疾病相关的SNPs。这一研究方法的引入，使对遗传流行病的发病预测不再停留在传统的年龄、家族史等“环境性”因素分析，而是通过对人体的全基因组的分析，找出可能导致今后发病的基因，并结合“环境性”因素，得出包括癌症在内的多种流行病的发病率。虽然，GWAS已经发现了很多与复杂疾病相关的SNP位点，但是GWAS仍然存在很多问题，其成果与人们的预期差距甚远。BLAST(BasicLocalAlignmentSearchTool)是一套在DNA数据库或蛋白质数据库中进行相似性比较的分析工具。BLAST程序能迅速使目标基因序列与公开数据库进行相似性序列比较。BLAST采用一种局部的算法获得两个序列中具有相似性的序列，并且对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。然而，BLAST更多的表现为一种查询比对工具，并不能通过深度学习算法进行自动的特征提取和基因性状识别。Caffe是一个清晰而高效的深度学习框架，它是纯粹的C++/CUDA架构，支持命令行、Python和MATLAB接口，可以在CPU和GPU直接无缝切换，用于研究机器视觉的开源卷积神经网络框架，并且主要应用于图像领域处理。它的特点是：...
基于Caffe的堆栈降噪自编码基因信息特征提取的方法

【技术保护点】
基于Caffe的堆栈降噪自编码基因信息特征提取的方法，其特征在于：该基于Caffe的堆栈降噪自编码基因信息特征提取的方法具体步骤如下：S1：数据准备,基因碱基序列可视化，图像数据预处理,首先将基因碱基序列进行可视化转换，即先由序列信息转换成二进制数字节流表示，再利用颜色空间转换为二维的图像格式，然后使用Caffe提供的工具将图像数据调整到固定大小，最后使用Caffe的工具将全部基因图像转换为适用于Caffe的数据库文件，格式为leveldb或者lmdb；S2：搭建基于Caffe的堆栈降噪自编码基因特征提取模型，第一步：定义堆栈降噪自编码基因特征提取模型，第二步：编写基于caffe的堆栈降噪自编码模型的模型描述文件；S3：逐层训练堆栈降噪自编码基因特征提取模型，采用逐层贪婪的训练方法，编写基于Caffe的模型求解文件，使用步骤S1准备好的基因信息数据，对步骤S2模型描述文件定义的堆栈降噪自编码基因特征提取模型进行训练，求解特征中各层的参数；S4：使用有标签基因数据微调堆栈降噪自编码基因特征提取模型，在堆栈降噪自编码模型的基础上，构建一个分类模型，使用有标签(已知性状分类)的基因信息数据对...

【技术特征摘要】
1.基于Caffe的堆栈降噪自编码基因信息特征提取的方法，其特征在于：该基于Caffe的堆栈降噪自编码基因信息特征提取的方法具体步骤如下：S1：数据准备,基因碱基序列可视化，图像数据预处理,首先将基因碱基序列进行可视化转换，即先由序列信息转换成二进制数字节流表示，再利用颜色空间转换为二维的图像格式，然后使用Caffe提供的工具将图像数据调整到固定大小，最后使用Caffe的工具将全部基因图像转换为适用于Caffe的数据库文件，格式为leveldb或者lmdb；S2：搭建基于Caffe的堆栈降噪自编码基因特征提取模型，第一步：定义堆栈降噪自编码基因特征提取模型，第二步：编写基于caffe的堆栈降噪自编码模型的模型描述文件；S3：逐层训练堆栈降噪自编码基因特征提取模型，采用逐层贪婪的训练方法，编写基于Caffe的模型求解文件，使用步骤S1准备好的基因信息数据，对步骤S2模型描述文件定义的堆栈降噪自编码基因特征提取模型进行训练，求解...

【专利技术属性】
技术研发人员：余孟春，何庆瑜，特伦斯·古力，谢清禄，闫磊，
申请(专利权)人：广州麦仑信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人