一种甲基化作用的预测方法、装置制造方法及图纸

技术编号:9642641 阅读:109 留言:0更新日期:2014-02-07 01:30
本发明专利技术适用于生物信息技术领域,提供了一种甲基化作用的预测方法、装置,所述方法包括:下载得到被甲基化作用的数据;根据所述被甲基化作用的数据获取原始蛋白质序列数据;对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据。本发明专利技术,不需要人工的参与,也不需要绘制图谱,可以节省时间,费用也便宜。

【技术实现步骤摘要】
一种甲基化作用的预测方法、装置
本专利技术属于生物信息
,尤其涉及一种甲基化作用的预测方法、装置。
技术介绍
甲基化是蛋白质和核酸的一种重要的修饰,调节基因的表达和关闭,与癌症、衰老、老年痴呆等许多疾病密切相关,是表观遗传学的重要研究内容之一。因此,了解特定甲基化作用机制将会影响当前分子生物学的许多领域,对疾病的相关研究以及药物设计等方面也都有很大的帮助。美国Salk生物研究院的JosephEcker及其同事刚刚通过高通量测序的方法,展现了一张人胚胎干细胞中所有甲基胞嘧啶的完整图谱。美国Whitehead研究院的Meissner等也曾绘制了类似的图谱。他们利用高通量的亚硫酸氢盐测序和单分子测序,产生了覆盖大部分CpG岛的DNA甲基化图谱。另外,两个独立的研究小组,分别为哈佛大学的GeorgeChurch等,以及加州大学的KunZhang连同弗吉尼亚联邦大学的YuanGao等,也将传统的甲基化工具如DNA的重亚硫酸盐转化与目标基因组捕获技术和高通量测序相结合,定量测定人基因组中的甲基化。尽管这些甲基化图谱的绘制方法略有不同,但他们都采用了亚硫酸氢盐转化,将未甲基化的胞嘧啶转化成尿嘧啶,并在随后的扩增步骤中转化成胸腺嘧啶。虽然这种甲基化作用的测定方法很有效,但这种方法需要一些手工操作来确保完全的转化,并需要通过计算分析来绘制图谱。总之,通过上述实验手段测定甲基化的方法,无论是基于体内或体外的技术,不仅非常费时,费用也较昂贵,还会被酶反应所限制。
技术实现思路
本专利技术实施例提供了一种甲基化作用的预测方法、装置,旨在解决现有技术提供的测定甲基化的方法,不仅非常费时,费用也较昂贵,还会被酶反应所限制的问题。一方面,提供一种甲基化作用的预测方法,所述方法包括:下载得到被甲基化作用的数据;根据所述被甲基化作用的数据获取原始蛋白质序列数据;对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据。进一步地,所述根据所述被甲基化作用的数据获取原始蛋白质序列数据包括:从所述被甲基化作用的数据中依次读取被甲基化作用的蛋白质名称;根据蛋白质名称依次从网页http://www.uniprot.org/uniprot/中查找与每个蛋白质名称对应的数据;由这些数据组成与各个蛋白质名称对应的原始蛋白质序列,所述原始蛋白质序列数据中包括与所述被甲基化作用的数据中的各个蛋白质名称对应的被甲基化作用的数据和没有被甲基化作用的数据。进一步地,所述对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集包括:以K或R为中心,从所述原始蛋白质序列数据中选取设定长度的字符串;将被甲基化作用的字符串作为阳性对照,而其他的没有被甲基化作用的字符串作为阴性对照;将阳性对照添加至阳性数据集中,将阴性对照添加至阴性数据集中。进一步地,所述对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据中的编码方法包括概率型编码、数值编号型编码、正交型编码和二进制编码中的一种。进一步地,所述分类算法是随机森林、随机树(RandomTree)中的一种。另一方面,提供一种甲基化作用的预测装置,所述装置包括:数据下载单元,用于下载得到被甲基化作用的数据;原始数据获取单元,用于根据所述被甲基化作用的数据获取原始蛋白质序列数据;预处理单元,用于对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;编码单元,用于对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;分类单元,用于对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据。进一步地,所述原始数据获取单元包括:蛋白质名称获取模块,用于从所述被甲基化作用的数据中依次读取被甲基化作用的蛋白质名称;数据查找模块,用于根据蛋白质名称依次从网页http://www.uniprot.org/uniprot/中查找与每个蛋白质名称对应的数据;数据拼接模块,用于由这些数据组成与各个蛋白质名称对应的原始蛋白质序列,所述原始蛋白质序列数据中包括与所述被甲基化作用的数据中的各个蛋白质名称对应的被甲基化作用的数据和没有被甲基化作用的数据。进一步地,所述预处理单元包括:字符串选定模块,用于以K或R为中心,从所述原始蛋白质序列数据中选取设定长度的字符串;阳阴性对照获取模块,用于将被甲基化作用的字符串作为阳性对照,而其他的没有被甲基化作用的字符串作为阴性对照;数据集获得模块,用于将阳性对照添加至阳性数据集中,将阴性对照添加至阴性数据集中。进一步地,所述编码单元采用的编码方法是概率型编码、数值编号型编码、正交型编码和二进制编码中的一种。进一步地,所述分类单元采用的分类算法是随机森林、随机树中的一种。在本专利技术实施例,在进行甲基化作用预测时,全程由计算机自动完成,相比现有技术,不需要人工的参与,也不需要绘制图谱,可以节省时间,费用也便宜。附图说明图1是本专利技术实施例一提供的甲基化作用的预测方法的实现流程图;图2是本专利技术实施例一提供的甲基化作用的预测装置的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。在本专利技术实施例中,先下载得到被甲基化作用的数据,根据所述被甲基化作用的数据获取原始蛋白质序列数据;再对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;然后对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;最后对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据。以下结合具体实施例对本专利技术的实现进行详细描述:实施例一图1示出了本专利技术实施例一提供的甲基化作用的预测方法的实现流程,详述如下:在步骤S101中,下载得到被甲基化作用的数据。在本实施例中,通过下载网址:http://dbptm.mbc.nctu.edu.tw/download.php可以得到被甲基化作用的数据,该数据来自数据库:dbPTM。下载得到的数据存储在文档Methylation_K.txt和Methylation_R.txt中,Methylation_K.txt中包括被赖氨酸(K)甲基化作用的数据,Methylation_R.txt中包括被精氨酸(R)甲基化作用的数据,在具体实施时,需要分别对Methylation_K.txt和Methylation_R.txt两个文档中的数据来进行分类预测。在步骤S10本文档来自技高网...
一种甲基化作用的预测方法、装置

【技术保护点】
一种甲基化作用的预测方法,其特征在于,所述方法包括:下载得到被甲基化作用的数据;根据所述被甲基化作用的数据获取原始蛋白质序列数据;对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据。

【技术特征摘要】
1.一种甲基化作用的预测方法,其特征在于,所述方法包括:步骤1、下载得到被甲基化作用的数据;步骤2、根据所述被甲基化作用的数据获取原始蛋白质序列数据;步骤3、对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;步骤4、对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;步骤5、对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据;其中,所述方法还包括下述步骤:在获得被甲基化位点数据的蛋白质序列数据后,根据该被甲基化位点数据的蛋白质序列数据得到蛋白质不稳定结构区间的数据,进而得到新的11个长度的字符串数据,然后对原11肽PSP(5,5)加上所述新的11个长度的字符串数据,得到总计长度为22的字符串数据,再按照步骤4中提到的编码方法对所述长度为22的字符串数据进行编码,得到数值型数据再进行后续的分类预测。2.如权利要求1所述的方法,其特征在于,所述根据所述被甲基化作用的数据获取原始蛋白质序列数据包括:从所述被甲基化作用的数据中依次读取被甲基化作用的蛋白质名称;根据蛋白质名称依次从网页http://www.uniprot.org/uniprot/中查找与每个蛋白质名称对应的数据;由查找的与每个蛋白质名称对应的数据组成与各个蛋白质名称对应的原始蛋白质序列,所述原始蛋白质序列数据中包括与所述被甲基化作用的数据中的各个蛋白质名称对应的被甲基化作用的数据和没有被甲基化作用的数据。3.如权利要求1所述的方法,其特征在于,所述对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集包括:以K或R为中心,从所述原始蛋白质序列数据中选取设定长度的字符串,所述K为赖氨酸,所述R为精氨酸;将被甲基化作用的字符串作为阳性对照,而其他的没有被甲基化作用的字符串作为阴性对照;将阳性对照添加至阳性数据集中,将阴性对照添加至阴性数据集中。4.如权利要求1所述的方法,其特征在于,所述对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据中的编码方法包括概率型编码、数值编号型编码、正交型编码和二进制编码中的一种。5.如权利要求1所述的方法,其特征在于,所述分类算法是随机森林、随机树中的一种。6.一种甲基化...

【专利技术属性】
技术研发人员:周丰丰赵苗苗张召刘记奎葛瑞泉
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1