当前位置: 首页 > 专利查询>江南大学专利>正文

一种基因组代谢网络模型自动化修正方法技术

技术编号:11581783 阅读:78 留言:0更新日期:2015-06-10 15:09
本发明专利技术公开了一种基因组代谢网络模型自动化修正方法,利用了超文本传送协议和Java控件HttpClient相结合、并利用图像处理算法,实现自动提交并分析网站脚本语义,基于KEGG、MetaCyc、MetRxn在线数据库以及多个蛋白区间定位预测网站对基因组规模代谢网络模型进行了自动化断点补齐,同时通过蛋白区间预测结果和权重打分机制确定可信度高的特异性反应,完成代谢网络粗模型的自动化修正过程。利用本发明专利技术所述的方法进行基因组代谢网络模型修正的优点是更加省时、方便,且所得修正模型更为全面、准确。

【技术实现步骤摘要】
一种基因组代谢网络模型自动化修正方法
本专利技术属于生物信息学领域,具体涉及一种使用计算机挖掘生物信息数据及利用图像处理算法和权重打分机制的对基因组代谢网络模型自动化修正方法。
技术介绍
随着基因组高通量测序数据的涌现,以及大量的生物学数据的产生,基因组代谢网络模型构建成为研究的热点之一。代谢网络构建是一个花费大量人力和时间的过程,因此大量的自动化构建的工具应运而生。通常这些自动化工具侧重关注代谢网络粗模型的构建和模拟过程,只有少量的自动化工具是针对代谢网络模型的修正过程。目前能够提供代谢网络模型自动化精炼过程的工具有ModelSEED、PathwayTools、RAVEN和SuBliMinaL。代谢网络的模型构建包括粗模型的构建、模型的精炼、数学模型的准换、模型的验证预测4个过程。一个高质量的代谢网络模型,必须达到模型模拟结果和生物实际生长表型一致,否则必须要不断的重复精炼修正过程,直到模拟与表型一致。模型的精炼修正无疑是代谢网络模型构建过程中最耗时耗力的过程,少量的模型精炼工具也不能真正实现真菌代谢网络模型精炼过程的自动化。模型的精炼过程必须包括代谢漏洞的填补,反应方向的确定,反应区间定位等。ModelSEED和PathwayTools只能提供原核生物的代谢网络模型的精炼自动化过程,不能提供反应区间的定位。RAVEN和SuBliMinaL基于WolfPSORT蛋白区间预测数据库的基础上能够实现自动化定位反应区间,但是WolfPSORT只是一个基于氨基酸组成为特征的蛋白质在线数据库。研究表明,蛋白质区间定位在基于氨基酸组成、二肽和物理化学特性这3种特征杂合时,预测结果更准确。
技术实现思路
为了解决上述问题,本专利技术公开了一种更加省时、方便,且所得修正模型更为全面、准确的基因组代谢网络模型自动化修正方法。本专利技术的技术方案如下:一种基因组代谢网络模型自动化修正方法,包括以下步骤:(1)、根据基因组代谢网络模型中的漏洞代谢物列表,填补物种的特异性反应;(2)、根据物种的特异性反应中代谢物名称,确定模型中反应的方向;(3)、确定模型中最佳反应区间。其进一步的技术方案为,步骤(1)包括:(1A)、使用matlab软件,将基因组代谢网络粗模型转化为计算机可读格式,并进行代谢物漏洞查找;(1B)、向KEGG网站的自动注释服务器KASS提交物种的基因组蛋白序列,KASS自动注释返回该蛋白序列发生的Pathwaylist;(1C)、在粗模型中确定漏洞代谢物的反应途径,并在步骤(1B)中得到的Pathwaylist中找到该反应途径;(1D)、根据步骤(1C)中找到的漏洞代谢物的反应途径得到基因代谢网络的图谱的URL地址,向URL地址发送http请求,得到服务器端响应的网页图片记为图谱T,图谱T中包括代谢途径方框;(1E)、点击步骤(1D)中图谱T的代谢途径方框,进入包含所有反应的页面page,页面page中包括蛋白序列的EC号,每一个EC号对应图谱T中的一个具体反应,EC号的URL地址指向具体的反应方程式;(1F)、获取EC号在页面page中所对应的KO号和具体的反应方程Reaction,新建文件KO-EC-Reaction.txt,将EC号和与之对应的KO号、反应方程Reaction写入文件KO-EC-Reaction.txt;(1G)、按行读取步骤(1F)中文件KO-EC-Reaction.txt的内容,循环遍历,提取KO-EC-Reaction文件中包含漏洞代谢物的反应,新建文件EC-KO-Break.txt,将包含漏洞代谢物的EC号,KO号,反应方程Reaction的信息保存在文件EC-KO-Break.txt中;(1H)、确定步骤(1G)提取的包含漏洞代谢物的反应是否是该基因组的特异性反应;(1I)、新建new-rec.txt文件,将特异性反应保存到new-rec.txt文件中,遍历new-rec.txt文件中的每一个反应,查看粗模型中是否存在该反应,不存在则添加。其进一步的技术方案为,所述步骤(1H)具体包括以下步骤:(1H1)、通过网络爬虫技术,提交并分析步骤(1E)的页面page,提取KO号在网页中对应的所有坐标;(1H2)、定位到KO号所在的方形框后选取框内的像素点,读取其颜色的RGB值;(1H3)如果值为0或者255,则没有颜色标记,判断不是物种的特异性反应;如果值在0~255之间,则有颜色标记,判断是物种的特异性反应。其进一步的技术方案为:步骤(2)具体包括以下步骤:(2A)、通过网络爬虫技术,以代谢物名称在KEGG、MetaCyc,MetRxn三个网站中查找各个反应的方向,提取并保存各个反应在3个网站中的方向信息;(2B)、如果反应应在MetaCyc和MetRxn两个网站中均为不可逆,判断为不可逆反应,否则判断为可逆反应。其进一步的技术方案为,步骤(3)的实现方法为:计算各个蛋白区间网站在该物种对应类群数据集上的权重,之后对各个网站蛋白区间返回的结果采用加权计算,确定最佳反应区间。其进一步的技术方案为,步骤(3)具体包括以下步骤:(3A)、根据每条反应获取对应的KO号,在KASS注释结果中查找其对应的genbank编号gb;在该物种蛋白序列库中找到对应的蛋白序列。(3B)、将蛋白序列提交到对应网站的表单中,获取返回的定位信息。(3C)、新建该物种对应类群数据集,并在新数据集上计算各个网站的权重。(3D)、加权计算各个反应的发生区间,确定最佳区间并将其填入反应式中。其进一步的技术方案为,步骤(3C)中,具体包括以下步骤:(3C1)、根据物种的类群新建蛋白数据集:每个网站选取12个反应区间,每个反应区间选取100条反应,构成1200条蛋白序列的数据集;数据集中任意两个蛋白序列的相似性小于25%;(3C2)、统计每个预测网站中各个区间预测正确的蛋白序列个数;(3C3)、计算出每个预测网站的平均识别正确数量,设X{X1,X2…X12}为每个预测网站12个区间的正确预测区间个数,则每个网站平均识别正确数量为:D=(X1+X2+…X12)/12;(3C4)、计算6个预测网站的权重。其进一步的技术方案为,步骤(3D)中,加权计算的公式为:其中,Vi表示第i条蛋白序列的判决区间结果;Wn为第n个蛋白区间预测网站的权重,其中保持:表示第i条蛋白序列在第n个区间预测网站上的预测结果,N表示选取的蛋白区间预测网站个数,c表示所要预测的蛋白序列数,当对输入的待测蛋白序列做判决时,把预测蛋白区间在每一类区间的得票量排序,把待测蛋白序列划分到得票量最大的区间所在的类。本专利技术的有益技术效果是:本专利技术提出了基于多个蛋白区间预测结果的权重打分机制,计算出最佳预测蛋白区间,确定了可信度高的特异性反应。通过完整的代谢漏洞的填补,反应方向的确定,反应区间定位三个步骤,完成了模型的精炼过程,利用此方法进行基因组代谢网络模型修正的优点是更加省时、方便,且所得修正模型更为全面、准确。附图说明图1是本专利技术步骤1的流程图。具体实施方式下面结合实施例对本专利技术作进一步的说明。以SpathasporapassalidarumNRRLY-27907基因组粗模型的修正过程为例进行说明,自动填补粗模型中的漏洞反应,确定反应方向和反应发生区间。具体步骤本文档来自技高网
...
一种基因组代谢网络模型自动化修正方法

【技术保护点】
一种基因组代谢网络模型自动化修正方法,其特征是,包括以下步骤:(1)、根据基因组代谢网络模型中的漏洞代谢物列表,填补物种的特异性反应;(2)、根据物种的特异性反应中代谢物名称,确定模型中反应的方向;(3)、确定模型中最佳反应区间。

【技术特征摘要】
1.一种基因组代谢网络模型自动化修正方法,其特征是,包括以下步骤:(1)、根据基因组代谢网络模型中的漏洞代谢物列表,填补物种的特异性反应;(2)、根据物种的特异性反应中代谢物名称,确定模型中反应的方向;(3)、确定模型中最佳反应区间;步骤(1)包括:(1A)、使用matlab软件,将基因组代谢网络粗模型转化为计算机可读格式,并进行代谢物漏洞查找;(1B)、向KEGG网站的自动注释服务器KASS提交物种的基因组蛋白序列,KASS自动注释返回该蛋白序列发生的Pathwaylist;(1C)、在粗模型中确定漏洞代谢物的反应途径,并在步骤(1B)中得到的Pathwaylist中找到该反应途径;(1D)、根据步骤(1C)中找到的漏洞代谢物的反应途径得到基因代谢网络的图谱的URL地址,向URL地址发送http请求,得到服务器端响应的网页图片记为图谱T,图谱T中包括代谢途径方框;(1E)、点击步骤(1D)中图谱T的代谢途径方框,进入包含所有反应的页面page,页面page中包括蛋白序列的EC号,每一个EC号对应图谱T中的一个具体反应,EC号的URL地址指向具体的反应方程式;(1F)、获取EC号在页面page中所对应的KO号和具体的反应方程Reaction,新建文件KO-EC-Reaction.txt,将EC号和与之对应的KO号、反应方程Reaction写入文件KO-EC-Reaction.txt;(1G)、按行读取步骤(1F)中文件KO-EC-Reaction.txt的内容,循环遍历,提取KO-EC-Reaction文件中包含漏洞代谢物的反应,新建文件EC-KO-Break.txt,将包含漏洞代谢物的EC号,KO号,反应方程Reaction的信息保存在文件EC-KO-Break.txt中;(1H)、确定步骤(1G)提取的包含漏洞代谢物的反应是否是该基因组的特异性反应;(1I)、新建new-rec.txt文件,将特异性反应保存到new-rec.txt文件中,遍历new-rec.txt文件中的每一个反应,查看粗模型中是否存在该反应,不存在则添加。2.如权利要求1所述的基因组代谢网络模型自动化修正方法,其特征是,所述步骤(1H)具体包括以下步骤:(1H1)、通过网络爬虫技术,提交并分析步骤(1E)的页面page,提取KO号在网页中对应的所有坐标;(1H2)、定位到KO号所在的方形框后选取框内的像素点,读取其颜色的RGB值;(1H3)如果值为0或者255,则没有颜色标记,判断不是物种的特异性反应;如果值在0~255之间,则有颜色标记,判...

【专利技术属性】
技术研发人员:张梁吴晓红薛卫李由然李赢丁重阳石贵阳
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1