一种KEGG数据库的反应信息补充方法技术

技术编号:23346538 阅读:26 留言:0更新日期:2020-02-15 04:57
本发明专利技术涉及生物信息学生物数据分析领域,公开一种KEGG数据库的反应信息补充方法,该技术分为反应方程式配平、主反应补充、途径信息补充和子系统信息补充四个部分。KEGG数据库中下载的反应信息数据存在一定的缺失和遗漏,通过本专利所述方法能够对其中的部分数据信息进行补充,使反应信息更为完善和全面。网络信息更加完整,有利于后续的模拟和生物学分析。

A method of adding reaction information to KEGG database

【技术实现步骤摘要】
一种KEGG数据库的反应信息补充方法
本专利技术涉及生物信息学生物数据分析领域,具体涉及一种KEGG数据库的反应信息补充方法。
技术介绍
生物信息学和数据库技术的不断发展,为研究者收集、整合庞大的数据并高效地利用它们解决生物学问题提供了极大的方便。1995年,日本京都大学创建第一个较为全面的代谢数据库——KEGG(KyotoEncyclopediaofGenesandGenomes)数据库,该数据库收集了已经测序物种的序列信息,并提供相应的功能注释,是一个整合基因组、化学和系统功能信息的数据库。迄今为止,KEGG数据库不断地在扩充、维护和修正数据,为广大研究者提供着最新的代谢信息。尽管KEGG数据库是国际最常用的生物信息学数据库之一,KEGG数据库中仍然存在一定量的缺失和错误信息,这些缺失的信息对于研究者利用数据解决生物学问题造成了一定的困难。例如在利用KEGG中的反应信息构建基因组尺度代谢网络的过程中,反应信息的缺失会对网络模型的精细度和可计算性造成较大的影响。通过访问KEGG数据的FTP(ftp://ftp.bioinformatics.jp/)网址可批量下载KEGG数据库中反应相关信息的数据。但这些反应信息中存在反应方程式左右侧元素不守恒,部分反应缺失主反应、途径信息,反应未匹配子系统信息等问题,导致了后续利用这些反应进行途径分析、计算机模拟计算和生物学特征分析时存在一定的困难和不精确性。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种KEGG数据库的反应信息补充方法。KEGG数据库中下载的反应信息数据存在一定的缺失和遗漏,通过本专利所述方法能够对其中的部分数据信息进行补充,使反应信息更为完善和全面。本专利技术为解决
技术介绍
中提及的技术问题,采用的技术方案是一种KEGG数据库的反应信息补充方法,该技术分为反应方程式配平、主反应补充、途径信息补充和子系统信息补充四个部分。具体的步骤为:1)反应方程式配平:(1)统计化合物中的元素个数。从KEGG数据库下载“compound”文件,可获得所有化合物的编号及分子式,筛选出化合物中没有提供分子式和分子式中含有n、x的化合物,此类化合物无法确定准确的元素个数,不在配平范围之内。对于其余可得到确定分子式的化合物,将每个化合物的元素按照碳、氢、氧、氮、磷、硫的顺序进行个数统计。(2)确定为配平反应。对反应方程式进行拆分,得到未配平的反应方程式。具体方法为:从KEGG数据库下载“reaction”文件,该文件中包含部分反应的反应方程式、主反应和途径信息。对于其中的每一个反应,将等式左右两侧分为两部分,根据步骤(1)中统计的各个化合物包含的元素个数,乘以该化合物对应的系数,并对单侧的元素总数进行汇总统计,得到反应方程式左右两侧每个元素的总数,并对左右两侧的元素个数进行比较,元素守恒(即左右两侧各元素种类和个数都相等)的为配平反应,元素不守恒(即左右两侧元素种类或个数不相等)的反应即为未配平的反应。(3)对未配平反应方程式进行配平。经过对比发现,绝大多数不平的反应缺少的元素为氢或氧,根据元素守恒和电荷守恒,并根据反应具体缺失的物质,对反应添加氢离子、电子、水分子、氧气等物质,以配平反应,如反应左侧比右侧少一个氢(H)元素,则在反应左侧添加氢离子(H+)。该步骤对于较为简单的物质(如氢离子、水分子、氧气)的添加通过程序实现,对于较复杂的物质通过人工判断实现。需要注意的是,添加电子时,需要在KEGG数据库中确定反应的电荷量,再进行电子的添加,以保证电荷守恒。另外,未完成反应不在配平范围之内。未完成反应是指参与该反应的某些物质还未被实验证实,从而未被KEGG数据库添加到反应方程式中,导致了反应方程式不平的反应。2)主反应补充主反应为参加该反应的主要物质,一般是在全反应的基础上,去掉流通代谢物ATP、ADP、NADH、NAD+、H2O、NADPH、NADP+和H+。筛选出KEGG数据库下载文件中缺失主反应的反应,在KEGG通路图中查找该反应,根据通路图中显示的主要参与该反应的物质,提取出主反应。如通路图未明确主要参与反应的物质,可依据KEGG数据库提供的RCLASS文件,即反应物对,结合反应的类型,选择合适的反应物对作为参与主反应的反应物质,补充主反应。需注意的是,一般反应,即某一类反应的概括性表达,不在主反应补充的范围之内。3)途径信息补充缺失主反应的反应,大多也缺失对应的途径,可联合步骤2,进行途径的补充。筛选出缺失主反应的反应,在KEGG数据库中查找该反应,同时可查找到反应物参与的途径。根据以下原则选择合适的途径:(1)反应的底物产物均归属同一途径,优先选择此途径;(2)根据反应名称和类型,判断出反应中某个关键的反应物,此反应物归属于某途径,则选择此途径;(3)根据步骤(1)和步骤(2)无法确定反应所属途径的反应,将其归入“代谢途径(metabolicpathway)”中。需要注意的是,一般反应,即某一类反应的概括性表达,不在途径信息补充的范围之内。4)子系统信息补充从KEGG数据库下载“pathway”文件,提取pathway文件中每个途径对应的子系统名称,通过与反应信息中的途径相匹配,即可将子系统信息匹配到对应的反应上,使得反应信息更为全面。需要注意的是,一般反应,即某一类反应的概括性表达,不在子系统信息补充的范围之内。有益效果1、通过本方法的处理,可对以上缺失的信息进行一定的补充,从而完善每个反应的对应信息,进一步方便后续的科学研究。因此,与现有不经处理的KEGG数据库中的反应信息相比,经过本方法补充后的反应信息更加全面,利用反应信息得到的生物分析结果更加精细和可信,在利用补充后的网络模型进行生理活动的模拟和计算时,更具有生物学意义。2、信息补充前,中华绒螯蟹基因组尺度代谢网络中配平的反应数量为1677个,包含主反应的反应数量为1607个,具有途径信息的反应数量为1617个,具有子系统信息的反应数量为0个。信息补充后,中华绒螯蟹基因组尺度代谢网络中配平的方程式数量为1736个,包含主反应的方程式数量为1738个,具有途径信息的反应数量为1738个,具有子系统信息的反应数量为1759个。网络信息更加完整,有利于后续的模拟和生物学分析。3、信息补充前,凡纳滨对虾基因组尺度代谢网络中配平的反应数量为1621个,包含主反应的反应数量为1539个,具有途径信息的反应数量为1566个,具有子系统信息的反应数量为0个。信息补充后,凡纳滨对虾基因组尺度代谢网络中配平的方程式数量为1678个,包含主反应的方程式数量为1678个,具有途径信息的反应数量为1678个,具有子系统信息的反应数量为1678个。网络信息更加完整,有利于后续的模拟和生物学分析。附图说明图1为基因组尺度代谢网络信息补充技术流程图具体实施方式以下结合附图和具体实施例来对专利技术作进一步的说明。实施例1中华绒螯蟹基因组尺度代谢网络信息补充本文档来自技高网
...

【技术保护点】
1.一种KEGG数据库的反应信息补充方法,其特征在于,该方法包括为反应方程式配平、主反应补充、途径信息补充和子系统信息补充四个部分,具体的步骤为:/n1)反应方程式配平:/n(1)统计化合物中的元素个数;/n(2)确定为配平反应:对反应方程式进行拆分,得到未配平的反应方程式;/n(3)对未配平反应方程式进行配平;/n2)主反应补充:/n主反应为参加该反应的主要物质,一般是在全反应的基础上,去掉流通代谢物ATP、ADP、NADH、NAD+、H

【技术特征摘要】
1.一种KEGG数据库的反应信息补充方法,其特征在于,该方法包括为反应方程式配平、主反应补充、途径信息补充和子系统信息补充四个部分,具体的步骤为:
1)反应方程式配平:
(1)统计化合物中的元素个数;
(2)确定为配平反应:对反应方程式进行拆分,得到未配平的反应方程式;
(3)对未配平反应方程式进行配平;
2)主反应补充:
主反应为参加该反应的主要物质,一般是在全反应的基础上,去掉流通代谢物ATP、ADP、NADH、NAD+、H2O、NADPH、NADP+和H+。筛选出KEGG数据库下载文件中缺失主反应的反应,在KEGG通路图中查找该反应,根据通路图中显示的主要参与该反应的物质,提取出主反应;
3)途径信息补充:
缺失主反应的反应,大多也缺失对应的途径,可联合步骤2)进行途径的补充;筛选出缺失主反应的反应,在KEGG数据库中查找该反应,同时可查找到反应物参与的途径;
4)子系统信息补充:
从KEGG数据库下载“pathway”文件,提取pathway文件中每个途径对应的子系统名称,通过与反应信息中的途径相匹配,即可将子系统信息匹配到对应的反应上,使得反应信息更为全面。


2.根据权利要求1所述的一种KEGG数据库的反应信息补充方法,其特征在于,所述步骤1)-(1)具体如下:从KEGG数据库下载“compound”文件,可获得所有化合物的编号及分子式,筛选出化合物中没有提供分子式和分子式中含有n、x的化合物,此类化合物无法确定准确的元素个数,不在配平范围之内;
对于其余可得到确定分子式的化合物,将每个化合物的元素按照碳、氢、氧、氮、磷、硫的顺序进行个数统计。


3.根据权利要求1所述的一种KEGG数据库的反应信息补充方法,其特征在于,所述步骤1)-(2)具体如下:从KEGG数据库下载“reaction”文件,该文件中包含部分反应的反应方程式、主反应和途径信息;
对于其中的每一个反应,将等式左右两侧分为两部分,根据步骤(1)中统计的各个化合物包含的元素个数,乘以该化合物对应的系数,并对单侧的元素总数进行汇总统计,得到反应方程式左右两侧每个元素的总数,并对左右两侧的元素个数进行比较,元素守恒(即左右两侧各元素种类和个数都相等)的为配平反应,元素不守恒(即...

【专利技术属性】
技术研发人员:郝彤孙金生赵凌轩
申请(专利权)人:天津师范大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利