一种基于正则表达式的N糖结构库构建方法与系统技术方案

技术编号:17994874 阅读:35 留言:0更新日期:2018-05-19 12:02
本发明专利技术涉及一种基于正则表达式的N糖结构库构建方法与系统,包括:将五糖核心中每个单糖作为一个节点,为各节点进行编号以明确节点所代表的单糖类别,根据各节点间的连接关系和编号,计算五糖核心中每个节点的正则表达式,并将所有正则表达式集合,作为x糖结构字符串码,其中x为糖结构所具有的节点数;以正则表达式为基础,通过枚举法生成节点数目为x+1的糖结构的字符串码,作为x+1糖结构字符串码;根据x+1糖结构字符串码,对生成的节点数目为x+1的各个糖结构去冗余并判断其结构的合理性,将合理且没有冗余的x+1糖结构输出到文本文件中,并将文本文件作为N糖结构库。本发明专利技术节省了枚举糖库过程中的空间开销,还有效地提高了糖结构的枚举速度。

A method and system for constructing N sugar structure library based on regular expression

The invention relates to a method and system for building a N sugar structure library based on regular expressions, including each monosaccharide in the five sugar core as a node, numbering each node to clear the monosaccharide category represented by the node, and calculating the regular table of each node in the five sugar core based on the connection and number of each node. And set all the regular expressions as the X sugar structure string code, where x is the number of nodes in the sugar structure; based on the regular expression, the string code of the sugar structure of the node number is generated by the enumeration method, as the string code of the x+1 sugar structure; according to the string code of the x+1 sugar structure, the generated section is made. The number of points for x+1 is redundant and the structure is reasonable. The reasonable and no redundant x+1 sugar structure is exported to the text file, and the text file is used as the N sugar structure library. The invention saves space cost in enumerating sugar library, and effectively improves the enumeration speed of sugar structure.

【技术实现步骤摘要】
一种基于正则表达式的N糖结构库构建方法与系统
本专利技术涉及生物信息学中的糖蛋白质组学领域,特别涉及一种基于糖结构的正则表达式的N糖结构库构建方法与系统。
技术介绍
N糖基化是蛋白质的一种非常普遍的翻译后修饰,对生物的功能起着不容忽视的调控作用。据估计,大约有50%的哺乳动物的蛋白质发生了糖基化。近年来,人们开始用各种数据库来存储糖链信息,然而这些数据库存储单糖种类及连接关系的方法各不相同,给糖库的比较与使用带来了很大的不便。肽段的线性结构使其可以直接在计算机中用线性字符串表示,而糖的分支结构大大增加了其在计算机中存储的难度。于是,数据库构建者纷纷提出了不同的糖结构的存储格式,比如,GlycoSciences.de采用LINUCS格式,KEGG采用KCF格式,EUROCarbDB采用GlycoCT格式,却导致了很多互不兼容的存储格式的产生,而大部分存储格式只用于了一个糖库。大部分表示方法既不能同时易于人工解读及计算机存储,也很难直接用来判断糖结构是否互为同构冗余。GlycomeDB集成了七个公开的糖库,成为当前得到广泛应用的糖库。一些依赖于数据库搜索的糖肽鉴定软件也基于特定的实验需求本文档来自技高网...
一种基于正则表达式的N糖结构库构建方法与系统

【技术保护点】
一种基于正则表达式的N糖结构库构建方法,其特征在于,包括:步骤1、初始获取的糖结构为五糖核心,将五糖核心中每个单糖作为一个节点,为每个该节点进行编号以明确该节点所代表的单糖类别,并根据各节点间的连接关系和该编号,计算该五糖核心中每个节点的正则表达式,并将所有该正则表达式集合,作为x糖结构字符串码,其中x为该糖结构所具有的节点数,该正则表达式采用字符串码的形式加以表示;步骤2、以该正则表达式为基础,通过枚举法生成节点数目为x+1的糖结构的字符串码,作为x+1糖结构字符串码;步骤3、根据该x+1糖结构字符串码,对生成的节点数目为x+1的各个糖结构去冗余,生成不具备冗余结构的精简x+1糖结构;步骤4...

【技术特征摘要】
1.一种基于正则表达式的N糖结构库构建方法,其特征在于,包括:步骤1、初始获取的糖结构为五糖核心,将五糖核心中每个单糖作为一个节点,为每个该节点进行编号以明确该节点所代表的单糖类别,并根据各节点间的连接关系和该编号,计算该五糖核心中每个节点的正则表达式,并将所有该正则表达式集合,作为x糖结构字符串码,其中x为该糖结构所具有的节点数,该正则表达式采用字符串码的形式加以表示;步骤2、以该正则表达式为基础,通过枚举法生成节点数目为x+1的糖结构的字符串码,作为x+1糖结构字符串码;步骤3、根据该x+1糖结构字符串码,对生成的节点数目为x+1的各个糖结构去冗余,生成不具备冗余结构的精简x+1糖结构;步骤4、判断该精简x+1糖结构的合理性,将合理的该精简x+1糖结构输出到文本文件中,并将该文本文件作为N糖结构库。2.如权利要求1所述的基于正则表达式的N糖结构库构建方法,其特征在于,该步骤1包括:步骤11、根据各该节点在该糖结构中所处的层级,为各该节点分配起始符和终止符号,每个该节点对应的该字符串码由该起始符、该编号、孩子节点字符串码和该终止符号组成。3.如权利要求1所述的基于正则表达式的N糖结构库构建方法,其特征在于,该步骤2包括:步骤21、获取各单糖类别所具有的分支阈值,遍历该x糖结构字符串码,依次判断该糖结构中各节点所具有的分支数目是否小于该分支阈值,若是,则将新的节点与当前节点相连。4.如权利要求1所述的基于正则表达式的N糖结构库构建方法,其特征在于,该步骤3包括:步骤31、计算各个该x+1糖结构字符串码所对应的哥德尔码,对哥德尔码相等的两个或多个该x+1糖结构,只保留其中一个该x+1糖结构作为该精简x+1糖结构。5.如权利要求1所述的基于正则表达式的N糖结构库构建方法,其特征在于,该步骤4包括:步骤41、判断该精简x+1糖结构的所有含根子结构是否均符合GPFinder规则,若是,则判定当前该精简x+1糖结构合理;否则,舍弃当前该精简x+1糖结构。6.一种基于正则表达式的N糖结构库构建系统,其特征在于,包...

【专利技术属性】
技术研发人员:张晓今曾文锋吴建强孙瑞祥贺思敏
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1