基于SAT及OBDD桶消元的蛋白质分类方法技术

技术编号:19178075 阅读:62 留言:0更新日期:2018-10-17 00:30
本发明专利技术公开一种基于SAT及OBDD桶消元的蛋白质分类方法,其采用布尔可满足性问题(SAT)的模型,利用有序二叉决策图(OBDD)的符号求解算法以及桶消元算法,包括:先利用候选模式中元素位置的约束关系以及基数约束构建SAT模型;再使用OBDD符号技术以及包含的各项符号操作,结合桶消元算法,对所建立的模型进行求解,并且将求解技术应用到蛋白质分类中,分析提取了蛋白质中的特征信息,进行有效的分类。本发明专利技术面向蛋白质分类问题,通过求解模式挖掘中的频繁序列挖掘问题,对蛋白质进行研究。算法执行过程中,有效缩减了搜索空间,提高问题的求解效率,具有良好的实用性。

Protein classification method based on SAT and OBDD bucket elimination

The invention discloses a protein classification method based on SAT and OBDD barrel elimination, which adopts the Boolean Satisfiability Problem (SAT) model, uses the symbolic solution algorithm of Ordered Binary Decision Diagram (OBDD) and the barrel elimination algorithm. The method comprises the following steps: firstly, the SAT model is constructed by using the constraints of element positions in candidate patterns and cardinal constraints; Then using OBDD symbolic technology and the symbolic operations included, combined with barrel elimination algorithm, the established model is solved, and the solution technology is applied to protein classification, analyzing and extracting the characteristic information of proteins, for effective classification. The invention is oriented to the protein classification problem, and studies the protein by solving the frequent sequence mining problem in pattern mining. During the execution of the algorithm, the search space is reduced effectively, and the solving efficiency is improved. The algorithm has good practicability.

【技术实现步骤摘要】
基于SAT及OBDD桶消元的蛋白质分类方法
本专利技术涉及数据挖掘和符号
,具体涉及一种基于SAT及OBDD桶消元的蛋白质分类方法。
技术介绍
许多医学上重要的致病细菌是围绕其细胞的额外“外”膜。驻留在该膜中的蛋白质(外膜蛋白质OMPs)是抗生素和疫苗药物设计的主要研究对象,因为它们位于细菌表面,因此是开发新药物的最容易接近的靶标。随着基因组测序技术和生物信息学的发展,生物学家现在可以推断出在特定细菌中可能产生的所有蛋白质,并尝试对细菌细胞中蛋白质的位置进行分类。然而,当预测OMPs时,这样的蛋白质定位程序目前是最不准确的,因此需要开发更好的OMP分类器。数据挖掘研究表明,频繁模式的使用在帮助开发准确高效的分类算法方面具有良好的性能。在数据挖掘研究中,已经研究了许多在分类中使用频繁出现的项目集的方案以及挖掘频繁子序列的技术,该子序列满足一些用户指定的约束条件。这些约束旨在选择频繁子序列的子集作为分类的特征,以便进行高效特征挖掘,从而构建分类器。然而,在实际问题中,对频繁序列进行高效、准确的挖掘仍然面临很多难题,尤其是在时间复杂度和空间复杂度上仍然有待提高。所以,为了有效的解决序列模式挖掘问题,很多研究者采用了布尔可满足性问题(SAT)的基本思想,将模式挖掘问题直接转化为一个可满足性问题的模型,通过对SAT模型的分析和求解达到解决模式挖掘问题的目的。布尔可满足性问题是一个判定经典命题逻辑公式是否一致的问题,是研究最多的NP完全决策问题之一,所以在求解过程中将不可避免的受到组合复杂性的制约。
技术实现思路
本专利技术所要解决的是将序列模式挖掘问题与蛋白质分类问题相结合进行求解的过程中,不可避免地受到组合复杂性的制约的问题,提供一种基于SAT及OBDD桶消元的蛋白质分类方法。为解决上述问题,本专利技术是通过以下技术方案实现的:基于SAT及OBDD桶消元的蛋白质分类方法,具体包括步骤如下:步骤1、根据给定的蛋白质序列以及最小支持度阈值,使用命题变量来表示候选模式中元素的位置,使用基数约束推导候选模式的支持度,建立蛋白质分类的SAT模型;步骤2、将步骤1所建立的SAT模型的所有约束子句转化为布尔函数表述形式,并运用OBDD的运算和化简规则,将所有约束子句表示为OBDD形式,得到SAT模型的符号OBDD表示;步骤3、根据步骤2所得的SAT模型的符号OBDD表示,在桶消元算法的基础上,通过OBDD的符号操作来求解SAT。上述步骤1中,SAT模型包括以下3种约束表示:第一约束:第一个符号必须是一个固定的字符;第二约束:由二进制子句组成的约束获取候选模式不存在的位置;第三约束:在枚举相对于最小支持度阈值λ的所有频繁模式问题中,需要候选模式至少出现λ次。上述第三约束通过基数约束获得。上述步骤4的具体步骤如下:步骤4.1、对SAT模型的第二约束的所有约束子句中的变量,根据该变量与其他变量之间的约束关系的个数进行递增排序,得到变量序π:y0<y1<…<yn-1;步骤4.2、对SAT模型的第二约束的所有约束子句,当变量yi为约束子句cj的约束范围中变量序最小的变量时,则将约束子句cj合并到OBDD变量bucket[yi]中;步骤4.3、基于变量序π,对SAT模型的第二约束的所有约束子句中的变量进行消元,即:步骤4.3.1、根据OBDD的量化操作从OBDD变量bucket[y0]中消去变量y0,并得到新的约束子句g0,此时变量y1为新的约束子句g0中变量序最小的变量,则将新的约束子句g0加入到OBDD变量bucket[y1]中;步骤4.3.2、在消去变量y0后,根据OBDD的量化操作从OBDD变量bucket[y1]中消去变量y1,并得到新的约束子句g1,此时变量y2为新的约束子句g1中变量序最小的变量,则将新的约束子句g1加入到OBDD变量bucket[y2]中;以此类推;步骤4.3.n-1、在消去变量yn-3后,根据OBDD的量化操作从OBDD变量bucket[yn-2]中消去变量yn-2,并得到新的约束子句gn-2,此时只剩变量yn-1,则将新的约束子句gn-2加入到OBDD变量bucket[yn-1]中;步骤4.4、从变量OBDD变量bucket[yn-1]开始到OBDD变量bucket[y0]结束,即根据变量序的逆序将OBDD变量bucket[yi]逐个进行合取,最后所得到的OBDD变量即为满足第二约束的所有解的OBDD表示;步骤4.5、对第一约束的所有约束子句、满足第二约束的所有解以及第三约束的所有约束子句进行OBDD的与操作,所得的OBDD即为满足所有约束的SAT模型的所有解,由此完成蛋白质分类;上述i=0,1,…,n-1,n为第二约束中变量的个数,j=1,2,…,m,m为第二约束中约束子句的条数。上述步骤4.2和4.3中,通过OBDD的与操作将约束合并到OBDD变量中。与现有技术相比,本专利技术采用OBDD(有序二叉决策图)技术,发挥操作方法的优势,根据频繁序列挖掘的约束符号求解技术,并将序列挖掘的符号算法应用到生物信息领域蛋白质分类问题中,从而解决现有将模式挖掘问题与蛋白质分类问题相结合进行求解的过程不可避免的受到组合复杂性的制约的问题;此外,本专利技术还结合桶消元算法,在计算中生成的中间积的OBDD可能比符号直接求解法小,而基于OBDD的各种操作,其计算时间主要取决于参与操作的OBDD的大小,因此该算法能够一定程度上提高问题的求解效率,优于符号直接求解算法。附图说明图1为基于SAT及OBDD桶消元的蛋白质分类方法的流程图。图2a为OBDD简化规则中的删除规则。图2b为OBDD简化规则中的合并规则。图2c为布尔函数f=(x1+x2)·x3的OBDD表示。图3a为第一约束的约束子句:xa,o∨xb,o对应的OBDD表示。图3b为第二约束的约束子句xa,o→(y2∧y3)对应的OBDD表示。图3c为第二约束的约束子句xa,1→(y1∧y2∧y3)对应的OBDD表示。图3d为第二约束的约束子句xb,o→(y0∧y1)对应的OBDD表示。图3e为第二约束的约束子句xb,1→(y0∧y3)对应的OBDD表示。图3f为第二约束的约束子句xb,2→(y2∧y3)对应的OBDD表示。图3g为第三约束的约束子句:y0+y1+y2+y3≤2对应的OBDD表示。图4为第一约束“与”第二约束的OBDD表示。图5为根据本方法求解得到的SAT所有解的OBDD表示。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本专利技术进一步详细说明。布尔可满足性问题作为人工智能和计算机科学领域中的大量复杂问题的一个通用的求解范例,是一个判定经典命题逻辑公式是否一致的问题,是研究最多的NP完全决策问题之一。迄今,对SAT算法的研究已经很广泛深入,且有很多较成熟的有效算法,和高效的SAT求解器,但是由于SAT问题通常都是NP难问题,所以在求解过程中将不可避免的受到组合复杂性的制约,为此,我们引入了符号技术。同时为了提高符号技术的求解效率,引入了桶消元算法。有序二叉决策图(OrderedBinaryDecisionDiagram,OBDD)及其扩展形式可以实现状态空间或者变量组合的隐式表示和搜索,能有效的减缓或者部分程度上避本文档来自技高网...

【技术保护点】
1.基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,具体包括步骤如下:步骤1、根据给定的蛋白质序列以及最小支持度阈值,使用命题变量来表示候选模式中元素的位置,使用基数约束推导候选模式的支持度,建立蛋白质分类的SAT模型;步骤2、将步骤1所建立的SAT模型的所有约束子句转化为布尔函数表述形式,并运用OBDD的运算和化简规则,将所有约束子句表示为OBDD形式,得到SAT模型的符号OBDD表示;步骤3、根据步骤2所得的SAT模型的符号OBDD表示,在桶消元算法的基础上,通过OBDD的符号操作来求解SAT。

【技术特征摘要】
1.基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,具体包括步骤如下:步骤1、根据给定的蛋白质序列以及最小支持度阈值,使用命题变量来表示候选模式中元素的位置,使用基数约束推导候选模式的支持度,建立蛋白质分类的SAT模型;步骤2、将步骤1所建立的SAT模型的所有约束子句转化为布尔函数表述形式,并运用OBDD的运算和化简规则,将所有约束子句表示为OBDD形式,得到SAT模型的符号OBDD表示;步骤3、根据步骤2所得的SAT模型的符号OBDD表示,在桶消元算法的基础上,通过OBDD的符号操作来求解SAT。2.根据权利要求1所述的基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,步骤1中,SAT模型包括以下3种约束表示:第一约束:第一个符号必须是一个固定的字符;第二约束:由二进制子句组成的约束获取候选模式不存在的位置;第三约束:在枚举相对于最小支持度阈值λ的所有频繁模式问题中,需要候选模式至少出现λ次。3.根据权利要求2所述的基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,第三约束通过基数约束获得。4.根据权利要求2或3所述的基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,步骤4的具体步骤如下:步骤4.1、对SAT模型的第二约束的所有约束子句中的变量,根据该变量与其他变量之间的约束关系的个数进行递增排序,得到变量序π:y0<y1<…<yn-1;步骤4.2、对SAT模型的第二约束的所有约束子句,当变量yi为约束子句cj的约束范围中变量序最小的变量时,则将约束子句cj合并到OBDD变量bucket[yi]中;步骤4.3、基于变量序π,对SAT模型的第二约束的所有约束子...

【专利技术属性】
技术研发人员:徐周波戴瑀君梁轩瑜宁黎华刘桂珍张鵾杨健黄文文
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1