The invention discloses a protein classification method based on SAT and OBDD barrel elimination, which adopts the Boolean Satisfiability Problem (SAT) model, uses the symbolic solution algorithm of Ordered Binary Decision Diagram (OBDD) and the barrel elimination algorithm. The method comprises the following steps: firstly, the SAT model is constructed by using the constraints of element positions in candidate patterns and cardinal constraints; Then using OBDD symbolic technology and the symbolic operations included, combined with barrel elimination algorithm, the established model is solved, and the solution technology is applied to protein classification, analyzing and extracting the characteristic information of proteins, for effective classification. The invention is oriented to the protein classification problem, and studies the protein by solving the frequent sequence mining problem in pattern mining. During the execution of the algorithm, the search space is reduced effectively, and the solving efficiency is improved. The algorithm has good practicability.
【技术实现步骤摘要】
基于SAT及OBDD桶消元的蛋白质分类方法
本专利技术涉及数据挖掘和符号
,具体涉及一种基于SAT及OBDD桶消元的蛋白质分类方法。
技术介绍
许多医学上重要的致病细菌是围绕其细胞的额外“外”膜。驻留在该膜中的蛋白质(外膜蛋白质OMPs)是抗生素和疫苗药物设计的主要研究对象,因为它们位于细菌表面,因此是开发新药物的最容易接近的靶标。随着基因组测序技术和生物信息学的发展,生物学家现在可以推断出在特定细菌中可能产生的所有蛋白质,并尝试对细菌细胞中蛋白质的位置进行分类。然而,当预测OMPs时,这样的蛋白质定位程序目前是最不准确的,因此需要开发更好的OMP分类器。数据挖掘研究表明,频繁模式的使用在帮助开发准确高效的分类算法方面具有良好的性能。在数据挖掘研究中,已经研究了许多在分类中使用频繁出现的项目集的方案以及挖掘频繁子序列的技术,该子序列满足一些用户指定的约束条件。这些约束旨在选择频繁子序列的子集作为分类的特征,以便进行高效特征挖掘,从而构建分类器。然而,在实际问题中,对频繁序列进行高效、准确的挖掘仍然面临很多难题,尤其是在时间复杂度和空间复杂度上仍然有待提高。所以,为了有效的解决序列模式挖掘问题,很多研究者采用了布尔可满足性问题(SAT)的基本思想,将模式挖掘问题直接转化为一个可满足性问题的模型,通过对SAT模型的分析和求解达到解决模式挖掘问题的目的。布尔可满足性问题是一个判定经典命题逻辑公式是否一致的问题,是研究最多的NP完全决策问题之一,所以在求解过程中将不可避免的受到组合复杂性的制约。
技术实现思路
本专利技术所要解决的是将序列模式挖掘问题与蛋白质分类 ...
【技术保护点】
1.基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,具体包括步骤如下:步骤1、根据给定的蛋白质序列以及最小支持度阈值,使用命题变量来表示候选模式中元素的位置,使用基数约束推导候选模式的支持度,建立蛋白质分类的SAT模型;步骤2、将步骤1所建立的SAT模型的所有约束子句转化为布尔函数表述形式,并运用OBDD的运算和化简规则,将所有约束子句表示为OBDD形式,得到SAT模型的符号OBDD表示;步骤3、根据步骤2所得的SAT模型的符号OBDD表示,在桶消元算法的基础上,通过OBDD的符号操作来求解SAT。
【技术特征摘要】
1.基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,具体包括步骤如下:步骤1、根据给定的蛋白质序列以及最小支持度阈值,使用命题变量来表示候选模式中元素的位置,使用基数约束推导候选模式的支持度,建立蛋白质分类的SAT模型;步骤2、将步骤1所建立的SAT模型的所有约束子句转化为布尔函数表述形式,并运用OBDD的运算和化简规则,将所有约束子句表示为OBDD形式,得到SAT模型的符号OBDD表示;步骤3、根据步骤2所得的SAT模型的符号OBDD表示,在桶消元算法的基础上,通过OBDD的符号操作来求解SAT。2.根据权利要求1所述的基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,步骤1中,SAT模型包括以下3种约束表示:第一约束:第一个符号必须是一个固定的字符;第二约束:由二进制子句组成的约束获取候选模式不存在的位置;第三约束:在枚举相对于最小支持度阈值λ的所有频繁模式问题中,需要候选模式至少出现λ次。3.根据权利要求2所述的基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,第三约束通过基数约束获得。4.根据权利要求2或3所述的基于SAT及OBDD桶消元的蛋白质分类方法,其特征是,步骤4的具体步骤如下:步骤4.1、对SAT模型的第二约束的所有约束子句中的变量,根据该变量与其他变量之间的约束关系的个数进行递增排序,得到变量序π:y0<y1<…<yn-1;步骤4.2、对SAT模型的第二约束的所有约束子句,当变量yi为约束子句cj的约束范围中变量序最小的变量时,则将约束子句cj合并到OBDD变量bucket[yi]中;步骤4.3、基于变量序π,对SAT模型的第二约束的所有约束子...
【专利技术属性】
技术研发人员:徐周波,戴瑀君,梁轩瑜,宁黎华,刘桂珍,张鵾,杨健,黄文文,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。