The invention relates to a step of neighborhood rough set attribute reduction and metagenomic fragment classification method, based on the following: the whole genome sequence of A random access bacteria; the quantity and dimension of each piece of DNA as the condition attributes and the corresponding identifier is used to represent each piece of DNA as the decision attribute decision table is formed randomly selected row and column reduction; B initialization set is empty, the sample for the entire domain, each attribute calculation of all remaining attribute importance, choose from the important attributes of the largest added reduction combination, until all the remaining attribute important degree is less than the lower limit is set attribute importance so far; the low dimensional C gene the metagenomic DNA fragment in B after the reduction step of classification. The invention reduces the macro genome segments without assembling the macro genome segments, so as to get the classification accuracy before and after the reduction.
【技术实现步骤摘要】
基于邻域粗糙集的宏基因组片段属性约简及分类方法
本专利技术属于生物信息学分析技术相关的领域,具体涉及一种基于邻域粗糙集的宏基因组片段属性约简及分类方法。
技术介绍
现有技术条件下,自然界中所存在的可培养微生物数量不到总数的1%,即其余99%不能通过传统的基因组学方法获取它们的基因信息。邻域粗糙集属性约简方法能够克服经典粗糙集在处理连续型数据时需要将数据进行离散化的缺点,能比较客观的反映出数据本来的面貌,它已经有效地应用在了大数据分析、知识依赖性发现、属性子集选择、决策规则发现、分类分析等领域,具有重要的理论研究价值和实际应用价值。宏基因组学技术的诞生使得从环境中直接获取DNA序列而无需经过实验室培养成为了可能,目前可测序的宏基因组数量越来越多,所测的DNA序列也越来越大,因此,如何对宏基因数据进行有效约简以降低分类时所耗费的人力、财力成了生物信息学的一个重要的研究方向。
技术实现思路
本专利技术的目的是提供一种基于邻域粗糙集的宏基因组片段属性约简及分类方法,在不对宏基因组片段进行组装的情况下,利用宏基因组片段本身的特点,对宏基因组片段运用邻域粗糙集方法进行约简,并利用 ...
【技术保护点】
一种基于邻域粗糙集的宏基因组片段属性约简及分类方法,其特征在于,步骤如下:A.随机获取的任意数量的微生物菌的全基因组序列,每种生物菌的全基因组序列随机切割出长度相同的不重叠DNA片段;计算不重叠DNA片段的K‑mer频率作为特征向量并且归一化;从被切割的每段DNA片段中提取相同维数的基因向量,将每段DNA片段的数量和维数作为条件属性,对决策表中选取行和列做相应的标识后作为决策属性,用于代表每段DNA片段;B.使用邻域粗糙集方法进行数据约简:输入领域半径、重要度下限和步骤A中建立的决策表,初始化的约简集合为空集,样本为整个论域,每次计算全部剩余属性的属性重要度,从中选择属性重 ...
【技术特征摘要】
1.一种基于邻域粗糙集的宏基因组片段属性约简及分类方法,其特征在于,步骤如下:A.随机获取的任意数量的微生物菌的全基因组序列,每种生物菌的全基因组序列随机切割出长度相同的不重叠DNA片段;计算不重叠DNA片段的K-mer频率作为特征向量并且归一化;从被切割的每段DNA片段中提取相同维数的基因向量,将每段DNA片段的数量和维数作为条件属性,对决策表中选取行和列做相应的标识后作为决策属性,用于代表每段DNA片段;B.使用邻域粗糙集方法进行数据约简:输入领域半径、重要度下限和步骤A中建立的决策表,初始化的约简集合为空集,样本为整个论域,每次计算全部剩余属性的属性重要度,从中选择属性重要度最大的加入约简组合里,直到所有剩余属性的属性重要度小于设置属性重要度的下限为止,得到低...
【专利技术属性】
技术研发人员:刘富,薛健,侯涛,刘云,姜守坤,
申请(专利权)人:吉林大学,
类型:发明
国别省市:吉林,22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。