一种迭代分析生物学大样本数据的知识推理方法及系统技术方案

技术编号:37811938 阅读:19 留言:0更新日期:2023-06-09 09:41
本发明专利技术涉及一种迭代分析生物学大样本数据的知识推理方法、系统及装置,方法包括:收集m个案例的第一序列信息;定义条件变量和结果变量,数据集编码;计算单个条件变量的必要性指数;筛选条件变量,构建新的生物学大样本数据集;最小化推理及组合解释力计算;模型提取;模型统计学计算;变量排除,形成新的用于迭代计算的数据集;迭代计算;本生物学大样本数据集数据所得到的解为每次计算所得到的模型的集合;系统包括:序列检测模块,编码模块,必要性指数计算模块,新数据集生成模块,最小化推理模块,组合解释力计算模块,模型生成模块,模型统计学计算模块,迭代计算管理模块;装置包括:测序仪,存储器,处理器。处理器。处理器。

【技术实现步骤摘要】
一种迭代分析生物学大样本数据的知识推理方法及系统


[0001]本专利技术属于基于特定计算模型的计算机系统领域,尤其涉及一种迭代分析生物学大样本数据的知识推理方法、系统及装置。

技术介绍

[0002]知识推理通过各种方法获取新的结论。其过程是在已有知识的基础之上,推断出未知的知识,通过从已知的知识出发,通过已经获取的知识,从中获取到所蕴含的新的事实,或者从大量的已有的知识中进行归纳,从个体知识推广到一般性的知识。对于知识推理而言,其包括的内容可以分为两种,第一种是已经知道的,用于进行推理的已有知识,另外一种是运用现有的知识推导或者归纳出来的新的知识。对于知识而言,其形式是多种多样的,可以是一个或者多个段落描述,又或者如传统的三段论的形式。继续以三段论为例,其基本结构包括大前提,小前提,结论三个部分,在这三个部分中大前提,小前提是已知的知识,而结论则是通过已知的知识所推理出来的新的知识。
[0003]随着信息数据爆炸式增长,以数据的分析、深度挖掘和融合应用为主要特征的数据时代已经来临。数据分析是有组织有目的地收集数据、分析数据,使之成为信息本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种迭代分析生物学大样本数据的知识推理方法,其特征在于,包括:步骤1:根据待分析的问题,收集m个案例的第一序列信息,所述第一序列信息采样于所述案例的同一位置的基因片段;步骤2:定义条件变量和结果变量,数据集编码;从所述基因片段中选取n个等位基因定义为条件变量,将待分析的问题定义结果变量,并对每个案例的所述条件变量和结果变量按照0、1进行编码,形成以数据矩阵表示的生物学大样本数据集;其每一行代表一个案例;所述的编码具体为将野生型纯合子基因型编码为0,将杂合子基因型以及突变纯合子基因型编码为1,将显性结果编码为1,将隐性结果编码为0;步骤3:根据单个条件变量的状态Sx和结果变量的状态Sy计算必要性指数Nec:Nec=Num(Sx,Sy)/Num(Sx),其中,Num(Sx,Sy)表示条件变量的状态为Sx且结果变量的状态为Sy的案例的数量,Num(Sx) 表示条件变量的状态为Sx的案例的数量;步骤4:筛选条件变量,构建新的生物学大样本数据集;筛选出所有必要性指数Nec的值大于或等于第一预设值的条件变量Vxi,从数据矩阵表示的生物学大样本数据集中选取所有的样本及对应的结果变量Vy构建新的生物学大样本数据集,新的生物学大样本数据集包含经过筛选的所有条件变量的编码;步骤5:最小化推理及组合解释力计算;将新的生物学大样本数据集的数据复制到用于迭代计算的数据集中;对用于迭代计算的数据集进行最小化推理得到不同的条件变量的组合Ci并计算其对应的组合解释力Exp,对组合Ci根据其组合解释力进行降序排列;步骤6:模型提取;从第一个组合开始,提取编码为1的条件变量,将这些条件变量组合成模型Mi;如果组合Ci中所有条件变量均为0,则选取组合解释力Exp第二大的组合,依次类推;如果所有的条件变量的组合都提取不到模型,则整个迭代计算停止,将前面几轮迭代计算得到的结果输出;步骤7:模型的统计学计算;在本轮用于迭代计算的数据集中进行模型Mi的统计学计算,统计学计算采用皮尔森卡方检验,将计算得到的P值添加至模型Mi之后,将模型Mi及其P值添加至结果集合中;如果P值小于或等于0.05,则通过统计学检验;如果P值大于0.05,则未通过统计学检验;步骤8:排除变量形成新的用于迭代计算的数据集;在本轮用于迭代计算的数据集中删除模型Mi所覆盖的条件变量及每个样本所对应的编码,形成新的用于迭代计算的数据集;将新的用于迭代的数据集进行最小化推理,模型提取,统计学计算,模型覆盖的条件变量的编码的删除,形成新的用于迭代计算的数据集;步骤9:进行迭代计算,得到结果集合。2.如权利要求1所述的迭代分析生物学大样本数据的知识推理方法,其特征在于,所述收集m个案例的第一序列信息步骤中,每个案例的第一序列信息收集的步骤包括:将每平方厘米点阵密度高于400的探针分子固定于支持物上后与标记的样品分子进行杂交,检测每个探针分子的杂交信号强度获取样品分子的序列信息。3.如权利要求2所述的迭代分析生物学大样本数据的知识推理方法,其特征在于,所述最小化推理包括以下步骤:
S1:选出结果变量为状态Sy的组合项,删除重复的组合项,生成新表;S2:在新表中,将单个组合项按含0个状态“0”,含1个状态“0”,含2个状态“0”,直至含n个状态“0”划分为不同的组,并按状态“0”的数量降序排列成表,其中n为条件变量个数;S3: 准备一张新表,从含有最多数量的状态“0”的组开始依次向下,将当前组中的每一个组合项与下一组的每一个组合项比较,若两个组合项只有一个不同的条件变量,则将所述不同的条件变量用两个组合项所包含的两种不同的状态标记提取出来形成数列,所述数列代表一种新的状态,如果所述数列包含了所述不同的条件变量的所有取值或包含了
“‑”
标记,则所述不同的条件变量用
“‑”
标记,
“‑”
标记代表对应的条件变量已消去,其可以取所有已编码的值,用状态相同的条件变量加上所述数列按照初始的条件变量的顺序生成一个新的组合项;如果新的组合项在新表中不存在,则将这个新的组合项放入新表中;如果新的组合项在新表中已存在,则不执行放入动作;S4: 在新表中,重复步骤S2,S3直到新表中不存在只有一个条件变量不同的组合项为止。4.如权利要求3所述的迭代分析生物学大样本数据的知识推...

【专利技术属性】
技术研发人员:高军徐玮张莉萍
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1