一种提高样本库样本多样性的出库方法技术

技术编号:18445370 阅读:38 留言:0更新日期:2018-07-14 10:34
本发明专利技术提供一种提高样本库样本多样性的出库方法,能够使样本库中剩余样本的多样性达到最高。所述方法包括:确定衡量样本库中样本多样性的指数;从预先确定的样本库中初步选出符合出库条件的样本;在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本。本发明专利技术涉及信息管理领域。

An outgoing method for improving diversity of sample library samples

The invention provides a method for improving the diversity of sample library samples, so that the diversity of the remaining samples in the sample library can reach the highest. The methods described include: determining the index of sample diversity in the sample library, selecting samples from the pre determined sample library, and determining the highest diversity of the remaining samples in the sample base, according to the sample diversity index in the sample library. The invention relates to the field of information management.

【技术实现步骤摘要】
一种提高样本库样本多样性的出库方法
本专利技术涉及信息管理领域,特别是指一种提高样本库样本多样性的出库方法。
技术介绍
生物样本库又称生物银行(Biobank),主要是指标准化收集、处理、储存和应用健康和疾病生物体的生物大分子、细胞、组织和器官等样本(包括人体器官组织、全血、血浆、血清、生物体液或经处理过的生物样本(DNA、RNA、蛋白等)以及与这些生物样本相关的临床、病理、治疗、随访、知情同意等资料及其质量控制、信息管理与应用系统。如图1所示,图1为生物样本库入库出库流程示意图,在样本出库时,相关研究人员首先要在生物样本库中筛选出符合自己需求的样本,这其中就涉及到生物样本库中样本多样性的问题。生物样本库中一般有几万甚至几十万份样本,而每一份样本都有十几或者几十个样本的相关属性,比如样本类型,取样位置,血型,被采样人的性别,年龄,身高,是否患有某种疾病,家族史,生活习惯等等。而研究人员筛选样本是可能只想要单一属性的样本,比如只要o型血样本,对样本的其它属性不做要求。这时在满足他需求的条件下,有很多样本可以选择,考虑样本多样性的问题,最大程度上保证剩余样本的多样性,满足更多研究人员对不同属性样本的需求。在样本出库筛选样本时,由于没有样本多样性的考虑和相关方法,一般是在符合筛选条件的大量样本中顺序选择或者随机选择。顺序选择和随机选择都没有对样本多样性进行考量,很容易造成样本库中样本多样性的降低,样本属性单一,某一属性样本匮乏,出库样本研究结果偏差,难以满足后续研究人员的研究需求。
技术实现思路
本专利技术要解决的技术问题是提供一种提高样本库样本多样性的出库方法,以解决现有技术所存在的顺序选择出库样本和随机选择出库样本,易造成样本库中样本多样性降低的问题。为解决上述技术问题,本专利技术实施例提供一种提高样本库样本多样性的出库方法,包括:确定衡量样本库中样本多样性的指数;从预先确定的样本库中初步选出符合出库条件的样本;在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本。进一步地,确定的衡量样本库中样本多样性的指数为:其中,H表示样本库中样本多样性指数,Hj表示第j个属性的样本多样性,m表示样本库中样本的属性总数,n表示单一属性中样本的种类数,Pi表示样品库中属于第i种的个体的比例。进一步地,Pi=ni/N,其中,ni表示第i种个体数,N表示样品总个体数。进一步地,所述从预先确定的样本库中初步选出符合出库条件的样本包括:输入出库请求;根据输入的出库请求,从预先确定的样本库中初步选出符合出库条件的样本。进一步地,所述在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本包括:在符合出库条件的样本中,根据确定的样本库中样本多样性指数,利用基因遗传算法确定使样本库中剩余样本多样性最高的出库样本。进一步地,所述利用基因遗传算法确定使样本库中剩余样本多样性最高的出库样本包括:步骤1,初始化种群;步骤2,设置适应度函数为样本库中剩余样本的样本多样性指数,根据设置的适应度函数计算种群中个体的适应度值,其中,所述剩余样本为样本库所有样本除去选择的出库样本;步骤3,根据计算得到的个体的适应度值进行选择、交叉、变异,将选择、交叉、变异后产生的新种群返回到步骤2,计算新种群中个体的适应度值,并判断是否符合预设的终止准则,若符合,则输出适应度值最大的个体作为最佳个体,根据最佳个体确定出库样本,结束迭代,若不符合,则返回步骤2继续迭代。进一步地,所述初始化种群包括:随机生成初始种群,种群中每个个体由y个数字生成,每个数字表示选择的符合出库条件的样本编号,每个数字对应一个出库标识,出库标识用于标识对应的样本是否被选中出库,y表示符合出库条件的样本数。进一步地,种群中第i个个体xi的适应度函数fitness(xi)=Hi,其中,Hi表示样本库所有样品中除去xi中被选中的作为出库样本的样本多样性指数。进一步地,所述判断是否符合预设的终止准则,若符合,则输出适应度值最大的个体作为最佳个体,根据最佳个体确定出库样本,结束迭代包括:判断当前迭代次数是否为预设的最大迭代次数,若是,则输出适应度值最大的个体作为最佳个体,根据最佳个体对应的y个出库标识确定出库样本,结束迭代。本专利技术的上述技术方案的有益效果如下:上述方案中,确定衡量样本库中样本多样性的指数;从预先确定的样本库中初步选出符合出库条件的样本;在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本。这样,在出库样本能够很好的满足相关研究人员的研究条件,使研究无偏差的同时,又可以使样本库中剩余样本的多样性达到最高,可以满足更多研究人员的研究需求。附图说明图1为生物样本库入库出库流程示意图;图2为本专利技术实施例提供的提高样本库样本多样性的出库方法的流程示意图;图3为本专利技术实施例提供的遗传算法流程示意图;图4为本专利技术实施例提供的出库个数为k时的概率密度曲线示意图;图5为本专利技术实施例提供的极端情况下,出库个数k与出库成功率关系示意图;图6为本专利技术实施例提供的随机出库与应用遗传算法出库的多样性指数减少量对比示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本专利技术针对现有的顺序选择出库样本和随机选择出库样本,易造成样本库中样本多样性降低的问题,提供一种提高样本库样本多样性的出库方法。如图2所示,本专利技术实施例提供的提高样本库样本多样性的出库方法,包括:S101,确定衡量样本库中样本多样性的指数;S102,从预先确定的样本库中初步选出符合出库条件的样本;S103,在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本。本专利技术实施例所述的提高样本库样本多样性的出库方法,确定衡量样本库中样本多样性的指数;从预先确定的样本库中初步选出符合出库条件的样本;在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本。这样,在出库样本能够很好的满足相关研究人员的研究条件,使研究无偏差的同时,又可以使样本库中剩余样本的多样性达到最高,可以满足更多研究人员的研究需求。在前述提高样本库样本多样性的出库方法的具体实施方式中,进一步地,确定的衡量样本库中样本多样性的指数为:其中,H表示样本库中样本多样性指数,Hj表示第j个属性的样本多样性,m表示样本库中样本的属性总数,n表示单一属性中样本的种类数,Pi表示样品库中属于第i种的个体的比例,Pi=ni/N,ni表示第i种个体数,N表示样品总个体数。通过样本多样性指数公式可以计算出样本库中的样本多样性指数,由样本多样性指数的公式可知,本实施例提出的样本多样性指数是多维多属性的,能够衡量有多重属性的样本多样性。在前述提高样本库样本多样性的出库方法的具体实施方式中,进一步地,所述从预先确定的样本库中初步选出符合出库条件的样本包括:输入出库请求;根据输入的出库请求,从预先确定的样本库中初步选出符合出库条件的样本。本实施例中,假设在样本库中有10000个样本,每个样本记录的属性有20个,此时用户(例如,研究人员)本文档来自技高网...

【技术保护点】
1.一种提高样本库样本多样性的出库方法,其特征在于,包括:确定衡量样本库中样本多样性的指数;从预先确定的样本库中初步选出符合出库条件的样本;在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本。

【技术特征摘要】
1.一种提高样本库样本多样性的出库方法,其特征在于,包括:确定衡量样本库中样本多样性的指数;从预先确定的样本库中初步选出符合出库条件的样本;在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本。2.根据权利要求1所述的提高样本库样本多样性的出库方法,其特征在于,确定的衡量样本库中样本多样性的指数为:其中,H表示样本库中样本多样性指数,Hj表示第j个属性的样本多样性,m表示样本库中样本的属性总数,n表示单一属性中样本的种类数,Pi表示样品库中属于第i种的个体的比例。3.根据权利要求2所述的提高样本库样本多样性的出库方法,其特征在于,Pi=ni/N,其中,ni表示第i种个体数,N表示样品总个体数。4.根据权利要求1所述的提高样本库样本多样性的出库方法,其特征在于,所述从预先确定的样本库中初步选出符合出库条件的样本包括:输入出库请求;根据输入的出库请求,从预先确定的样本库中初步选出符合出库条件的样本。5.根据权利要求1所述的提高样本库样本多样性的出库方法,其特征在于,所述在符合出库条件的样本中,根据确定的样本库中样本多样性指数,确定使样本库中剩余样本多样性最高的出库样本包括:在符合出库条件的样本中,根据确定的样本库中样本多样性指数,利用基因遗传算法确定使样本库中剩余样本多样性最高的出库样本。6.根据权利要求5所述的提高样本库样本多样性的出库方法,其特征在于,所述利用基因遗传算法确定使样本库中剩余样本多样性最高的...

【专利技术属性】
技术研发人员:皇甫伟李佳轩
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1