当前位置: 首页 > 专利查询>李明浩专利>正文

基于数据库数据匹配、排序的实验样品初步鉴定方法技术

技术编号:2847483 阅读:207 留言:0更新日期:2012-04-11 18:40
一种基于数据库数据匹配、排序的实验样品初步鉴定方法。通过本方法配合其他实验技术,可快速廉价地鉴定出实验样品中是否含有已知成分,初步分析实验样品的成分组成,从而缩小进一步实验的处理范围,对接下来的实验环节做出调整,或预选出最佳的实验方案。本发明专利技术采用的技术方案是:首先,根据需要抓取公共数据库的数据,准备完备整齐的资料数据。之后,根据具体目的确定数据匹配、排序所依据的条件。最后,选择合适的实验方法测定样品的特征数据,通过特征数据与资料数据的匹配、排序得到初步的鉴定结论。本发明专利技术所采取的数据匹配、排序方法能够克服误差和精确度的局限性对样品数据与资料数据的对比匹配带来的影响。

【技术实现步骤摘要】

本专利技术属于生物信息学实验辅助
,特别涉及实验样品的鉴定。
技术介绍
目前,来自全球各个科研单位的越来越多的实验数据通过国际数据库提供共享。充分利用这些数据,可以避免无谓重复他人已经做过的实验。此类实验最容易出现在研究过程的探索阶段,为了鉴定样品,研究者通常不可避免要进行一系列他人已经做过的实验,为此付出大量时间和经费。事实上,与质谱鉴定方法类似,仅通过一些简单、廉价的实验(例如双向电泳)就可以取得样品的某些特征数据(例如蛋白质的分子量和等电点),与已有资料数据进行对比匹配就可能初步判断样品的成分,缩小进一步实验的处理范围,对接下来的实验环节做出调整,或预选出最佳的实验方案,从而缩短研究、开发的周期,节省人力物力。不仅如此,通过这样的数据匹配还可以初步验证某些假设推断,并有助于提出新的假设推断。但与质谱实验取得的高精度数据不同,一些简单、廉价的常规实验取得的结果除了定性结论以外,通常是统计意义上精确度有限的连续型数值,对于这类数据来说,误差和精确度的局限性对数据与资料数据的对比匹配带来的影响是非常显著的,因而传统的鉴定方法始终未能充分利用现有的数据资源,需要一种新的方法来达成上述目的。
技术实现思路
本专利技术的目的在于确立一种,从而可以仅付出少量成本就实现对实验样品成分的初步鉴定。通过本方法配合其他实验技术,可快速廉价的鉴定出实验样品中是否含有已知成分,初步分析实验样品的成分组成,从而缩小进一步实验的处理范围,对接下来的实验环节做出调整,或预选出最佳的实验方案。本专利技术采用的技术方案是首先,根据需要抓取公共数据库的数据,准备完备整齐的资料数据。之后,根据具体目的确定数据匹配、排序所依据的条件。最后,选择合适的实验方法测定样品的特征数据,通过特征数据与资料数据的匹配、排序得到初步的鉴定结论。本专利技术所采取的数据匹配、排序方法能够克服误差和精确度的局限性对样品数据与资料数据的对比匹配带来的影响。本专利技术所采取的数据匹配、排序方法将作为对比匹配依据的实验数据分为两类,一种是文字描述性的数据(称为描述性条件,descriptive restriction);另一种是数值型数据(称为数字条件,numerical restriction),即统计意义上的连续型数值(continuous number,度量数值measurement number),统计意义上的离散型数值(discrete number,计数数值count number)则也被视为文字描述性的数据。在进行数据对比匹配的过程中,对这两种条件的处理方式是不同的对于描述性条件通常要进行术语的标准化,即将所有可能的描述性条件归纳为有限条意义明确的标准术语。在实际应用中通常根据数据内容本身的需要借用业界熟悉的成熟的术语方案。单独使用某一条意义明确的标准术语不能满足所有的匹配要求,因而本方法提供了用来组合标准化术语的语法,该语法称为描述性条件语法。对于数字条件的匹配、排序,为了克服误差或精度局限性带来的错误,返回的是根据所有参与匹配的数字条件综合排序的结果列表。最可能符合条件者将位于排序结果列表的顶部,次者次之,依次类推。这样就有效地包容了因误差造成的匹配错误,即使经过验证位于列表最顶部的并非想要的结果,但有可能排在第二位的就是,整个列表的参考价值仍然不受影响。数字条件通常不止一个。结果列表给出的是根据所有参与匹配的数字条件综合排序的结果。一般默认所有参与匹配的数字条件对于排序结果的影响(称为权重)是均等的,如果根据实际情况明确认为各数字条件的权重不均等,可以另行设定权重比例。匹配、排序条件可繁可简,操作非常灵活。对于所有条件俱全的情况来说,匹配、排序过程是首先根据描述性条件给出所有符合条件的数据项目,以此作为根据数字条件匹配的范围。然后根据各项数据与数字条件的目标值的接近程度进行综合排序。对于只使用部分条件的情况,如果放弃了描述性条件,保留数字条件,则对整个数据库进行根据数字条件的匹配、排序;如果放弃了所有数字条件,只保留描述性条件,则只给出符合描述性条件的结果列表,不进行排序。依据数字条件匹配的排序过程是这样实现的(由实验取得的样品特征数值称为目标数值)(1)取得资料数据各数据记录的各个数字条件的数值与相应目标数值的差的绝对值。(2)取得资料数据各数据记录的某个数字条件的数值与相应目标数值的差的绝对值中的最大值,以各绝对值除以此最大值,得到资料数据各数据记录此数字条件的排序分数。(3)依据资料数据各数据记录的各个数字条件的排序分数进行综合排序。排序原则是①分数和较小的数据记录排在前面;②分数和相等的,分数方差(如果只有两个数字条件,实际简化为分数差)较小的排在前面。③对于有权重要求的排序,分数先乘上权重值再参与排序。本专利技术是通过简单、廉价的常规实验取得实验样品特征数据与公共数据资料匹配从而初步鉴定样品的一种新方法,具有以下优点(1)实验费用低廉。(2)能充分利用现有数据资料。(3)鉴定过程所用时间短,步骤简单。(4)作为初步鉴定,本方法透明可靠,节省费用同时不损失最终结论的可靠性。(6)操作灵活,可适应多种需要。(7)容易开发出基于本方法的商品化数据库产品。样品的初步鉴定对科学研究非常重要,特别是生命科学的研究。因此,本方法很有可能成为一种科学研究的通用方法,具有广阔的应用前景。附图说明图1在具体实施例《Bound0酵母蛋白Eureka预选器数据库》(1.1版)中进行放弃描述性条件的匹配、排序的操作界面及返回结果的计算机屏幕截图。具体实施例方式实施例基于本专利技术实现的《Bound0酵母蛋白Eureka预选器数据库》可以为有关研究带来方便。(1)Bound0酵母蛋白Eureka预选器数据库的数据内容整合了SGD数据库(Saccharomyces GenomeDatabase,酵母基因组库http//www.yeastgenome.org/)中的部分数据。共包含6713个蛋白的信息。(2)在Bound0酵母蛋白Eureka预选器数据库(1.1版)中,可用的描述性条件是蛋白质充当的细胞组分、参与的生物过程、分子功能等描述性特征,借用了Gene Ontology(GO)annotation(基因概念体系注释http//www.geneontology.org)作为标准化术语方案。描述性条件语法的基本陈述句为GO=GOID(GOID是一个数字,表示基因产物的某种特征),此外还实现了类似Xpath语言的组合语法和部分函数。(例如GO=6888or(GO=137and GO=5642)将返回75个符合条件的结果)(3)在Bound0酵母蛋白Eureka预选器数据库(1.1版)中,实现了两个数字条件蛋白质的分子量和等电点。(4)在Bound0酵母蛋白Eureka预选器数据库(1.1版)的EurekaPreselector操作窗口内将DR(DescriptiveRestriction描述性条件)、NR(Numerical Restriction数字条件)、MW(分子量)、PI(等电点)四处的复选框(图1)都选中时,表示所有的条件都参与匹配、排序。如果取消选中某一个复选框,表示放弃这个条件。如果取消选中NR复选框,表示放弃所有的数字条件。如果放弃了描述性条件,保留数字本文档来自技高网...

【技术保护点】
一种基于数据库数据匹配、排序的实验样品初步鉴定方法。其特征是:首先,根据需要抓取公共数据库的数据,准备完备整齐的资料数据。之后,根据具体目的确定数据匹配、排序所依据的条件。最后,选择合适的实验方法测定样品的特征数据,通过特征数据与资料数据的匹配、排序得到初步的鉴定结论。

【技术特征摘要】
1.一种基于数据库数据匹配、排序的实验样品初步鉴定方法。其特征是首先,根据需要抓取公共数据库的数据,准备完备整齐的资料数据。之后,根据具体目的确定数据匹配、排序所依据的条件。最后,选择合适的实验方法测定样品的特征数据,通过特征数据与资料数据的匹配、排序得到初步的鉴定结论。2.按照权利要求1所述的实验样品初步鉴定方法,其特征在于其所采取的数据匹配、排序方法将作为匹配、排序条件的实验数据分为两类,一种是文字描述性的数据,作为描述性条件;另一种是数值型数据,即统计意义上的连续型数值,作为数字条件。3.按照权利要求1所述的实验样品初步鉴定方法,其特征是其所采取的数据匹配、排序方法对于按照权利要求2所述的数字条件的匹配、排序,返回的是根据所有参与匹配的数字条件综合排序的结果。4.按照权利要求1所述的实验样品初步鉴定方法,其特征是其所采取的数据匹配、排序方法对于按照权利要求2所述的数字条件的匹配、排序,通常默认所有参与匹配的数字条件对于排序结果的影响(称为权重)是均等的,如果根据实际情况明确认为各数字条件的权重不均等,可以另行设定权重比例。5.按照权利要求1所述的实验样品初步鉴定方法,其特征是其所采取的数据匹配、排序方法对于按照权利要求2所述的数字条件的匹配、排序过程是这样实现的(由实验取得的样品特征数值称为目标数值)(1)取得资料数据各数据记录的各个数字条件的数值与相应目标数值的差的绝对...

【专利技术属性】
技术研发人员:李明浩
申请(专利权)人:李明浩
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利