一种基因检测知识库构建方法及系统技术方案

技术编号:16216774 阅读:25 留言:0更新日期:2017-09-15 22:59
本发明专利技术涉及一种基因检测知识库构建方法及系统,包括:构建数据库实体表、公共数据库的关联表和文本挖掘的关联表;构建关联表打分系统;构建数据库匹配管理系统;本发明专利技术采用半自动化半人工的方式进行知识库搭建,既考虑了人工搭建的偏差和疏漏,又考虑了公共数据库的可信度差异,整合了文本挖掘算法和公共数据库信息采集软件在自动化收集的步骤中,设计了核心库和候选库,并有校验库将分值模糊的条目进行人工校验,采用了自动更新的方式对数据库内容进行管理,设计匹配的知识库管理系统,便于对数据库进行内容查询、校验、修改和版本管理。

Knowledge base construction method and system for gene detection

The invention relates to a construction method and system, a gene detection knowledge base includes: association table construction association table and text mining database entity table, public database; construction association table scoring system; database construction, management system; the invention adopts semi automated semi artificial knowledge base building, both artificial structures the errors and omissions, and consider the credibility of differences in public database, integration of text mining algorithm and public database information acquisition software in automatic collection step, design the core library and the candidate database, and the calibration library will score fuzzy artificial entry verification, use of automatic updates to manage the contents of the database, the knowledge base management system design, and facilitate the content query, check, modify and manage the database version.

【技术实现步骤摘要】
一种基因检测知识库构建方法及系统
本专利技术涉及生物信息数据库领域,具体涉及一种基因检测知识库构建方法及系统。
技术介绍
二代测序技术的发展,使得人类可以越来越方便的获取最基础的基因组序列,了解自身的遗传信息。很多科学研究表明,人类很多疾病、表型和对药物的反应,都源于个体的遗传背景差异,也就是每个人DNA序列的差异。从2000年人类基因组计划开始,越来越多的人类基因组被破译,这些基因组构成了人类基因组的参考序列。基因检测的直接目的是,通过对个体的基因组进行测序(或者对部分区域测序),获取其和参考基因组DNA水平的序列差异,然后再通过和已有知识库的比对,来预测可能的疾病、表型、药物反应的关联。DNA序列变异和疾病、表型、药物反应关联信息的来源一般有:GWAS(Genome-wideassociationstudy):如果对一些有特定疾病、表型和药物使用的人群进行遗传信息挖掘,发现他们和参考序列的差异,那么可以推断,可能是这些DNA水平的差异,最终导致了疾病、表型或者是对药物的不同反应。传统的生物学研究中的生化、遗传学实验:通过传统的生物学研究方法也可以找到大量和疾病、表型或者是对药物反应的基因变异、蛋白质变异、酶变异等,将这些变异反映到DNA层面,是DNA水平中一类变异的发生。比如,一个疾病是由于一个蛋白质的跨膜区域发生了变异导致离子通道的异常,那么,编码这个蛋白质的DNA序列中,只要任何有DNA水平的变异影响了蛋白质的跨膜功能域,就可能导致这个疾病的发生。部分实验是在模式生物和细胞系完成。其他:通过研究疾病样本和对照样本中基因、蛋白质的表达量差异;通过计算生物学的方法进行功能预测等。以上,证据来源的不同,可信度也会不同,和疾病等关联的元素也不相同。应用到DNA水平的序列变异和疾病的关系,会需要不同的记录和后续处理方式,需要设计并搭建好知识库。知识库搭建是构建基因检测分析流程中的核心环节。但是现在的知识库存在以下问题:搭建一个知识库需要耗费人力物力,一般需要整合公共数据库,加上专业人员阅读科研文献完成。公共数据库层次不齐,并且人工收集总会存在一定的偏差。很多知识库会将DNA、RNA、蛋白质等不同层面的信息混淆,比如GWAS是针对DNA层面的结果,而一些疾病相关致病基因的研究是在蛋白质层面,一些和药物代谢相关的研究是在酶和代谢物层面,虽然最终会归到DNA层面的变异,但是在数据库搭建的过程中,应该事先进行区分,以便后续算法开发。基于文本挖掘等一系列的算法,自动搭建知识库,但是完全依靠算法构建的知识库假阳性率和假阴性率都很高,对后续的基因检测疾病风险分析有很大的影响。很多知识库搭建完成之后,有些已有关联条目也需要根据新科研成果而自动更新,但由于这些数据库固化的结构设计,自动更新很难实现。。很多知识库都会采用一些公用的数据库管理软件,对生物学背景的研究人员不方便使用。现有专利技术专利审核中的生物信息相关数据库,包含了:一种生物信息学数据库系统和数据处理方法(申请号:201410009130.1)和生物信息数据库的构建方法和装置(申请号:201410742604.3)其中,第一个专利技术中,公开了一种生物信息数据库系统和数据处理方法,可以实现生物信息学数据的统一管理。该系统中包含了样品、项目和实验模块,主要目的是方便实验的设计和数据处理,提高工作效率;第二个专利技术中,公开了一种构建生物信息数据库的方法和装置,主要是通过对PubMed摘要的文本挖掘,对疾病相关的文献摘要进行分解、根据突变正则表达式语义库进行基因和突变信息的提取和分类,构建疾病相关的语义库,确定基因突变的得分,最后构建生物信息数据库。
技术实现思路
针对现有技术中的不足,本专利技术的目的是提供一种基因检测知识库构建方法及系统,包括:提供基因检测相关知识库搭建方法,以及在数据库搭建完成之后,基于数据库的管理系统。本专利技术的目的是采用下述技术方案实现的:本专利技术提供一种基因检测知识库构建方法,其改进之处在于,所述方法包括:构建数据库实体表、公共数据库的关联表和文本挖掘的关联表;构建关联表打分系统;构建数据库匹配管理系统,便于专家查找、校验、修改关联表。进一步地,在所述构建数据库实体表、公共数据库的关联表和文本挖掘的关联表之前,还包括:收集公共数据库并对其整理,并根据公共数据库确定数据库结构。进一步地,所述构建数据库实体表,包括含疾病、表型和环境因素表格的基因样本信息;所述环境因素表格为人工录入表格;在整合不同数据库ID之间的匹配信息时,对于生物学元素,采取定位到基因组位置,判定位置的交叉是否大于并集的0.5来判定;对于疾病的名称,则采用数据库本身录入的匹配表格,如果匹配不上,则放弃录入。进一步地,所述构建公共数据库的关联表,包括:将公共数据库分层;根据分层水平进行打分,打分范围在-1~1,大于0为正相关,小于0为负相关。进一步地,所述构建文本挖掘的关联表,包括:收集近25年之内的文献摘要;将文献摘要进行分类;对证据级别进行打分,打分包含:动词表达正负关系的打分;不同的文献分值进行叠加,并将绝对值相加,如果直接相加的分值小于阈值,则将证据级的文献摘要提取放入校验表;最终的得分最大值为1分,最小为-1分。进一步地,根据公共数据库的关联表和文本挖掘的关联表构建关联表打分系统,包括:整合公共数据库挖掘得到的分值和文献挖掘得到的分值;最后的关联条目来自于上述两个来源,将所有关联条目根据关联分值进行汇总排序,设置阈值,分别放入核心关联表和候选关联表;如果公共数据库来源的条目和文献来源的条目分值差异大于阈值,则放入校验表;对于疾病有确定OR值的关联条目,如果不存在相互矛盾或OR值倍数差异在0.5~2之内,则直接录入核心关联表;如果存在,则放入校验表。进一步地,所述数据库匹配管理系统用于数据库查看、数据库搜索、数据库校验、数据库版本管理、log查询页面和操作标准页面。进一步地,在所述构建数据库匹配管理系统之后,还包括:数据库校验表的人工校验;校验工作将在数据库管理系统中进行条目浏览和手动修改。总上所述,本专利技术提供了一种基因检测知识库构建系统,其改进之处在于,所述系统包括:第一构建模块:用于构建数据库实体表、公共数据库的关联表和文本挖掘的关联表;第二构建模块:用于构建关联表打分系统;第三构建模块:用于构建数据库匹配管理系统。进一步地,所述系统还包括收集公共数据库并对其整理,并根据公共数据库确定数据库结构的收集模块。与最接近的现有技术相比,本专利技术提供的技术方案达到的有益效果是:1.采用半自动化半人工的方式进行知识库搭建,既考虑了人工搭建的偏差和疏漏,又考虑了公共数据库的可信度差异。2.采用了自动更新的方式对数据库内容进行管理。3.整合了文本挖掘算法和公共数据库信息采集软件在自动化收集的步骤中。4.设计了核心库和候选库,并有校验库对分值模糊的条目进行人工校验。5.设计了匹配的知识库管理系统,便于对数据库进行内容查询、校验、修改和版本管理。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其本文档来自技高网
...
一种基因检测知识库构建方法及系统

【技术保护点】
一种基因检测知识库构建方法,其特征在于,所述方法包括:构建数据库实体表、公共数据库的关联表和文本挖掘的关联表;构建关联表打分系统;构建数据库匹配管理系统,便于专家查找、校验、修改关联表。

【技术特征摘要】
1.一种基因检测知识库构建方法,其特征在于,所述方法包括:构建数据库实体表、公共数据库的关联表和文本挖掘的关联表;构建关联表打分系统;构建数据库匹配管理系统,便于专家查找、校验、修改关联表。2.如权利要求1所述的基因检测知识库构建方法,其特征在于,在所述构建数据库实体表、公共数据库的关联表和文本挖掘的关联表之前,还包括:收集公共数据库并对其整理,并根据公共数据库确定数据库结构。3.如权利要求1所述的基因检测知识库构建方法,其特征在于,所述构建数据库实体表,包括含疾病、表型和环境因素表格的基因样本信息;所述环境因素表格为人工录入表格;在整合不同数据库ID之间的匹配信息时,对于生物学元素,采取定位到基因组位置,判定位置的交叉是否大于并集的0.5来判定;对于疾病的名称,则采用数据库本身录入的匹配表格,如果匹配不上,则放弃录入。4.如权利要求1所述的基因检测知识库构建方法,其特征在于,所述构建公共数据库的关联表,包括:将公共数据库分层;根据分层水平进行打分,打分范围在-1~1,大于0为正相关,小于0为负相关。5.如权利要求1所述的基因检测知识库构建方法,其特征在于,所述构建文本挖掘的关联表,包括:收集近25年之内的文献摘要;将文献摘要进行分类;对证据级别进行打分,打分包含:动词表达正负关系的打分;不同的文献分值进行叠加,并将绝对值相加,如果直接相加的分值小于阈值,则将证据级的文献摘要提取放入校验表;最终的得...

【专利技术属性】
技术研发人员:江月
申请(专利权)人:上海基银生物科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1