The invention relates to a construction method and system, a gene detection knowledge base includes: association table construction association table and text mining database entity table, public database; construction association table scoring system; database construction, management system; the invention adopts semi automated semi artificial knowledge base building, both artificial structures the errors and omissions, and consider the credibility of differences in public database, integration of text mining algorithm and public database information acquisition software in automatic collection step, design the core library and the candidate database, and the calibration library will score fuzzy artificial entry verification, use of automatic updates to manage the contents of the database, the knowledge base management system design, and facilitate the content query, check, modify and manage the database version.
【技术实现步骤摘要】
一种基因检测知识库构建方法及系统
本专利技术涉及生物信息数据库领域,具体涉及一种基因检测知识库构建方法及系统。
技术介绍
二代测序技术的发展,使得人类可以越来越方便的获取最基础的基因组序列,了解自身的遗传信息。很多科学研究表明,人类很多疾病、表型和对药物的反应,都源于个体的遗传背景差异,也就是每个人DNA序列的差异。从2000年人类基因组计划开始,越来越多的人类基因组被破译,这些基因组构成了人类基因组的参考序列。基因检测的直接目的是,通过对个体的基因组进行测序(或者对部分区域测序),获取其和参考基因组DNA水平的序列差异,然后再通过和已有知识库的比对,来预测可能的疾病、表型、药物反应的关联。DNA序列变异和疾病、表型、药物反应关联信息的来源一般有:GWAS(Genome-wideassociationstudy):如果对一些有特定疾病、表型和药物使用的人群进行遗传信息挖掘,发现他们和参考序列的差异,那么可以推断,可能是这些DNA水平的差异,最终导致了疾病、表型或者是对药物的不同反应。传统的生物学研究中的生化、遗传学实验:通过传统的生物学研究方法也可以找到大量和疾病、表型或者是对药物反应的基因变异、蛋白质变异、酶变异等,将这些变异反映到DNA层面,是DNA水平中一类变异的发生。比如,一个疾病是由于一个蛋白质的跨膜区域发生了变异导致离子通道的异常,那么,编码这个蛋白质的DNA序列中,只要任何有DNA水平的变异影响了蛋白质的跨膜功能域,就可能导致这个疾病的发生。部分实验是在模式生物和细胞系完成。其他:通过研究疾病样本和对照样本中基因、蛋白质的表达量差异;通过计算 ...
【技术保护点】
一种基因检测知识库构建方法,其特征在于,所述方法包括:构建数据库实体表、公共数据库的关联表和文本挖掘的关联表;构建关联表打分系统;构建数据库匹配管理系统,便于专家查找、校验、修改关联表。
【技术特征摘要】
1.一种基因检测知识库构建方法,其特征在于,所述方法包括:构建数据库实体表、公共数据库的关联表和文本挖掘的关联表;构建关联表打分系统;构建数据库匹配管理系统,便于专家查找、校验、修改关联表。2.如权利要求1所述的基因检测知识库构建方法,其特征在于,在所述构建数据库实体表、公共数据库的关联表和文本挖掘的关联表之前,还包括:收集公共数据库并对其整理,并根据公共数据库确定数据库结构。3.如权利要求1所述的基因检测知识库构建方法,其特征在于,所述构建数据库实体表,包括含疾病、表型和环境因素表格的基因样本信息;所述环境因素表格为人工录入表格;在整合不同数据库ID之间的匹配信息时,对于生物学元素,采取定位到基因组位置,判定位置的交叉是否大于并集的0.5来判定;对于疾病的名称,则采用数据库本身录入的匹配表格,如果匹配不上,则放弃录入。4.如权利要求1所述的基因检测知识库构建方法,其特征在于,所述构建公共数据库的关联表,包括:将公共数据库分层;根据分层水平进行打分,打分范围在-1~1,大于0为正相关,小于0为负相关。5.如权利要求1所述的基因检测知识库构建方法,其特征在于,所述构建文本挖掘的关联表,包括:收集近25年之内的文献摘要;将文献摘要进行分类;对证据级别进行打分,打分包含:动词表达正负关系的打分;不同的文献分值进行叠加,并将绝对值相加,如果直接相加的分值小于阈值,则将证据级的文献摘要提取放入校验表;最终的得...
【专利技术属性】
技术研发人员:江月,
申请(专利权)人:上海基银生物科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。