一种基于NLP构建孟德尔遗传疾病分子诊断数据库的方法、设备、系统及可存储介质技术方案

技术编号:38762580 阅读:32 留言:0更新日期:2023-09-10 10:35
本发明专利技术涉及一种基于NLP构建孟德尔遗传疾病分子诊断数据库的方法、设备、系统及可存储介质。所述数据库构建的方法包括:获取与孟德尔遗传疾病相关的文献;基于NLP提取所述文献中的信息,所述文献中的信息包括孟德尔遗传疾病信息和孟德尔遗传疾病基因信息;将所述文献中的信息进行向量化表示,得到向量化表示的孟德尔遗传疾病信息和基因信息;基于所述向量化表示的孟德尔遗传疾病信息和基因信息,构建孟德尔遗传疾病分子诊断数据库。本发明专利技术构建的数据库基于研究前沿、数据全面可靠、可快速更新,为孟德尔遗传疾病分子诊断和治疗领域的研究人员、临床医生提供了宝贵资源,有重要的科研和临床价值。和临床价值。和临床价值。

【技术实现步骤摘要】
一种基于NLP构建孟德尔遗传疾病分子诊断数据库的方法、设备、系统及可存储介质


[0001]本专利技术涉及智能医疗领域,更具体地,涉及一种基于NLP构建孟德尔遗传疾病分子诊断数据库的方法、设备、系统、计算机可读存储介质及其应用。

技术介绍

[0002]遗传病按遗传方式可分为单基因病、多基因病、线粒体病和染色体病。单基因遗传病即孟德尔遗传病,是由一对等位基因控制的疾病。孟德尔遗传病患者不仅自己饱受疾病折磨,还有可能遗传给下一代,为了使孟德尔遗传病得到有效控制及干预治疗,分子诊断至关重要。下一代测序技术(NGS)在分子诊断中发挥了重要作用,NGS的数据分析依赖于表型和基因型相关联的研究成果。
[0003]现有表型和基因型关联数据库,比如人类基因突变数据库(HGMD)和NCBI临床突变数据库(ClinVar),数据来源于用户主动提交,审核依赖人工管理,数据库的时效性、全面性存在不足。因此,之前有研究人员开发了根据表型和基因型关系来自动检索相关文献的工具,例如AMELIE,该工具存在诸多不足:难以从PubMed中识别孟德尔疾病相关文章、从文章提取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于NLP构建孟德尔遗传疾病分子诊断数据库的方法,包括:获取与孟德尔遗传疾病相关的文献;基于NLP提取所述文献中的信息,所述文献中的信息包括孟德尔遗传疾病信息和孟德尔遗传疾病基因信息,所述疾病信息包括表型、疾病或遗传模式;所述基因信息包括致病基因、致病变异或变体影响;将所述文献中的信息进行向量化表示,得到向量化表示的孟德尔遗传疾病信息和基因信息;基于所述向量化表示的孟德尔遗传疾病信息和基因信息,构建孟德尔遗传疾病分子诊断数据库。2.根据权利要求1所述的基于NLP构建孟德尔遗传疾病分子诊断数据库的方法,其特征在于,所述获取与孟德尔遗传疾病相关的文献的具体方法为:获取孟德尔遗传疾病数据库中的信息,所述数据库中的信息包括孟德尔遗传疾病的描述信息和孟德尔遗传疾病基因的描述信息;将所述孟德尔遗传疾病的描述信息进行向量化表示,得到第一向量化表示的孟德尔遗传疾病的描述信息;将所述孟德尔遗传疾病基因的描述信息进行向量化表示,得到第二向量化表示的孟德尔遗传疾病基因的描述信息;获取医学文献,将所述文献进行向量化表示,得到第三向量化表示的文献;计算第一向量化表示的孟德尔遗传疾病的描述信息和第三向量化表示的文献的相似度,基于疾病的相似度筛选得到与孟德尔遗传疾病相关的文献;和/或计算第二向量化表示的孟德尔遗传疾病基因的描述信息和第三向量化表示的文献的相似度,基于基因的相似度筛选得到与孟德尔遗传疾病相关的文献;可选的,基于所述疾病的相似度和基因的相似度筛选得到与孟德尔遗传疾病相关的文献;可选的,将所述基于疾病的相似度筛选得到与孟德尔遗传疾病相关的文献和所述基于基因的相似度筛选得到与孟德尔遗传疾病相关的文献取交集,输出与孟德尔遗传疾病相关的文献。3.根据权利要求2所述的基于NLP构建孟德尔遗传疾病分子诊断数据库的方法,其特征在于,所述数据库采用下列中的一种或几种:OMIM、HGMD、Clinvar、SwissVar、InterVar;可选的,所述文献来自于下列数据库中的一种或几种:PubMed、CBM、CHKD、China CDC。4.根据权利要求2所述的基于NLP构建孟德尔遗传疾病分子诊断数据库的方法,其特征在于,将所述孟德尔遗传疾病的描述信息、所述孟德尔遗传疾病基因的描述信息和所述文献标准化处理;优选的,所述孟德尔遗传疾病的描述信息进行标准化处理是删除所述孟德尔遗传疾病信息中的以下子类:动物模型、生化特征、发病机制、群体遗传学、图谱、克隆、细胞遗传学、进化、基因功能、基因结构、基因疗法、异质性、历史、命名法;优选的,所述孟德尔遗传疾病基因的描述信息进行标准化处理是删除所述孟德尔遗传疾病基因信息中的以下子类:动物模型、生化特征、克隆、细胞遗传学、进化、基因功能、基因家族、基因结构、基因治疗、遗传变异性、异质性、历史、图谱、命名法、发病机制、人口遗传
学;优选的,所述文献进行标准化处理是保留文献的下列信息:标题、期刊、摘要、关键字。5.根据权利要求2所述的基于NLP构建孟德尔遗传疾病分子诊断数据库的方法,其特征在于,所述将所述孟德尔遗传疾病的描述信息进行向量化表示是对所述孟德尔遗传疾病的描述信息进行嵌入得到第一向量化表示的孟德尔遗传疾病的描述信息;优选的,采用NLP模型对所述孟德尔遗传疾病的描述信息进行嵌入得到第一向量化表示的孟德尔遗传疾病的描述信息;所述将所述孟德尔遗传疾病基因的描述信息进行向量化表示是所述孟德尔遗传疾病的描述信息进行嵌入得到第二向量化表示的孟德尔遗传疾病基因...

【专利技术属性】
技术研发人员:吴南陈泽夫范燃杨永鑫蔡继昊
申请(专利权)人:中国医学科学院北京协和医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1