一种基于深度学习的生物医学知识图谱构建方法技术

技术编号：37501092 阅读：13 留言：0更新日期：2023-05-07 09:37

本发明专利技术公开了一种基于深度学习的生物医学知识图谱构建方法，包括，获取数据集并进行预处理；对数据集进行训练并生成生物词向量；获取领域知识，根据领域知识构建领域知识扩展词特征；根据领域知识扩展词特征、预处理后的数据集构建多信息实体数据集；构建基于主动学习的文本分类模型，根据训练集训练文本分类模型，获得训练后的文本分类模型；根据训练后的文本分类模型对多信息实体数据集进行分类，构建基于提示机制的命名实体识别模型和关系抽取模型，获取各类多信息实体数据集中实体类别和实体之间的关系并构建生物医学的知识图谱。提高训练数据的准确度，改善特定领域训练数据集不充足的问题，提高了生物医学文本分类的精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的生物医学知识图谱构建方法

[0001]本专利技术涉及生物医学信息抽取领域，尤其涉及一种基于深度学习的生物医学知识图谱构建方法。

技术介绍

[0002]随着互联网时代的到来，万维网上的信息资源大量涌现，而最近新兴的大规模网络集群技术让海量文本中的知识挖掘成为可能。近年来，如何利用日益成熟的科学技术从大规模结构化文本中抽取实用的信息成为一项重要的科学议题。
[0003]在生物信息领域，很多生物实验需要特殊的活体样本和大量时间来观测生物的变化过程，这往往需要昂贵的代价。特别是新冠病毒(COVID
‑
19)出现后，相关的生物医学文献数量激增，每月增幅近上万篇，很多期刊、网站发专门布了新冠医疗板块。因此，如何合理利用现有的科学研究文献，挖掘、抽取相关的生物信息至关重要。
[0004]生物医学信息抽取技术主要是利用数据挖掘技术自动的从非结构化生物医学文献中抽取隐含的生物关联知识，主要有以下几个分支：生物医学文本分类(BiomedicalTextClassification)、生物医学命名实体识别(Biomedical NamedEntityRecognition)、生物医学实体关系抽取(BiomedicalEntity InteractionExtraction)等。生物医学信息抽取技术以更具表现力的结构化形式揭示生物学过程的本质意义，对生物医学领域数据库的构建、知识图谱的构建、药物的研发以及疾病的诊断和治疗都具有重要意义。
[0005]目前存在以下问题：生物医学文本标...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的生物医学知识图谱构建方法，其特征在于，包括，步骤一、获取生物医学文本数据集并进行预处理；步骤二、利用生物医学文本处理工具BioBERT对生物医学文本数据集进行训练并生成生物词向量；步骤三、通过面向生物医学的自然语言处理工具MetaMap获取UMLS专家词典中的领域知识，根据领域知识构建领域知识扩展词特征；步骤四、根据领域知识扩展词特征、预处理后的生物医学文本数据集构建多信息实体数据集，所述多信息实体数据包括实体名称、生物词向量、词性、实体类型以及领域知识扩展词特征；步骤五、构建基于主动学习的文本分类模型，获取LitCovid文献数据，将LitCovid文献数据作为训练集，根据训练集训练文本分类模型，获得训练后的文本分类模型；步骤六、根据训练后的文本分类模型对多信息实体数据集进行分类，构建基于Prompt机制的命名实体识别模型，根据基于Prompt机制的命名实体识别模型对分类后的多信息实体数据集进行实体类别的识别，获取各类多信息实体数据集的实体类别，构建基于Prompt机制的关系抽取模型，根据基于Prompt机制的关系抽取模型对分类后的多信息实体数据集进行关系抽取，获取各类多信息实体数据集中实体之间的关系，根据各类多信息实体数据集的实体类别和实体之间的关系构建生物医学的知识图谱。2.根据权利要求1所述的一种基于深度学习的生物医学知识图谱构建方法，其特征在于，所述步骤一包括从PubMed数据库下载生物医学文献并将其作为生物医学文本数据集；将生物医学文本数据集中非文本格式文献转换为文本文档，并进行Unicode编码；利用NLTK工具对文本文档中的文本进行分段、分句处理；通过生物医学领域的StanfordPa...

【专利技术属性】
技术研发人员：郑洁琼，何馨宇，孙璐，王洋，刘春麟，
申请(专利权)人：大连东软信息学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人