一种基于深度学习的生物医学知识图谱构建方法技术

技术编号:37501092 阅读:13 留言:0更新日期:2023-05-07 09:37
本发明专利技术公开了一种基于深度学习的生物医学知识图谱构建方法,包括,获取数据集并进行预处理;对数据集进行训练并生成生物词向量;获取领域知识,根据领域知识构建领域知识扩展词特征;根据领域知识扩展词特征、预处理后的数据集构建多信息实体数据集;构建基于主动学习的文本分类模型,根据训练集训练文本分类模型,获得训练后的文本分类模型;根据训练后的文本分类模型对多信息实体数据集进行分类,构建基于提示机制的命名实体识别模型和关系抽取模型,获取各类多信息实体数据集中实体类别和实体之间的关系并构建生物医学的知识图谱。提高训练数据的准确度,改善特定领域训练数据集不充足的问题,提高了生物医学文本分类的精度。度。度。

【技术实现步骤摘要】
一种基于深度学习的生物医学知识图谱构建方法


[0001]本专利技术涉及生物医学信息抽取领域,尤其涉及一种基于深度学习的生物医学知识图谱构建方法。

技术介绍

[0002]随着互联网时代的到来,万维网上的信息资源大量涌现,而最近新兴的大规模网络集群技术让海量文本中的知识挖掘成为可能。近年来,如何利用日益成熟的科学技术从大规模结构化文本中抽取实用的信息成为一项重要的科学议题。
[0003]在生物信息领域,很多生物实验需要特殊的活体样本和大量时间来观测生物的变化过程,这往往需要昂贵的代价。特别是新冠病毒(COVID

19)出现后,相关的生物医学文献数量激增,每月增幅近上万篇,很多期刊、网站发专门布了新冠医疗板块。因此,如何合理利用现有的科学研究文献,挖掘、抽取相关的生物信息至关重要。
[0004]生物医学信息抽取技术主要是利用数据挖掘技术自动的从非结构化生物医学文献中抽取隐含的生物关联知识,主要有以下几个分支:生物医学文本分类(BiomedicalTextClassification)、生物医学命名实体识别(Biomedical NamedEntityRecognition)、生物医学实体关系抽取(BiomedicalEntity InteractionExtraction)等。生物医学信息抽取技术以更具表现力的结构化形式揭示生物学过程的本质意义,对生物医学领域数据库的构建、知识图谱的构建、药物的研发以及疾病的诊断和治疗都具有重要意义。
[0005]目前存在以下问题:生物医学文本标注语料规模有限,语义信息相对不足,在一定程度上制约了生物实体关系抽取的性能;生物医学文献文本训练数据量不足,领域专家标注生物医学数据成本极高,人工标注的训练数据集中存在漏标、错标问题,通过自动标注的模型泛化能力低。

技术实现思路

[0006]本专利技术提供一种基于深度学习的生物医学知识图谱构建方法,以克服上述技术问题。
[0007]一种基于深度学习的生物医学知识图谱构建方法,包括,
[0008]步骤一、获取生物医学文本数据集并进行预处理;
[0009]步骤二、利用生物医学文本处理工具BioBERT对生物医学文本数据集进行训练并生成生物词向量;
[0010]步骤三、通过面向生物医学的自然语言处理工具MetaMap获取UMLS专家词典中的领域知识,根据领域知识构建领域知识扩展词特征;
[0011]步骤四、根据领域知识扩展词特征、预处理后的生物医学文本数据集构建多信息实体数据集,所述多信息实体数据包括实体名称、生物词向量、词性、实体类型以及领域知识扩展词特征;
[0012]步骤五、构建基于主动学习的文本分类模型,获取LitCovid文献数据,将LitCovid文献数据作为训练集,根据训练集训练文本分类模型,获得训练后的文本分类模型;
[0013]步骤六、根据训练后的文本分类模型对多信息实体数据集进行分类,构建基于Prompt机制的命名实体识别模型,根据基于Prompt机制的命名实体识别模型对分类后的多信息实体数据集进行实体类别的识别,获取各类多信息实体数据集的实体类别,构建基于Prompt机制的关系抽取模型,根据基于Prompt机制的关系抽取模型对分类后的多信息实体数据集进行关系抽取,获取各类多信息实体数据集中实体之间的关系,根据各类多信息实体数据集的实体类别和实体之间的关系构建生物医学的知识图谱。
[0014]优选地,所述步骤一包括从PubMed数据库下载生物医学文献并将其作为生物医学文本数据集;将生物医学文本数据集中非文本格式文献转换为文本文档,并进行Unicode编码;利用NLTK工具对文本文档中的文本进行分段、分句处理;通过生物医学领域的StanfordParser对文本文档进行分词和句法解析并获得词性、实体类型。
[0015]优选地,所述获得训练后的文本分类模型包括根据训练集训练文本分类模型,获得训练集中样本的第一预测置信度和第一预测标签,判断第一预测标签与训练集中的样本标签是否一致,当两者不一致时且第一预测置信度高于设定的阈值时,将样本数据标记为误标数据,并将误标数据、样本数据的预测标签存储在第一待标注数据集合中,根据所述文本分类模型对第一待标注数据集合进行预测,获取第一待标注数据集合中每个样本的第二预测标签和第二预测置信度,当样本的第二预测置信度大于等于设定的阈值时,将训练集中所述样本对应的样本标签替换为第二预测标签,并删除第一待标注数据集合中的所述样本,当样本的第一预测置信度低于设定的阈值时,将第一待标注数据集合中的样本数据存储在第二待标注数据集合中,通过人工确认第二待标注数据集合中的预测标签是否正确,并对错误的预测标签进行修正,将修正后的第二待标注数据集合添加至训练集中,根据训练集再次训练文本分类模型,获得训练后的文本分类模型。
[0016]优选地,所述文本分类模型为深度学习模型。
[0017]优选地,所述基于Prompt机制的命名实体识别模型中采用TemplateNER方法预测实体类别。
[0018]优选地,所述基于Prompt机制的关系抽取模型中采用AdaPrompt方法获取多信息实体数据集中实体之间的关系。
[0019]本专利技术提供一种基于深度学习的生物医学知识图谱构建方法,提出了一种基于领域知识的细粒度、多信息词向量表示,利用BioBert训练生物医学领域相关词向量,并在此基础上结合了实体类型、词性、位置信息、字符级向量构成了更加全面和细粒度的词向量表示。通过主动学习技术,在训练过程中对训练数据中对训练数据的重要程度加以区分,有效减少人工标注成本、提高训练数据的准确度,改善特定领域训练数据集不充足的问题,进一步提高生物医学文本分类的精度;利用基于Prompt的生物医学实体关系抽取方法,采用自适应标签词选择机制,根据具体语义自动生成合适的Prompt,进一步提高实体关系抽取整体性能。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术方法流程图。
具体实施方式
[0022]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]图1为本专利技术方法流程图,如图1所示,本实施例的方法可以包括:
[0024]步骤一、获取生物医学文本数据集并进行预处理,包括从PubMed数据库下载生物医学文献并将其作为生物医学文本数据集;将生物医学文本数据集中非文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的生物医学知识图谱构建方法,其特征在于,包括,步骤一、获取生物医学文本数据集并进行预处理;步骤二、利用生物医学文本处理工具BioBERT对生物医学文本数据集进行训练并生成生物词向量;步骤三、通过面向生物医学的自然语言处理工具MetaMap获取UMLS专家词典中的领域知识,根据领域知识构建领域知识扩展词特征;步骤四、根据领域知识扩展词特征、预处理后的生物医学文本数据集构建多信息实体数据集,所述多信息实体数据包括实体名称、生物词向量、词性、实体类型以及领域知识扩展词特征;步骤五、构建基于主动学习的文本分类模型,获取LitCovid文献数据,将LitCovid文献数据作为训练集,根据训练集训练文本分类模型,获得训练后的文本分类模型;步骤六、根据训练后的文本分类模型对多信息实体数据集进行分类,构建基于Prompt机制的命名实体识别模型,根据基于Prompt机制的命名实体识别模型对分类后的多信息实体数据集进行实体类别的识别,获取各类多信息实体数据集的实体类别,构建基于Prompt机制的关系抽取模型,根据基于Prompt机制的关系抽取模型对分类后的多信息实体数据集进行关系抽取,获取各类多信息实体数据集中实体之间的关系,根据各类多信息实体数据集的实体类别和实体之间的关系构建生物医学的知识图谱。2.根据权利要求1所述的一种基于深度学习的生物医学知识图谱构建方法,其特征在于,所述步骤一包括从PubMed数据库下载生物医学文献并将其作为生物医学文本数据集;将生物医学文本数据集中非文本格式文献转换为文本文档,并进行Unicode编码;利用NLTK工具对文本文档中的文本进行分段、分句处理;通过生物医学领域的StanfordPa...

【专利技术属性】
技术研发人员:郑洁琼何馨宇孙璐王洋刘春麟
申请(专利权)人:大连东软信息学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1