【技术实现步骤摘要】
医学领域知识图谱的构建方法、装置、设备及存储介质
本专利技术涉及知识图谱
,特别是涉及一种医学领域知识图谱的构建方法、装置、设备及存储介质。
技术介绍
医学知识图谱对于医学基础研究、智慧医疗、临床诊断决策等方面都有重要的意义,此外,医学知识图谱的应用也非常广泛,比如基于医学知识图谱的智能搜索、智能问答、智能推荐、辅助诊断等方面。但是,目前市场上高质量的医学领域知识图谱较少,大部分都是医学领域细分的知识图谱,比如基因-疾病-靶标知识图谱、基因-物质-交互关系知识库等,目前还没有比较全面的覆盖各种类型的医学知识的高质量医学知识图谱。目前高质量的医学知识图谱的构建方式主要还是基于专家构建,专家构建的知识图谱质量虽高,但覆盖的医学知识很少。现有的构建医学知识图谱主要思路是从医学文献中进行关系抽取获取知识构建知识图谱,但是关系抽取模型标签数据集的标注获取同样需要花费大量的专家人力,而且目前最优的基于深度学习关系抽取效果离真实可用还有很大距离。
技术实现思路
本专利技术提供一种医学领域知识图谱的构建方法 ...
【技术保护点】
1.一种医学领域知识图谱的构建方法,其特征在于,包括:/n获取通用知识图谱中的全部三元组集合,并从所述三元组集合中获取待识别三元组,从所述待识别三元组中确定待识别第一实体和待识别第二实体;/n采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体,所述医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层;/n当所述待识别第一实体和所述待识别第二实体同时为医学领域实体时,确定所述待识别三元组为目标三元组;/n将所述目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三 ...
【技术特征摘要】
1.一种医学领域知识图谱的构建方法,其特征在于,包括:
获取通用知识图谱中的全部三元组集合,并从所述三元组集合中获取待识别三元组,从所述待识别三元组中确定待识别第一实体和待识别第二实体;
采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体,所述医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层;
当所述待识别第一实体和所述待识别第二实体同时为医学领域实体时,确定所述待识别三元组为目标三元组;
将所述目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱。
2.根据权利要求1所述的构建方法,其特征在于,所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤包括:
采用所述医学领域实体识别模型识别所述待识别第一实体是否为医学领域实体;
当所述医学领域实体识别模型输出第一预设阈值时,则确定所述待识别第一实体为医学领域实体,当所述医学领域实体识别模型输出第二预设阈值时,则确定所述待识别第一实体为非医学领域实体;
采用医学领域实体识别模型识别所述待识别第二实体是否为医学领域实体;
当所述医学领域实体识别模型输出第一预设阈值时,则确定所述待识别第二实体为医学领域实体,当所述医学领域实体识别模型输出第二预设阈值时,则确定所述待识别第二实体为非医学领域实体。
3.根据权利要求1所述的构建方法,其特征在于,在所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤之前还包括:
构建所述医学领域实体识别模型;
对所述医学领域实体识别模型进行训练。
4.根据权利要求3所述的构建方法,其特征在于,所述对所述医学领域实体识别模型进行训练的步骤包括:
获取所述待识别第一实体或所述待识别第二实体的描述文本信息,所述描述文本信息包括多个词汇;
对所述描述文本信息进行嵌入处理,获得每个词汇的词向量和词性向量;
将所述词向量和所述词性向量进行串联拼接处理,获得拼接向量;
将所述拼接向量输入循环神经网络中学习每个词汇的上下文语义,获得所述词汇的隐藏向量;
采用注意力机...
【专利技术属性】
技术研发人员:张圣,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。