System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及知识图谱,尤其涉及一种基于深度学习的医药知识图谱构建方法、装置及计算机可读介质。
技术介绍
1、医药知识图谱构建的意义在于为医药行业提供了一个全新的视角和解决方案,通过整合和分析大量数据,以图形方式展示实体之间的关系,医药知识图谱的构建将大大促进药物研发、支持临床决策、提升患者理解、促进知识共享与整合。
2、然而,医药知识图谱构建数据来源甚广,现有技术中的构建方法无法全面的提取多源数据的语义和结构信息,现有技术中医药知识图谱构建的全面性和准确度有待提高。
技术实现思路
1、本申请的一个目的是提供一种基于深度学习的医药知识图谱构建方法和装置,至少用以解决现有技术中医药知识图谱构建的全面性和准确度有待提高的技术问题。
2、为实现上述目的,本申请的一些实施例提供了以下几个方面:
3、第一方面,本申请提供了一种基于深度学习的医药知识图谱构建方法,包括:
4、步骤1、收集医药领域多源数据;
5、步骤2、将多源数据中的结构化数据预处理后存储到图形数据库;
6、步骤3、将多源数据中的非结构化数据利用深度学习处理得到实体和关系数据;
7、步骤4、基于获得的实体和关系数据构建三元组数据,将所述三元组数据存储到图形数据库;
8、所述将多源数据中的非结构化数据利用深度学习处理得到实体和关系数据包括:
9、将所述非结构化数据预处理后先经由语义模型bert-bi-lstm提取得到候选实体和语
10、第二方面,本申请的一些实施例还提供了一种基于深度学习的医药知识图谱构建装置,包括:
11、获取模块,用于收集医药领域多源数据;
12、第一处理模块,用于将多源数据中的结构化数据预处理后存储到图形数据库;
13、识别模块,用于将多源数据中的非结构化数据利用深度学习处理得到实体和关系数据;
14、第二处理模块,用于基于获得的实体和关系数据构建三元组数据,将所述三元组数据存储到图形数据库;
15、所述将多源数据中的非结构化数据利用深度学习处理得到实体和关系数据包括:
16、将所述非结构化数据预处理后先经由语义模型bert-bi-lstm提取得到候选实体和语义特征ft,再结合候选实体信息经由结构信息提取模型grn图循环网络提取得到图结构特征fg;对所述图结构特征fg进行动态时间规整池化得到增强图结构特征fg’,之后所述语义特征ft输入多头注意力模块提取得到ft’,然后将增强图结构特征fg’和多头注意力模块提取得到特征ft’组合记作组合特征向量fc,将fc输入激活层经由激活函数和线性处理处理得到fc’,接着,组合特征向量fc和fc’基于桥注意力机制进行线性连接,得到连接特征ff,t=α(tanh(w1·fc+w2·fc′)),ff=t·fc+(1-t)·fc′,w1、w2为权重参数在模型训练中学习确定;最终,连接特征被输入softmax()层进行识别,通过分类确定候选实体对应的关系类别,从而得到实体和关系对应数据。
17、第三方面,本申请的一些实施例还提供了一种计算机设备,其特征在于,所述设备包括:一个或多个处理器;以及存储有计算机程序指令的存储器,所述计算机程序指令在被执行时使所述处理器执行上述的方法。
18、第四方面,本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如上所述的方法。
19、相较于现有技术,本申请实施例提供的方案中,针对非结构化数据,将所述非结构化数据预处理后先经由语义模型bert-bi-lstm提取得到候选实体和语义特征ft,再结合候选实体信息经由结构信息提取模型grn图循环网络提取得到图结构特征fg;对所述图结构特征fg进行动态时间规整池化得到增强图结构特征fg’,之后所述语义特征ft输入多头注意力模块提取得到ft’,然后将增强图结构特征fg’和多头注意力模块提取得到特征ft’组合记作组合特征向量fc,将fc输入激活层经由激活函数和线性处理处理得到fc’,接着,组合特征向量fc和fc’基于桥注意力机制进行线性连接,得到连接特征ff,t=α(tanh(w1·fc+w2·fc′)),ff=t·fc+(1-t)·fc′,w1、w2为权重参数在模型训练中学习确定;最终,连接特征被输入softmax()层进行识别,通过分类确定候选实体对应的关系类别,从而得到实体和关系对应数据。上述方案,本申请不仅将语义特征和图结构特征进行提取并融合,提高了知识图谱的有效性,并且通过多头注意力和桥注意力机制的多注意力机制,以及本申请中设定的特定多注意力机制流程,提升了最终知识信息提取的准确度。
本文档来自技高网...【技术保护点】
1.一种基于深度学习的医药知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述动态时间规整池化具体为:其中,α为动态时间规整池化的权重,N表示节点数量,是第m个视图上第i个节点和第j个节点之间的邻接矩阵,wpool、bpool是池化操作权重和偏置,kj为节点j的初始节点表示。
3.根据权利要求1所述的方法,其特征在于,对识别实体结果进行优化,具体为:统计一个字符串转换到另一个字符串所需要的最少操作次数,作为两个实体的相似度值,将相似度值与预设的相似度阈值比较,若小于预设的相似度阈值,则将两个实体进行合并。
4.根据权利要求1所述的方法,其特征在于,所述预处理包括:
5.根据权利要求1所述的方法,其特征在于,还对三元组数据进行优化,具体为:根据三元组构建关系对偶图,基于PageRank方法计算三元组评分,将评分小于设定阈值的三元组数据删除。
6.根据权利要求1所述的方法,其特征在于,所述预处理还包括:对从非结构化数据进行清洗,接着进行聚类查重操作对数据进行过滤以排除不相关或荣誉的条目,将数据
7.根据权利要求1所述的方法,其特征在于,收集医药领域数据,添加标注制作数据集,基于所述数据集训练得到所述BERT-Bi-LSTM和GRN图循环网络。
8.一种基于深度学习的医药知识图谱构建装置,其特征在于,包括:
9.一种计算机设备,其特征在于,所述设备包括:
10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1-7任一项所述的方法。
...【技术特征摘要】
1.一种基于深度学习的医药知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述动态时间规整池化具体为:其中,α为动态时间规整池化的权重,n表示节点数量,是第m个视图上第i个节点和第j个节点之间的邻接矩阵,wpool、bpool是池化操作权重和偏置,kj为节点j的初始节点表示。
3.根据权利要求1所述的方法,其特征在于,对识别实体结果进行优化,具体为:统计一个字符串转换到另一个字符串所需要的最少操作次数,作为两个实体的相似度值,将相似度值与预设的相似度阈值比较,若小于预设的相似度阈值,则将两个实体进行合并。
4.根据权利要求1所述的方法,其特征在于,所述预处理包括:
5.根据权利要求1所述的方法,其特征在于,还对三元组数据进行优化,具体为:...
【专利技术属性】
技术研发人员:谢伟,
申请(专利权)人:迪普佰奥生物科技宁波有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。