System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及知识图谱技术,尤其涉及一种药品知识图谱构建方法、装置、设备及存储介质。
技术介绍
1、知识图谱包含了丰富的语义信息,以结构化的形式来表示真实世界中的实体或概念以及它们之间的关联关系,其本质是一张巨大的语义网络图,将海量知识以更直观的方式展示在用户面前。
2、目前知识图谱在互联网搜索及信息推荐系统中有较成熟的应用,但在药品领域尚无成熟公开的药品知识图谱。现有技术中虽然也有药品知识图谱的构建方法,但这些知识图谱都是依靠人工或正则表达式规则提取结构化数据来构建,人工的方法虽然提取的结构化知识比较精确,但是消耗人力、时间较多,并且人工长时间操作容易引起疲劳造成误差。
技术实现思路
1、本专利技术提供一种药品知识图谱构建方法、装置、设备及存储介质,以降低成本,提高准确度。
2、第一方面,本专利技术提供了一种药品知识图谱构建方法,包括:
3、获取药品说明书文本,并将所述药品说明书文本中的字符向量化,得到包括多个词向量的词向量序列;
4、采用多头注意力机制对所述词向量序列进行处理,得到包括多个特征向量的特征向量序列;
5、基于所述特征向量计算所述字符为每一实体标签的第一概率值,并基于所述第一概率值确定所述字符对应的实体;
6、基于所述特征向量和所述第一概率值计算所述实体与所述药品说明书文本中的其他实体的关系的第二概率值,并基于所述第二概率值确定所述实体与所述药品说明书文本中的其他实体的关系;
7、基
8、可选的,将所述药品说明书文本中的字符向量化,得到包括多个词向量的词向量序列,包括:
9、对所述药品说明书文本中的字符进行词嵌入,得到词嵌入向量;
10、对所述药品说明书文本中的字符进行位置嵌入,得到位置嵌入向量;
11、将所述词嵌入向量和所述位置嵌入向量进行融合,得到表示所述字符的词向量;
12、将多个所述字符的词向量按照词序排布,得到包括多个词向量的词向量序列。
13、可选的,采用多头注意力机制对所述词向量序列进行处理,得到包括多个特征向量的特征向量序列,包括:
14、将所述词向量序列输入包括多个依次堆叠的变换器的编码模块中进行处理,得到包括多个特征向量的特征向量序列,其中,所述变换器基于多头注意力机制对输入特征进行处理,前一所述变换器的输出特征作为后一所述变换器的输入特征。
15、可选的,所述变换器包括多头注意力层、第一归一化层、前馈层和第二归一化层,所述变换器基于多头注意力机制对输入特征进行处理过程如下:
16、在所述多头注意力层中基于多头注意力机制对输入特征进行处理,得到注意力特征;
17、融合所述注意力特征与所述输入特征,得到第一融合特征;
18、在所述第一归一化层中对所述第一融合特征进行归一化处理,得到第一归一化特征;
19、在所述前馈层中对所述第一归一化特征进行全连接映射,得到全连接特征;
20、融合所述第一归一化特征与所述全连接特征,得到第二融合特征;
21、在所述第二归一化层中对所述第二融合特征进行归一化处理,得到所述变换器的输出特征。
22、可选的,基于所述特征向量计算所述字符为每一实体标签的第一概率值,并基于所述第一概率值确定所述字符对应的实体,包括:
23、针对每一所述特征向量,将所述特征向量输入第一线性化层中进行线性化处理,得到第一空间向量;
24、将所述第一空间向量输入第一激活函数层中进行激活处理,得到所述字符为每一实体标签的第一概率值;
25、在所述第一概率值的最大值大于预设值时,将所述最大值对应的实体标签作为所述字符对应的实体。
26、可选的,基于所述特征向量和所述第一概率值计算所述实体与所述药品说明书文本中的其他实体的关系的第二概率值,并基于所述第二概率值确定所述实体与所述药品说明书文本中的其他实体的关系,包括:
27、针对每一所述特征向量,将所述特征向量输入第一线性化层中进行线性化处理,得到第一空间向量;
28、将所述第一空间向量输入第一激活函数层中进行激活处理,得到所述字符为每一实体标签的第一概率值;
29、在所述第一概率值的最大值大于预设值时,将所述最大值对应的实体标签作为所述字符对应的实体;
30、计算所述实体与所述药品说明书文本中的其他实体的相关性,得到相关性向量;
31、将所述相关性向量输入第二线性化层中进行线性化处理,得到第二空间向量;
32、将所述第二空间向量输入第二激活函数层中进行激活处理,得到所述实体与所述药品说明书文本中的其他实体的关系的第二概率值;
33、将所述第二概率值中的最大值对应的关系作为所述实体与目标实体的关系,其中,目标实体为所述第二概率值中的最大值对应的实体。
34、可选的,基于所述词向量序列自回归生成用于描述所述实体与所述药品说明书文本中的其他实体的关系的描述文本,包括:
35、融合所述词向量序列和初始化的输出文本序列,得到融合序列;
36、采用多头注意力机制对所述融合序列进行处理,得到中间向量;
37、基于所述中间向量计算输出字符为词汇表中各样本字符的第三概率值;
38、取所述第三概率值中的最大值对应的样本字符作为输出字符;
39、将所述输出字符转换为向量,更新所述输出文本序列,并返回执行融合所述词向量序列和输出文本序列,得到融合序列的步骤,直至所述输出字符为结束符。
40、第二方面,本专利技术还提供了一种药品知识图谱构建装置,包括:
41、向量化模块,用于获取药品说明书文本,并将所述药品说明书文本中的字符向量化,得到包括多个词向量的词向量序列;
42、注意力模块,用于采用多头注意力机制对所述词向量序列进行处理,得到包括多个特征向量的特征向量序列;
43、实体确定模块,用于基于所述特征向量计算所述字符为每一实体标签的第一概率值,并基于所述第一概率值确定所述字符对应的实体;
44、实体关系确定模块,用于基于所述特征向量和所述第一概率值计算所述实体与所述药品说明书文本中的其他实体的关系的第二概率值,并基于所述第二概率值确定所述实体与所述药品说明书文本中的其他实体的关系;
45、描述文本生成模块,用于基于所述词向量序列自回归生成用于描述所述实体与所述药品说明书文本中的其他实体的关系的描述文本。
46、第三方面,本专利技术还提供了一种电子设备,包括:
47、一个或多个处理器;
48、存储装置,用于存储一个或多个程序;
49、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实本文档来自技高网...
【技术保护点】
1.一种药品知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的药品知识图谱构建方法,其特征在于,将所述药品说明书文本中的字符向量化,得到包括多个词向量的词向量序列,包括:
3.根据权利要求1或2所述的药品知识图谱构建方法,其特征在于,采用多头注意力机制对所述词向量序列进行处理,得到包括多个特征向量的特征向量序列,包括:
4.根据权利要求3所述的药品知识图谱构建方法,其特征在于,所述变换器包括多头注意力层、第一归一化层、前馈层和第二归一化层,所述变换器基于多头注意力机制对输入特征进行处理过程如下:
5.根据权利要求1、2或4所述的药品知识图谱构建方法,其特征在于,基于所述特征向量计算所述字符为每一实体标签的第一概率值,并基于所述第一概率值确定所述字符对应的实体,包括:
6.根据权利要求1、2或4所述的药品知识图谱构建方法,其特征在于,基于所述特征向量和所述第一概率值计算所述实体与所述药品说明书文本中的其他实体的关系的第二概率值,并基于所述第二概率值确定所述实体与所述药品说明书文本中的其他实体的关系,包括:
>7.根据权利要求1、2或4所述的药品知识图谱构建方法,其特征在于,基于所述词向量序列自回归生成用于描述所述实体与所述药品说明书文本中的其他实体的关系的描述文本,包括:
8.一种药品知识图谱构建装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的药品知识图谱构建方法。
...【技术特征摘要】
1.一种药品知识图谱构建方法,其特征在于,包括:
2.根据权利要求1所述的药品知识图谱构建方法,其特征在于,将所述药品说明书文本中的字符向量化,得到包括多个词向量的词向量序列,包括:
3.根据权利要求1或2所述的药品知识图谱构建方法,其特征在于,采用多头注意力机制对所述词向量序列进行处理,得到包括多个特征向量的特征向量序列,包括:
4.根据权利要求3所述的药品知识图谱构建方法,其特征在于,所述变换器包括多头注意力层、第一归一化层、前馈层和第二归一化层,所述变换器基于多头注意力机制对输入特征进行处理过程如下:
5.根据权利要求1、2或4所述的药品知识图谱构建方法,其特征在于,基于所述特征向量计算所述字符为每一实体标签的第一概率值,并基于所述第一概率值确定所述字符...
【专利技术属性】
技术研发人员:谢方敏,周峰,郭陟,刘晋熙,
申请(专利权)人:广州方舟信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。