基于深度学习的中医古籍知识图谱构建方法技术

技术编号:38756138 阅读:7 留言:0更新日期:2023-09-10 09:41
本发明专利技术公开了基于深度学习的中医古籍知识图谱构建方法,涉及知识图谱构建技术领域,解决了文本内容内有大量的生僻字,语法也与现代汉语语法不同,导致主流的知识图谱构建方法并不能很好的建立其中的属性、实体、关系等特性的技术问题,通过使用ConvKE方法实现知识推理,ConvKE采用维度变换策略来提升卷积滑动窗口在三元组矩阵上的滑动步数以及三元组内实体和关系在更多维度上的信息交互能力,还通过2

【技术实现步骤摘要】
基于深度学习的中医古籍知识图谱构建方法


[0001]本专利技术属于知识图谱构建
,具体是一种基于深度学习的中医古籍知识图谱构建方法。

技术介绍

[0002]知识图谱的概念于2012年提出,用于完善搜索引擎,是一种典型的多边关系图,由节点(实体)和边(实体之间的关系)组成;知识图谱本质上是一种语义网络,用于揭示万物之间的关系;如图1所示,知识图谱旨在从多种类型的复杂数据中抽取概念、实体和关系,是事物关系的可计算模型。按照知识的覆盖范围和领域的不同,知识图谱整体可以划分为通用性知识图谱和领域性知识图谱。随着科技的不断发展,知识图谱在NLP领域应用广泛,如语义搜索、智能问答、辅助决策等方面,其已经成为人工智能发展的重要动力;知识图谱体系架构分为三个部分:第一部分是源数据的获取,即在各个类型的数据中获取有用的资源信息;第二部分是知识融合,用于关联多数据源的知识,扩大知识范围;第三部分是知识计算与知识应用,知识计算是知识图谱能力输出的主要方式,而知识应用是将知识图谱与特定领域或业务相结合,从而提高各领域业务效率;针对于中医古籍内容,其文本内容内有大量的生僻字,语法也与现代汉语语法不同,导致主流的知识图谱构建方法并不能很好的建立其中的属性、实体、关系等特性,故本文提出了中医古籍的知识图谱构建方法。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一;为此,本专利技术提出了一种基于深度学习的中医古籍知识图谱构建方法,用于解决文本内容内有大量的生僻字,语法也与现代汉语语法不同,导致主流的知识图谱构建方法并不能很好的建立其中的属性、实体、关系等特性的技术问题。
[0004]为实现上述目的,根据本专利技术的第一方面的实施例提出一种基于深度学习的中医古籍知识图谱构建方法,包括以下步骤:S1、处理非结构化多模态中医药领域数据:通过采用多模态信息提取技术,并通过结合OCR技术与NLP处理技术提取中医古籍中文本数据,将其转换为半结构化数据、结构化数据并进行标注,获得实体

关系

实体数据集;S2、进行知识抽取:将语法与对应的文字内容结构进行联合训练,并通过训练过程提取中医古籍中实体、关系三元组,对中医古籍中生僻字以及古文语法进行解决,具体步骤为:S21、生僻字优化嵌入:通过使用中医药生僻字优化嵌入模型,对古籍内容所存在的生僻字进行优化,简化为对应的汉字,再将优化词典后的古文Bert以及古文句子作为全局特征描述进行词向量的嵌入;S22、采用分区过滤编码器进行分区过滤:在每一个时间步,将词语特征拆分成为
三个分区:实体分区、关系分区和共享分区,其中实体分区是仅与实体抽取相关的分区,关系分区是仅与关系相关的分区,共享分区是与两个任务都相关的分区,随后通过合并分区,过滤掉与特定任务无关的特征;具体方式为:S221、首先计算候选分区信息:,其中X
t
为所输入的特征,h
t
‑1为对应t

1时刻的隐藏状态值;S222、然后计算关系门限和实体门限:,其中cummax=cumsum;且(softmax())cumsum(x1,x2,x3)=(x1,x1+x2,x1+x2+x3);S223、然后再在每层利用刚刚计算到的两个门限,生成三个分区,两层就是6个分区:,其中o代表与操作,

代表非操作,其中c表示历史信息,t

1代表对应t

1时刻;S224、最后根据t

1时间步的历史门限和历史信息,和t时间步的候选门限和候选分区信息,生成t时间步的三个分区的信息:;S23、执行过滤操作:根据步骤S22中所生成的三个分区的信息,交互得到生成三个记忆特征,以达到过滤的效果:实体相关/关系相关/共享相关:;然后,三个记忆特征分别过tanh()双曲正切函数得到相应的三个隐藏态,直接从当前时间步的历史信息中输出,当做是实体相关/关系相关/共享相关,用于下一阶段的运算:;最后,更新历史信息和隐藏态,三个记忆特征拼接在一起过线性映射得到t时间步的历史信息,t时间步的历史信息经过tanh()双曲正切函数得到t时间步的隐藏态:;S24、进行全局表示:通过获得两个特定任务的全局的表征:分别用每个时间步的实体专注特征和关系专注特征拼接共享专注特征,经过线性映射和tanh()双曲正切函数,
然后全局使用最大池化操作,就获得了两个特定任务特征:,其中maxpool代表最大化池化操作;S25、执行特征任务:包括分别执行实体特征任务和关系特征任务,其中,执行实体特征任务的具体方式为:S251、设定一组句子输入长度为L,其表格的长度为L
×
L,表格中(i,j)位置表示以第i个位置开始和第j个位置结束的跨度的实体特征表征,表征为拼接第i个位置和第j个的实体专注特征以及实体专注特征的全局表示,然后经过线性变换以及ELU激活函数处理,处理方式为:;随后进入输出层,经过线性映射,映射到实体类别数目的维数上,然后每维做sigmoid函数,判断是不是其代表的实体类别,其处理方式为:,k代表每种类型,其元素e表示词对(w,k)作为具有类型k的实体的开始与结束位置的概率;对于每个词对(w,k),h
i
,h
j
代表其词级实体特征;S252、执行关系特征任务:设定一组句子长度值为L,其表格长度为L
×
L,其中表格中的(i,j)位置标示以第i个位置为首字的跨度,和以第j个位置为首字的跨度的关系表征,这个表征的与实体单元相似,拼接:第i个位置和第j个的关系专注特征,以及关系专注特征的全局表示,然后经过线性变换以及ELU激活函数,做多标签分类:,其中R表示关系标签集,对于每个关系L,元素r表示词w
i
,词w
j
作为主语和宾语实体的概率,T表示元素r的集合,h
gr
代表全局特征,获得实体i跨度表示;S26、进行损失参数分析:针对于两个BCE损失,BCE损失是针对多标签分类的分类损失,也可以完成而分类任务;将两个任务都看作是分类任务,一个针对NER任务;另一个针对RE任务:;S3、进行知识融合:根据计算所得的具体参数,对词汇进行融合,选择全局实体对齐方法综合使用多种策略判断实体相似度,提高知识融合效果,其中使用基于中文相似度判断的实体匹配算法辅助策略判断;S4、进行知识应用:通过非线性映射变换将输入数据从原始空间映射到另一个特
征空间并学习特征表示,完成知识应用。
[0005]与现有技术相比,本专利技术的有益效果是:通过使用ConvKE方法实现知识推理,ConvKE采用维度变换策略来提升卷积滑动窗口在三元组矩阵上的滑动步数以及三元组内实体和关系在更多维度上的信息交互能力,还通过2

D卷积滑动窗口提升感受来捕获三元组更多维度上的整体信息;通过逐级分析的具体方式,依次确认对应词汇的特征参数,后续根据具体的特征参数对生僻字进行优化,对主流的知识图谱内部的属性、实体以及关系等特性进行更好的融合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的中医古籍知识图谱构建方法,其特征在于,包括以下步骤:S1、处理非结构化多模态中医药领域数据:通过采用多模态信息提取技术,并通过结合OCR技术与NLP处理技术提取中医古籍中文本数据,将其转换为半结构化数据、结构化数据并进行标注,获得实体

关系

实体数据集;S2、进行知识抽取:将语法与对应的文字内容结构进行联合训练,并通过训练过程提取中医古籍中实体、关系三元组,对中医古籍中生僻字以及古文语法进行解决;S3、进行知识融合:根据计算所得的具体参数,对词汇进行融合,选择全局实体对齐方法综合使用多种策略判断实体相似度,提高知识融合效果,其中使用基于中文相似度判断的实体匹配算法辅助策略判断;S4、进行知识应用:通过非线性映射变换将输入数据从原始空间映射到另一个特征空间并学习特征表示,完成知识应用。2.根据权利要求1所述的基于深度学习的中医古籍知识图谱构建方法,其特征在于,所述步骤S2中,进行知识抽取的具体步骤为:S21、生僻字优化嵌入:通过使用中医药生僻字优化嵌入模型,对古籍内容所存在的生僻字进行优化,简化为对应的汉字,再将优化词典后的古文Bert以及古文句子作为全局特征描述进行词向量的嵌入;S22、采用分区过滤编码器进行分区过滤:在每一个时间步,将词语特征拆分成为三个分区:实体分区、关系分区和共享分区,其中实体分区是仅与实体抽取相关的分区,关系分区是仅与关系相关的分区,共享分区是与两个任务都相关的分区,随后通过合并分区,过滤掉与特定任务无关的特征。3.根据权利要求2所述的基于深度学习的中医古籍知识图谱构建方法,其特征在于,所述步骤S22中,进行具体过滤的具体方式为:S221、首先计算候选分区信息:,其中X
t
为所输入的特征,h
t
‑1为对应t

1时刻的隐藏状态值;S222、然后计算关系门限和实体门限:,其中cummax=cumsum;且(softmax())cumsum(x1,x2,x3)=(x1,x1+x2,x1+x2+x3);S223、然后再在每层利用刚刚计算到的两个门限,生成三个分区,两层就是6个分区:,其中o代表与操作,

代表非操作,其中c表示历史信息,t

1代表对应t

1时刻;S224、最后根据t

1时间步的历史门限和历史信息,和t时间步的候选门限和候选分区
信息,生成t时间步的三个分区的信息:。4.根据权利要求2所述的基于深度学习的中医古籍知识图谱构建方法,其特征在于,还包括:S23、执行过滤操作:根据步骤S2...

【专利技术属性】
技术研发人员:许雯王海洋隋明爽王海涛李真真王慎强
申请(专利权)人:烟台中科网络技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1