【技术实现步骤摘要】
基于深度学习的中医古籍知识图谱构建方法
[0001]本专利技术属于知识图谱构建
,具体是一种基于深度学习的中医古籍知识图谱构建方法。
技术介绍
[0002]知识图谱的概念于2012年提出,用于完善搜索引擎,是一种典型的多边关系图,由节点(实体)和边(实体之间的关系)组成;知识图谱本质上是一种语义网络,用于揭示万物之间的关系;如图1所示,知识图谱旨在从多种类型的复杂数据中抽取概念、实体和关系,是事物关系的可计算模型。按照知识的覆盖范围和领域的不同,知识图谱整体可以划分为通用性知识图谱和领域性知识图谱。随着科技的不断发展,知识图谱在NLP领域应用广泛,如语义搜索、智能问答、辅助决策等方面,其已经成为人工智能发展的重要动力;知识图谱体系架构分为三个部分:第一部分是源数据的获取,即在各个类型的数据中获取有用的资源信息;第二部分是知识融合,用于关联多数据源的知识,扩大知识范围;第三部分是知识计算与知识应用,知识计算是知识图谱能力输出的主要方式,而知识应用是将知识图谱与特定领域或业务相结合,从而提高各领域业务效率;针对于中医古籍内容,其文本内容内有大量的生僻字,语法也与现代汉语语法不同,导致主流的知识图谱构建方法并不能很好的建立其中的属性、实体、关系等特性,故本文提出了中医古籍的知识图谱构建方法。
技术实现思路
[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一;为此,本专利技术提出了一种基于深度学习的中医古籍知识图谱构建方法,用于解决文本内容内有大量的生僻字,语法也与现代汉语语法不同,导致主流 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的中医古籍知识图谱构建方法,其特征在于,包括以下步骤:S1、处理非结构化多模态中医药领域数据:通过采用多模态信息提取技术,并通过结合OCR技术与NLP处理技术提取中医古籍中文本数据,将其转换为半结构化数据、结构化数据并进行标注,获得实体
‑
关系
‑
实体数据集;S2、进行知识抽取:将语法与对应的文字内容结构进行联合训练,并通过训练过程提取中医古籍中实体、关系三元组,对中医古籍中生僻字以及古文语法进行解决;S3、进行知识融合:根据计算所得的具体参数,对词汇进行融合,选择全局实体对齐方法综合使用多种策略判断实体相似度,提高知识融合效果,其中使用基于中文相似度判断的实体匹配算法辅助策略判断;S4、进行知识应用:通过非线性映射变换将输入数据从原始空间映射到另一个特征空间并学习特征表示,完成知识应用。2.根据权利要求1所述的基于深度学习的中医古籍知识图谱构建方法,其特征在于,所述步骤S2中,进行知识抽取的具体步骤为:S21、生僻字优化嵌入:通过使用中医药生僻字优化嵌入模型,对古籍内容所存在的生僻字进行优化,简化为对应的汉字,再将优化词典后的古文Bert以及古文句子作为全局特征描述进行词向量的嵌入;S22、采用分区过滤编码器进行分区过滤:在每一个时间步,将词语特征拆分成为三个分区:实体分区、关系分区和共享分区,其中实体分区是仅与实体抽取相关的分区,关系分区是仅与关系相关的分区,共享分区是与两个任务都相关的分区,随后通过合并分区,过滤掉与特定任务无关的特征。3.根据权利要求2所述的基于深度学习的中医古籍知识图谱构建方法,其特征在于,所述步骤S22中,进行具体过滤的具体方式为:S221、首先计算候选分区信息:,其中X
t
为所输入的特征,h
t
‑1为对应t
‑
1时刻的隐藏状态值;S222、然后计算关系门限和实体门限:,其中cummax=cumsum;且(softmax())cumsum(x1,x2,x3)=(x1,x1+x2,x1+x2+x3);S223、然后再在每层利用刚刚计算到的两个门限,生成三个分区,两层就是6个分区:,其中o代表与操作,
‑
代表非操作,其中c表示历史信息,t
‑
1代表对应t
‑
1时刻;S224、最后根据t
‑
1时间步的历史门限和历史信息,和t时间步的候选门限和候选分区
信息,生成t时间步的三个分区的信息:。4.根据权利要求2所述的基于深度学习的中医古籍知识图谱构建方法,其特征在于,还包括:S23、执行过滤操作:根据步骤S2...
【专利技术属性】
技术研发人员:许雯,王海洋,隋明爽,王海涛,李真真,王慎强,
申请(专利权)人:烟台中科网络技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。