一种知识图谱自动补全和更新的方法技术

技术编号:34885948 阅读:57 留言:0更新日期:2022-09-10 13:43
本发明专利技术公开了一种知识图谱自动补全和更新的方法,涉及了人工智能以及自然语言处理领域。本发明专利技术通过处理原始数据构建知识图谱和用于文本生成的神经网络模型,将知识图谱中相近的实体和关系或者知识图谱中缺失的三元组作为模型的输入,利用神经网络模型的输出更新存储到图数据库中达到知识图谱自动补全和更新的目的。本发明专利技术实现了智能问答领域的知识图谱中的三元组信息的补全和自动更新,可以为应用知识图谱的后续分析提供支撑。知识图谱的后续分析提供支撑。知识图谱的后续分析提供支撑。

【技术实现步骤摘要】
一种知识图谱自动补全和更新的方法


[0001]本专利技术涉及了人工智能以及自然语言处理领域,通过将知识图谱(KnowledgeGraph)与基于自然语言处理领域(NaturalLanguageProcessing)的文本生成技术相结合,提出了一种知识图谱自动补全和更新的方法。

技术介绍

[0002]随着人工智能技术发展,许多优秀的技术被提出,整个领域取得了迅猛的发展。知识图谱(KnowledgeGraph)的概念在2012年由谷歌提出,其本质是结构化的语义网络,是一种以节点和边的形式将不同类型的实体、概念有结构地组合构成的图数据结构,其初期目的是为了提高搜索引擎的搜索质量以提升用户体验。而随着大数据技术的发展,互联网中的信息数据规模已经达到了难以估量的程度。因此,知识图谱还能用于很好的组织和管理互联网信息。作为一种新型的数据表示方式,其基本结构由“实体

关系

实体”和“实体

属性

属性值”两种三元组形式组成,由于其特性,知识图谱目前被广泛运用在搜索、问答、个性化推荐等领域,同时也被广泛运用到了金融、保险、医疗以及移动电子商务等各个领域。
[0003]文本生成技术是一类宏观的深度学习技术,发展出了一系列通用的模型,如Seq2Seq模型、Attention机制、变分自编码器等。许多针对文本生成技术的研究是在具体的任务中进行的,典型的任务包括机器翻译、文本摘要、自动评论、对话系统等。在具体任务中的文本生成模型往往以通用的文本生成模型作为框架或基础,并根据任务的不同进行不同的模型设计。
[0004]虽然NLG和知识图谱这些技术已经趋于成熟,但是将这两项技术相结合的应用相对较少。在知识图谱的基础上,通过结合一些自然语言生成NLG的技术,使得知识图谱能够根据现有实体和关系,自动生成相关的实体,为决策提供辅助建议;或者根据知识图谱中部分缺失的三元组,自动补全三元组中缺失的信息,从而体现出图谱的智能的特性。为了使知识图谱中生成的实体之间具有更好的语义逻辑相关性,需要提高神经网络模型的性能,使得通过神经网络模型生成的结果语法准确,语义相近,符合知识图谱中实体之间的逻辑关系。在面临数据的稀疏性、自然语言的语义复杂性和知识源的异构性等难点下,如何提高神经网络模型生成的结果的语法准确性和任务相关性仍具有研究意义。因此,开展对知识图谱和语义逻辑模型的研究与构建具有重要的学术价值和应用价值。

技术实现思路

[0005]本专利技术的目的在于提供一种医药领域的知识图谱自动补全和更新的方法。
[0006]本专利技术的目的通过如下技术方案来实现:
[0007]步骤1:构建知识图谱;
[0008]获取医药相关领域的历史数据通过爬虫,进行数据清洗、信息抽取、信息整合及构建图数据库,通过以上步骤构建知识图谱;
[0009]步骤2:根据获取到的数据信息,通过数据预处理建立字典和索引,选择不同的模
型对数据进行训练,得到达到预定指标的模型,同时确定评价指标,评估不同模型下的预测结果;
[0010]步骤3:根据步骤1构建知识图谱,自动选取残缺的三元组相关联的实体和关系,经过数据处理得到模型的原始输入,放入步骤2训练完成的神经网络模型中,得到输出结果;
[0011]步骤4:将步骤3中的输出结果通过信息抽取、信息整合的步骤导入图数据库中,达到自动补全和更新知识图谱的效果。
[0012]进一步地,步骤1具体包括以下步骤:
[0013]步骤1.1:通过网络爬虫、公开数据集及专家建的方式获取医药领域的原始数据;
[0014]步骤1.2:对原始数据进行数据清洗,删除无效数据;
[0015]步骤1.3:利用信息抽取技术从清洗完成的数据中抽取构建知识图谱所需的实体信息、关系信息、属性信息、属性值信息以及实体之间的相互关系;
[0016]步骤1.4:通过信息整合方法,对步骤1.3中抽取得到的各种信息进行整合;
[0017]步骤1.5:构建数据库,将信息整合完成的三元组存放到图数据库中,完成知识图谱的构建;如果构建完成的知识图谱中出现三元组信息缺失,对三元组信息进行补全和更新。
[0018]进一步地,步骤2具体包括以下步骤:
[0019]步骤2.1:对获取的原始数据进行数据清洗,得到所需的语料;
[0020]步骤2.2:对语料进行预处理,包括格式化、分词、稀疏词处理、构建词典、建立索引、词向量训练;
[0021]其中建立索引时,在数据处理阶段采用Word2Vector模型,将每个词语映射成定长的向量,并通过向量间的距离表征不同词之间的相关程度;
[0022]步骤2.3:对步骤2.2中建立完成索引的数据进行划分和验证,构建数据集;
[0023]步骤2.4:定义损失函数,构建神经网络模型;
[0024]在训练过程中,通过定义损失函数评估预测结果和正确值之间的差距;模型训练时选择词粒度作为单元特征,在对句子进行分词时,采用jieba进行分词;
[0025]使用负采样确定需要输出的词语作为正样本,最终需要保留,模型在除了正样本外的剩余词语中选取少量词作为负样本;在对负样本进行采样时采用的分布为噪声分布,写作P
n
(w),在此过程中生成新词w
o
的损失为公式:
[0026][0027]其中,w
o
为正样本,为正样本对应参数,s为解码器的隐藏状态,W
neg
为负样本的集合,生成新句子的整个损失公式为:
[0028][0029]构建神经网络模型时采用LSTM网络,LSTM通过增加遗忘机制与保存机制,将长期记忆聚焦于工作记忆,不再始终保存全部长期记忆;
[0030]步骤2.5:训练模型,对算法训练进行网络层调参直到达到预期的效果,获得有泛化能力的模型;
[0031]步骤2.6:使用训练完成的模型进行预测,通过在步骤2.3中的测试集中选取相应的数据作为输入得到对应的输出,并通过测试集评价该模型预测的准确率。
[0032]本专利技术的有益效果在于:
[0033]本专利技术针对智能问答领域知识图谱中可能存在的三元组关系缺失或者知识图谱规模较小等问题,从数据融合,模型构建,算法学习等角度,构建一个神经网络模型,将知识图谱和神经网络模型融合,实现了智能问答领域的知识图谱中的三元组信息的补全和自动更新,可以为应用知识图谱的后续分析提供支撑。
[0034]本专利技术通过处理原始数据构建知识图谱和用于文本生成的神经网络模型,将知识图谱中相近的实体和关系或者知识图谱中缺失的三元组作为模型的输入,利用神经网络模型的输出更新存储到图数据库中达到知识图谱自动补全和更新的目的。此外,本技术可以应用到一些实际的场景中如天气预测,智能聊天等。
附图说明
[0035]图1是本专利技术进行知识图谱自动补全和更新的流程图;
[0036]图2是本专利技术在数据处理阶段所采用的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱自动补全和更新的方法,其特征在于:步骤1:构建知识图谱;获取医药相关领域的历史数据通过爬虫,进行数据清洗、信息抽取、信息整合及构建图数据库,通过以上步骤构建知识图谱;步骤2:根据获取到的数据信息,通过数据预处理建立字典和索引,选择不同的模型对数据进行训练,得到达到预定指标的模型,同时确定评价指标,评估不同模型下的预测结果;步骤3:根据步骤1构建知识图谱,自动选取残缺的三元组相关联的实体和关系,经过数据处理得到模型的原始输入,放入步骤2训练完成的神经网络模型中,得到输出结果;步骤4:将步骤3中的输出结果通过信息抽取、信息整合的步骤导入图数据库中,达到自动补全和更新知识图谱的效果。2.根据权利要求1中所述的一种知识图谱自动补全和更新的方法,其特征在于:步骤1具体包括以下步骤:步骤1.1:通过网络爬虫、公开数据集及专家建的方式获取医药领域的原始数据;步骤1.2:对原始数据进行数据清洗,删除无效数据;步骤1.3:利用信息抽取技术从清洗完成的数据中抽取构建知识图谱所需的实体信息、关系信息、属性信息、属性值信息以及实体之间的相互关系;步骤1.4:通过信息整合方法,对步骤1.3中抽取得到的各种信息进行整合;步骤1.5:构建数据库,将信息整合完成的三元组存放到图数据库中,完成知识图谱的构建;如果构建完成的知识图谱中出现三元组信息缺失,对三元组信息进行补全和更新。3.根据权利要求1中所述的一种知识图谱自动补全和更新的方法,其特征在于:步骤2具体包括以下步骤:步骤2.1:对获取的原始数据进行数...

【专利技术属性】
技术研发人员:申林山安家庆李思照刘开南
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1