基于深度学习技术的知识图谱问答方法、装置及设备制造方法及图纸

技术编号:25185441 阅读:20 留言:0更新日期:2020-08-07 21:13
本申请揭示了一种基于深度学习技术的知识图谱问答方法、装置及设备,其中方法包括:接收用户的问题语句;利用基于LSTM+CRF的序列标注模型对所述问题语句进行实体识别,得到所述问题语句中的实体信息;利用属性识别模型对问题语句进行属性识别,得到问题语句中的属性信息;对属性信息进行属性拓展和属性标准化,得到对应到知识图谱中的标准属性;根据实体信息和标准属性生成知识图谱的结构化查询,在知识图谱中查询答案,将查询到的答案返回给用户。模型和知识图谱信息可以存储于区块链中。本申请的基于深度学习技术的知识图谱问答方法通过多层Bi‑LSTM及Attention操作很好地将实体层、短语层、问题层的语义信息融入到模型中,提高了模型的效果和问答的准确性。

【技术实现步骤摘要】
基于深度学习技术的知识图谱问答方法、装置及设备
本申请涉及到自然语言处理
,特别是涉及到一种基于深度学习技术的知识图谱问答方法、装置及设备。
技术介绍
问答系统是用来回答人提出的自然语言的问题的系统,对于问答系统而言用户的问题基本可以分成事实型问题和观点型问题,事实型问题是指存在标准答案的问题,比如“乙肝疫苗的免疫原理是什么?”。观点型问题的答案一般不存在唯一标准答案,比如“疫苗是打国内的好还是国外的好?”,事实型问题是在问答系统中关注较多的一种,但目前问答系统中最常用的技术是基于信息检索技术的问答系统,主要是通过关键词搜索以及提取答案,由于自然语言文本的复杂性,该方法实现问答准确率很低。目前已经出现了基于知识图谱的问答技术,然而,现有的基于知识图谱问答技术,实际应用落地过程中多是基于设计的规则,或者是简单的机器学习模型,基于复杂模型复杂度较高,真实上线需要机器和时间成本高,效果提升不明显。
技术实现思路
本申请的主要目的为提供一种基于深度学习技术的知识图谱问答方法、装置及设备,旨在解决现有技术中基于知识图谱的问答系统效果较差、硬件成本较高的技术问题。为了实现上述专利技术目的,本申请提出一种基于深度学习技术的知识图谱问答方法,包括:接收用户的问题语句;利用基于LSTM+CRF的序列标注模型对所述问题语句进行实体识别,得到所述问题语句中的实体信息;利用基于注意力机制的属性识别模型对所述问题语句进行属性识别,得到所述问题语句中的属性信息;对所述属性信息进行属性拓展和属性标准化,得到对应到知识图谱中的标准属性;根据所述实体信息和所述标准属性生成知识图谱的结构化查询,在知识图谱中查询答案,将查询到的答案返回给用户。进一步地,所述利用基于LSTM+CRF的序列标注模型对所述问题语句进行实体识别,得到所述问题语句中的实体信息步骤,包括:先将所述问题语句分词,输入实体识别模型的TokenEmbedding层,将单词转化为词向量;将词向量输入到实体识别模型的Bi-LSTM层,得到第一隐藏向量;将第一隐藏向量输入到实体识别模型的CRF层,得到预测标签序列;根据预测标签序列确定所述问题语句中的实体信息。进一步地,所述利用基于注意力机制的属性识别模型对所述问题语句进行属性识别,得到所述问题语句中的属性信息的步骤包括:对所述问题语句进行分词处理得到词序列,通过WordEmbedding获取每个词的词向量w1,w2...,wn;将词向量w1,w2...,wn映射成对应的概念词向量e1,e2...,en;将概念词向量e1,e2...,en输入到属性识别模型的Bi-LSTM层,并使用实体层的表征向量Entity进行Attention操作得到第二隐藏向量h1,h2...,hn;将第二隐藏向量h1,h2...,hn再次输入到属性识别模型的Bi-LSTM层,并使用短语层的表征向量Phrase进行Attention操作,并对输出的第三隐藏向量进行加权求和,得到表征向量Vector;将表征向量Vector输入到属性识别模型的全连接层并进行Softmax操作,得到所述问题语句中的属性信息。进一步地,所述对识别到的属性进行属性拓展和属性标准化,得到对应到知识图谱中的标准属性的步骤包括:提取用户问题语句中的实体和第一属性词;根据所述用户问题语句中的实体,在知识图谱中查找与该实体匹配的多个第二属性词;计算所述第一属性词和多个所述第二属性词的之间的相关度,并根据相关度对多个所述第二属性词进行筛选,确定出一个或多个第三属性词;如果存在多个第三属性词,统计每个第三属性词在知识图谱中出现的次数,次数最多的作为标准属性。进一步地,所述根据所述实体信息和所述标准属性生成知识图谱的结构化查询,在知识图谱中查询答案,将查询到的答案返回给用户的步骤包括:将所述实体信息视为主语或宾语,与所述标准属性相结合,生成SPARQL查询,从知识图谱中检索并找到对应的三元组;若将所述实体信息视为主语,则以该三元组中的宾语作为问题的答案;若将所述实体信息视为宾语,则以该三元组中的主语作为问题的答案;若没有检索到对应的三元组,则提示系统尚未收录该问题。进一步地,所述基于注意力机制的属性识别模型的标签数据是概念化标签数据集,其中,得到所述概念化标签数据集的步骤包括:对初始标签数据中的问题经过实体识别、实体概念化,得到所述概念化标签数据集。本申请实施例还提供一种基于深度学习技术的知识图谱问答装置,包括:接收单元,用于接收用户的问题语句;实体识别单元,用于利用基于LSTM+CRF的序列标注模型对所述问题语句进行实体识别,得到所述问题语句中的实体信息;属性识别单元,用于利用基于注意力机制的属性识别模型对所述问题语句进行属性识别,得到所述问题语句中的属性信息;属性处理单元,用于对所述属性信息进行属性拓展和属性标准化,得到对应到知识图谱中的标准属性;查询单元,用于根据所述实体信息和所述标准属性生成知识图谱的结构化查询,在知识图谱中查询答案,将查询到的答案返回给用户。进一步地,所述属性识别单元包括:词向量获取单元,用于对所述问题语句进行分词处理得到词序列,通过WordEmbedding获取每个词的词向量w1,w2...,wn;概念词向量获取单元,用于将词向量w1,w2...,wn映射成对应的概念词向量e1,e2...,en;第二隐藏向量获取单元,用于将概念词向量e1,e2...,en输入到属性识别模型的Bi-LSTM层,并使用实体层的表征向量Entity进行Attention操作得到第二隐藏向量h1,h2...,hn;表征向量获取单元,用于将第二隐藏向量h1,h2...,hn再次输入到属性识别模型的Bi-LSTM层,并使用短语层的表征向量Phrase进行Attention操作,并对输出的第三隐藏向量进行加权求和,得到表征向量Vector;属性信息获取单元,用于将表征向量Vector输入到属性识别模型的全连接层并进行Softmax操作,得到所述问题语句中的属性信息。本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本申请的基于深度学习技术的知识图谱问答方法、装置和计算机设备,通过实体概念化,降低了模型的复杂程度和相应时间,降低了硬件成本,并且通过多层Bi-LSTM及Attention操作很好地将实体层、短语层、问题层的语义信息融入到模型中,提高了模型的效果和问答的准确性。附图说明图1为本申请一实施例的基于深度学习技术的知识图谱问答方法的流程示意图;本文档来自技高网...

【技术保护点】
1.一种基于深度学习技术的知识图谱问答方法,其特征在于,包括:/n接收用户的问题语句;/n利用基于LSTM+CRF的序列标注模型对所述问题语句进行实体识别,得到所述问题语句中的实体信息;/n利用基于注意力机制的属性识别模型对所述问题语句进行属性识别,得到所述问题语句中的属性信息;/n对所述属性信息进行属性拓展和属性标准化,得到对应到知识图谱中的标准属性;/n根据所述实体信息和所述标准属性生成知识图谱的结构化查询,在知识图谱中查询答案,将查询到的答案返回给用户。/n

【技术特征摘要】
1.一种基于深度学习技术的知识图谱问答方法,其特征在于,包括:
接收用户的问题语句;
利用基于LSTM+CRF的序列标注模型对所述问题语句进行实体识别,得到所述问题语句中的实体信息;
利用基于注意力机制的属性识别模型对所述问题语句进行属性识别,得到所述问题语句中的属性信息;
对所述属性信息进行属性拓展和属性标准化,得到对应到知识图谱中的标准属性;
根据所述实体信息和所述标准属性生成知识图谱的结构化查询,在知识图谱中查询答案,将查询到的答案返回给用户。


2.根据权利要求1所述的基于深度学习技术的知识图谱问答方法,其特征在于,所述利用基于LSTM+CRF的序列标注模型对所述问题语句进行实体识别,得到所述问题语句中的实体信息的步骤包括:
将所述问题语句分词,输入实体识别模型的TokenEmbedding层,将单词转化为词向量;
将词向量输入到实体识别模型的Bi-LSTM层,得到第一隐藏向量;
将第一隐藏向量输入到实体识别模型的CRF层,得到预测标签序列;
根据预测标签序列确定所述问题语句中的实体信息。


3.根据权利要求1所述的基于深度学习技术的知识图谱问答方法,其特征在于,所述利用基于注意力机制的属性识别模型对所述问题语句进行属性识别,得到所述问题语句中的属性信息的步骤包括:
对所述问题语句进行分词处理得到词序列,通过WordEmbedding获取每个词的词向量w1,w2…,wn;
将词向量w1,w2…,wn映射成对应的概念词向量e1,e2…,en;
将概念词向量e1,e2…,en输入到属性识别模型的Bi-LSTM层,并使用实体层的表征向量Entity进行Attention操作得到第二隐藏向量h1,h2…,hn;
将第二隐藏向量h1,h2…,hn再次输入到属性识别模型的Bi-LSTM层,并使用短语层的表征向量Phrase进行Attention操作,并对输出的第三隐藏向量进行加权求和,得到表征向量Vector;
将表征向量Vector输入到属性识别模型的全连接层并进行Softmax操作,得到所述问题语句中的属性信息。


4.根据权利要求1所述的基于深度学习技术的知识图谱问答方法,其特征在于,所述对识别到的属性进行属性拓展和属性标准化,得到对应到知识图谱中的标准属性的步骤包括:
提取用户问题语句中的实体和第一属性词;
根据所述用户问题语句中的实体,在知识图谱中查找与该实体匹配的多个第二属性词;
计算所述第一属性词和多个所述第二属性词之间的相关度,并根据相关度对多个所述第二属性词进行筛选,确定出一个或多个第三属性词;
如果存在多个第三属性词,统计每个第三属性词在知识图谱中出现的次数,次数最多的作为标准属性。


5.根据权利要求1所述的基于深度学习技术的知识图谱问答方法,其特征在于,所述根据所述实体信息和所述标...

【专利技术属性】
技术研发人员:张圣
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1