一种基于知识图谱的问答方法技术

技术编号:17388077 阅读:91 留言:0更新日期:2018-03-04 13:22
本发明专利技术提供一种基于知识图谱的问答方法。本发明专利技术提供的一种基于知识图谱的问答方法由主体实体匹配,关系匹配以及答案确定来实现。主题实体匹配主要包括命名实体识别和实体链接两个部分。命名实体识别旨在识别自然语言问句q中人名、地名、组织机构名等命名实体。实体链接将识别出的命名实体对应到知识库中的某一个实体上,即找到三元组中的实体s,关系匹配是通过自然语言理解技术理解问句q所表达的语义,并且与搜索空间中三元组(s,p,o)中的关系p进行匹配,以此确定问句所表达的语义及其与知识库中对应的关系。通过实体识别和实体链接得到候选主题实体,关系匹配能够得到候选关系,由此得到若干候选三元组,答案确定需要根据实体识别得分,关系匹配得分等特征对这些候选三元组进行排序,确定最后答案。

A question and answer method based on knowledge atlas

The present invention provides a question and answer method based on the knowledge map. A question and answer method based on knowledge atlas provided by this invention is realized by the matching of body entity, relationship matching and answer determination. Thematic entity matching mainly consists of two parts: named entity recognition and entity link. Named entity recognition aims to identify naming entities in the natural language question Q, such as the names of people, the place name, the name of the organization, and so on. A physical link entity named entity recognition that corresponds to the knowledge in the library, found that three tuples of the entities in the s, the match relationship through natural language understanding technology of semantic understanding question Q expression, and the three tuple in the search space (s, P, O) to match the relationship P in order to determine the corresponding semantic relations, the expression of the question and the knowledge base. The Candidate Theme entity by entity recognition and link relationship matching can be obtained from several candidate candidate relationships, three tuple, answer to determine the need according to the entity recognition score, matching the candidate three tuple ranking score and other characteristics, determine the answer.

【技术实现步骤摘要】
一种基于知识图谱的问答方法
本专利技术涉及一种检索方法,尤其涉及一种基于知识图谱的问答方法。
技术介绍
问答系统(QuestionAnsweringSystem,QA)是信息检索系统的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。上世纪五六十年代计算机诞生的初期,人们对问答系统就有所研究与尝试。其中有代表性的包括Baseball和Lunar,但早期的系统多是针对特定领域设计,数据规模比较小,语义理解能力较弱。总体来说,系统功能有限,很难被广泛引用。随着大规模网络数据资源的出现,尤其是知识图谱的出现,使得基于知识图谱的问答系统更加智能化,知识库是一种储存复杂结构化信息的新型技术。知识库中存储了大量事实型知识,其内部使用知识图谱(knowledgegraph)模型对实体及实体间的关系间的关系信息进行建模。如今,知识库多以RDF(ResourceDescriptionFramework)的格式存储数据,一条事实(fact)被表示为一个(S,P,O)三元组,形如(subject,predicate,object),其中主体(subject)和客体(object)为命名实体,客体(object)有时会是属性值,述语(predicate)是主体(subject)和客体(object)间的关系。目前基于知识图谱的问答方法在国内外的研究中大致可以被分为两类,基于语义解析的知识库问答方法、基于信息抽取的知识库问答方法。基于语义解析的知识库问答方法的核心在于自然语言问句的形式化表示,即将自然语言问句转化为某种基于符号的逻辑表达式,比如lambda-DCS(基于依赖关系的语义标注),再转化为知识库查询语言比如SPARQL查询知识库得到答案。此种方法通常会利用监督学习的方法训练出一个语义解析器,来生成自然语言问句的候选逻辑表达式,之后利用基于模板的方式抽取大量文本中表示关系的表达,提出匹配算法来构建知识库中的表达与自然语言表达的匹配,逻辑表达式转换为知识库中的表达后即可在知识库中查找到对应的答案。基于信息抽取的知识库问答方法不使用逻辑表达式来表示问句,减少人工特征干预,直接将知识库中的事实与自然语言问句都转化为某种表达形式(比如向量),然后通过计算相似度来寻找最可能回答问句的答案。这种方法一般会利用词嵌入将单词转换为向量形式,再使用神经网络对自然语言问句进行编码,意在学习到问句不同维度的信息,编码后再同答案及答案子图的向量表示计算相似度,选择相似度高的匹配。两者对比,基于语义解析的问答方法人工干预更多,对自然语言问句要求的形式更为严格,但是优势是对训练语料的依赖性不强。随着深度学习在自然语言处理领域的发展,基于信息抽取的问答方法是现在普遍的探索方式,这种方法的优势在于不局限于问题的严格表达,能够通过深度学习理解问句表达的语义从而找到正确的答案,但会依赖于训练数据。随着互联网技术的发展,大规模网络数据资源的出现,人们希望从海量的互联网数据中准确、快速地获取有价值的信息,推动检索式的问答技术被广泛的应用。这种系统的主要特点是:利用信息检索以及浅层自然语言处理技术从大规模文本或网页库中抽取答案。但是这样的系统存在不少局限性:首先,检索出来的信息只是成千上万相关文件的链接,答案可能在这些文件中,也可能不在,相关信息太多,用户无法快速准确定位到所需信息。其次,检索系统通过几个关键字的组合这种浅层的语义分析,无法准确理解用户的检索意图。尤其是面对复杂的自然语言,检索系统往往会导致疏漏信息,返回错误信息,返回信息太多。这些局限性使得问答系统的效果总是差强人意。近些年来,互联网出现越来越多的高质量知识资源,比如wikipedia,这些资源以自动或半自动的方式被利用起来,构建成为结构化的开源知识库,出现在人们的视野中,比如Freebase,Yago,DBPedia等。随着知识库的出现,对问答系统的研究也可以被分为基于信息抽取的问答系统,基于社区问答的问答系统以及基于知识库的问答系统。由于知识库中知识信息的结构优势为问答系统提供了新的研究方向。与此同时,自然语言处理随着机器学习技术的发展,取得了突飞猛进的效果,使得机器理解自然语言问句成为可能。这两方面的进步能够促进改变传统检索系统基于关键字组合和浅层语义分析的检索技术,从而以更智能的方式梳理人与信息的关系,理解用户的检索意图,有效利用知识库的信息与结构,直接提供给用户想知道的问题的答案,而不是使用户在返回的信息中自己寻找答案,从而实现更为快速准确简洁的基于知识库的问答系统。
技术实现思路
本专利技术提供一种基于知识图谱的问答方法。本专利技术提供了一种基于知识图谱的问答方法由主体实体匹配,关系匹配以及答案确定来实现。主题实体匹配包括命名实体识别(NER)和实体链接(EL)两个部分。命名实体识别是识别出自然语言问句q中人名、地名、组织机构名等命名实体。实体链接是将识别出的命名实体对应到知识库中的某一个实体上,即找到三元组中的实体s,关系匹配是通过自然语言理解技术理解问句q所表达的语义,并且与搜索空间中三元组(s,p,o)中的关系p进行匹配,以此确定问句所表达的语义及其与知识库中对应的关系。通过命名实体识别和实体链接得到候选主题实体,关系匹配能够得到候选关系,由此得到若干候选三元组,答案确定需要根据实体识别得分,关系匹配得分等特征对这些候选三元组进行排序,确定最后答案。附图说明图1为本专利技术的整体框架图。图2为本专利技术的整体流程图。图3为本专利技术中命名实体识别GRU-CRF(融合条件随机场的循环神经网络)模型图。图4为本专利技术中BiGRU(双向循环神经网络)词向量表示图。图5为本专利技术中关系匹配注意力机制的序列到序列模型。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本专利技术提供了一种基于知识图谱的问答方法。该方法整体框架图如图1。主题实体匹配主要包括命名实体识别(NER)和实体链接(EL)两个部分。命名实体识别是识别出自然语言问句q中人名、地名、组织机构名等命名实体。实体链接是将识别出的命名实体对应到知识库中的某一个实体上,即找到三元组中的实体s,关系匹配是通过自然语言理解技术理解问句q所表达的语义,并且与搜索空间中三元组(s,p,o)中的关系p进行匹配,以此确定问句所表达的语义及其与知识库中对应的关系。通过实体识别和实体链接得到候选主题实体,关系匹配能够得到候选关系,由此得到若干候选三元组,答案确定需要根据实体识别得分,关系匹配得分等特征对这些候选三元组进行排序,确定最后答案。该方法的运行流程图如图2所示,具体步骤如下:步骤1:用户输入自然语言问句,经过字符串预处理。步骤2:通过命名实体模块获得问句中的命名实体词。步骤3:通过实体链接模块,利用命名实体词查询别名词典,返回候选主题实体及其根据知名度的排名。步骤4:得到使用实本文档来自技高网
...
一种基于知识图谱的问答方法

【技术保护点】
一种基于知识图谱的问答方法,其特征在于,所述方法包括以下步骤:步骤1:用户输入自然语言问句,经过字符串预处理;步骤2:通过命名实体模块获得问句中的命名实体词;步骤3:通过实体链接模块,利用命名实体词查询别名词典,返回候选主题实体及其根据知名度的排名;步骤4:得到使用实体类型代替命名实体词的问句模式(pattern),经过关系匹配模型配到问句所表达语义的知识库中的关系及其得分;步骤5:找到候选实体和候选关系后,根据关系得分和实体排序,及其在知识库中的查找确定答案。

【技术特征摘要】
1.一种基于知识图谱的问答方法,其特征在于,所述方法包括以下步骤:步骤1:用户输入自然语言问句,经过字符串预处理;步骤2:通过命名实体模块获得问句中的命名实体词;步骤3:通过实体链接模块,利用命名实体词查询别名词典,返回候选主题实体及其根据知名度的排名;步骤4:得到使用实体类型代替命名实体词的问句模式(pattern),经过关系匹配模型配到问句所表达语义的知识库中的关系及其得分;步骤5:找到候选实体和候选关系后,根据关系得分和实体排序,及其在知识库中的查找确定答案。2.如权利要求1所述的方法,其特征在于,主题实体匹配包括命名实体识别模块和实体链接模块两个部分,命名实体识别模块识别自然语言问句q中人名、地名、组织机构名等命名实体,实体链接模块将识别出的命名实体对应到知识库中的某一个实体上,即找到三元组中的实体s,关系匹配模型通过自然语言理解技术理解问句q所表达的语义,并且与搜索空间中三元组(s,p,o)中的关系p进行匹配,以此确定问句所表达的语义及其与知识库中对应的关系,通过命名实体识别模块和实体链接模块得到候选主题实体,关系匹配得到候选关系,由此得到若干候选三元组,最后根据实体识别得分,关系匹配得分特征对候选三元组进行排序,确定最后答案。3.如权利要求2所述的方法,其特征在于,所述命名实体识别模块采用基于字符和单词级别的GRU-CRF(融合条件随机场的循环神经网络)模型来识别问句q中的命名实体词,所述GRU-CRF(融合条件随机场的循环神经网络)模型中使用单词级别的向量和字符级别的向量相结合来共同构造词向量,作为序列标注模型的输入。4.如权利要求3所述的方法...

【专利技术属性】
技术研发人员:胡春明许程贺薇张日崇
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1