当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于深度学习的电力通信领域知识图谱问答系统的构建方法技术方案

技术编号:20221775 阅读:29 留言:0更新日期:2019-01-28 20:16
本发明专利技术涉及一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,实现步骤为:步骤1:语义解析,即对用户用自然语言提出的问题q进行预处理,从中抽取出用户查询的关键字,查询句关注的焦点等作为问句的实体w。步骤2:语义表示,即将经过预处理的自然语言问题向量化,同时将答案a的候选集向量化,用于后续计算问题q和答案a的匹配度。步骤3:通过语义匹配度计算、查询以及推理等方法,找出与问题q最匹配、最准确的答案a,使得该问答对(q,a)的得分S(q,a)最高。通过本发明专利技术研究通过知识图谱构建的问答系统在国家电网通信领域的可行性。

【技术实现步骤摘要】
一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
本专利技术属于电力通信行业知识图谱的应用范畴,特别涉及了一种基于深度学习(Deeplearning)的知识图谱问答系统(Knowledgebasequestionanswering)的构建方法。
技术介绍
知识图谱(KnowledgeGraph):本质上是一种具有属性的实体对通过关系链接而成的结构化的语义知识库。其中包含大量的实体对关系,用于以符号形式描述物理世界中的概念以及概念之间的相互关系。从图的角度来看,知识图谱其实就是一种概念网络,网络的节点是现实世界中的实体,而网络的边表示实体对之间的联系(关系)[1]。知识图谱这个概念最早是在2012年由Google公司提出,用于增强其搜索引擎功能的知识库[2],目的是将搜索关键字进行系统化,从而使每一个关键字都拥有一个完整的知识体系,从而提高搜索质量[3]。传统的搜索引擎技术虽然能够根据用户的查询结构快速筛选和排序大量网页,提高信息检索的效率。但是由于其不能快速准确地给用户反馈具体的问题答案,随着互联网信息总量的爆炸性增长,这种信息检索方式逐渐已不能满足用户的需求。知识图谱的出现本文档来自技高网...

【技术保护点】
1.一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,其特征在于,将用户提出的自然语言问题表示为q=ω1...ωn,将问题的所有候选答案表示为答案候选集Cq,具体包括:步骤1:语义解析,具体是对用户用自然语言提出的问题q进行预处理,从中抽取出用户查询的关键字,查询句关注的焦点等作为问句的实体w;步骤2:语义表示,具体是将经过预处理的自然语言问题向量化,同时将答案a的候选集向量化,用于后续计算问题q和答案a的匹配度;步骤3:通过语义匹配度计算、查询以及推理,找出与问题q最匹配、最准确的答案a,使得该问答对(q,a)的得分S(q,a)最高。

【技术特征摘要】
1.一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,其特征在于,将用户提出的自然语言问题表示为q=ω1...ωn,将问题的所有候选答案表示为答案候选集Cq,具体包括:步骤1:语义解析,具体是对用户用自然语言提出的问题q进行预处理,从中抽取出用户查询的关键字,查询句关注的焦点等作为问句的实体w;步骤2:语义表示,具体是将经过预处理的自然语言问题向量化,同时将答案a的候选集向量化,用于后续计算问题q和答案a的匹配度;步骤3:通过语义匹配度计算、查询以及推理,找出与问题q最匹配、最准确的答案a,使得该问答对(q,a)的得分S(q,a)最高。2.根据权利要求1所述的一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,其特征在于,所述步骤1具体包括:步骤1.1,问题分词以及词性标注:采用汉语词法分析系统进行问题分词以及词性标注;在经过分词之后,将自然语言问题表述为q=ω1...ωn,其中wn为中文词语;步骤1.2,问题命名实体识别:根据步骤1.1中标注的词性筛选出问题q中描述的命名实体,作为问题的关键字和关注焦点;关键词抽取常用的方法是统计法,即通过确定候选词的权重,从中筛选出权重大的作为最终的关键词;关键词抽取的具体方法是:步骤1.21,将正文进行分词处理;步骤1.22,过滤掉停用词,即虚词、语气词以及标点符号等;步骤1.23,根据统计的词频和位置信息,分别计算出词语的词频因子和位置因子;步骤1.24,用具体的词语权重函数计算出词语的权重,对其排序,选取权值大者为关键词;步骤1.23,抽取过程后,进行命名实体的识别,以便对句子的主语和宾语进行计算;步骤1.3,生成答案候选集:根据问题q的关键词以及命名实体,在知识库中检索出该实体结点及其在2-hops范围之内的邻近结点,共同组成问题q的答案候选集Cq。3.根据权利要求1所述的一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,其特征在于,所述步骤2具体包括:步骤2.1,问题q向量化:对于经过预处理的问题q=ω1...ωn,将其中的每一个词语ωj映射成一个低维空间的向量wj,即为词的向量化;通过词嵌入矩阵Wv将其转换为一个d维的分布式向量,即wj=Wvu(ωj)其中(u(ωj)∈{0,1}|V|)为单词ωj对应的one-hot形式,是词嵌入矩阵(wordembeddingmatrix),|V|表示词汇量的大小;在MCCNNs网络的训练过程中,Wv作为超参数被不断更新;然后,在神经网络的卷积层使用滑动窗口计算问题q的表示;例如对于MCCNNs的第i列,计算问题q的n维向量如下:其中,2s+1即为滑动窗口的大小,为卷积层的权重矩阵,表示偏差向量,h(·)为非线...

【专利技术属性】
技术研发人员:李石君马旭强杨济海余伟余放李宇轩
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1