当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于知识图谱的文学编年史问答系统的构建方法技术方案

技术编号:21141047 阅读:57 留言:0更新日期:2019-05-18 05:09
本发明专利技术公开了一种基于知识图谱的文学编年史问答系统的构建方法:以中国文学编年史相关的结构化数据为基础,结合自上而下创建的文学编年史本体结构,构建了文学编年史垂直领域的知识图谱;设计了语义解析框架,包含了两种用户问题解析的模块,一个是基于正则与规则,一个是基于神经网络;将问题解析得到的结果组织成对应的SPARQL查询语句,在构建的知识图谱中搜索对应的结果;将结果组织为回复,返回给用户;设计实现了网页端和微信公众号服务,作为系统与用户交互的窗口;设计实现了用户使用日志与反馈收集模块,将相关数据用于迭代训练神经网络模型,增强模型的泛化能力;本发明专利技术可以直接处理用户的自然语言查询,返回精准的结果,对提升知识获取效率、促进中国文化研究等方面均有重要作用。

【技术实现步骤摘要】
一种基于知识图谱的文学编年史问答系统的构建方法
本专利技术涉及问答系统,尤其涉及一种基于知识图谱的文学编年史问答系统的构建方法。
技术介绍
问答系统是信息检索系统的一种高级形式,它能回答用户用自然语言提出的问题;问答系统能够满足用户对快速、准确地获取信息的需求;不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案;问答系统可分为基于阅读理解的问答系统、基于社区问答对的问答系统以及基于知识图谱的问答系统;知识图谱多是以实体、关系为基本单元所组成的图结构;基于这样的结构化的知识,分析用户自然语言问题的语义,进而在已构建的结构化知识图谱中通过检索、匹配或推理等手段,获取正确答案,这一任务称之为知识库问答(QuestionAnsweringoverKnowledgeBase,KBQA);这一问答范式由于已经在数据层面通过知识图谱的构建对于文本内容进行了深度挖掘与理解,能够有效地提升问答的准确性;知识库问答系统在回答用户问题时,需要正确理解用户所提的自然语言问题,抽取其中的关键语义信息,然后在已有单个或多个知识库中通过检索、推理等手段获取答案并返回给用户;知识库问答所涉及的技术包括:词法分析、句法分析、语义分析、信息检索、逻辑推理、语言生成等;按照问答领域划分,知识库问答又可分为限定领域的知识库问答和开放域的知识库问答;知识图谱的构建涉及到本体建模,也称为数据建模;本体建模分为自顶向下和自底向上两种方式;开放域知识图谱的本体构建通常用自底向上的方法,自动地从知识图谱中抽取概念、概念层次和概念之间的关系;领域知识图谱多采用自顶向下的方法来构建本体;一方面,相对于开放域知识图谱,领域知识图谱涉及的概念和范围都是固定或者可控的;另一方面,对于领域知识图谱,我们要求其满足较高的精度,通常依靠领域专家通过自顶向下的方式来构建本体。语义解析是问答系统的一个关键技术问题;知识库问答要回答用户的问题,首先就要正确理解用户所提问题的语义内容;面对结构化知识库,需要将用户问题转化为结构化的查询语句,进而在知识图谱进行查询、推理等操作,获取正确答案;因此,对于用户问题的语义解析是知识库问答研究所面临的首要科学问题。具体过程需要分析用户问题中的语义单元与知识图谱中的实体、概念进行链接,并分析问句中这些语义单元之间的语义关系,将用户问题解析成为知识图谱中所定义的实体、概念、关系所组成的结构化语义表示形式。
技术实现思路
本专利技术的目的是为了解决现有文学编年史知识获取系统效率过低等缺点,而实现的一种基于知识图谱的文学编年史问答系统。为了实现上诉目的,本专利技术采用了如下技术方案:基于知识图谱的文学编年史问答系统的构建方法包括如下步骤:1)预处理数据:设计关系型数据库ER图,获取文学编年史相关的结构化数据,转存数据于自定义schema数据库中;2)本体建模:根据文学编年史涉及的概念、实体,自上而下构建垂直领域的本体结构;3)数据格式转换:利用创建的本体,创建映射文件;将关系型数据库中的结构化数据转为RDF格式;4)数据存储及查询服务:利用第三方开源软件存储RDF数据,并启用SPARQL查询终端提供接口;5)语义解析:通过基于正则与规则的方法对用户查询进行语义解析,若解析失败,则采用基于神经网络的方法解析用户查询;6)SPARQL查询:根据语义解析的结果构建SPARQL查询,对知识图谱进行搜索得到相应结果返回用户;7)日志反馈收集:收集用户使用日志和用户反馈用于定位失败的案例,改进系统功能;将日志作为标注数据,迭代训练神经网络模型,提升泛化性能。优选的,所述的预处理数据,具体步骤为:2.1设计关系型数据库ER图ER图主要包括人物表格、地点表格、作品表格和职位表格;ER图也包含了表格之间的关系,主要包含人物之间的亲属关系、人物之间的非亲属关系、人物与地点之间的关系、人物与作品的关系;2.2结构化数据获取收集结构化数据,对数据进行去重,繁简转化操作;将数据导入已设计好schema的mysql数据库中。优选的,所述的本体建模,具体步骤为:利用开源的本体编辑软件protégé设计本体结构;结合mysql数据库的表结构,自上而下地构建文学编年史垂直领域本体结构;设定属性的domain和range;指定属性的特性,用于知识的推理。优选的,所述的数据格式转换,具体步骤为:4.1创建映射文件采用第三方开源软件d2rq的数据映射配置规范;撰写配置文件,将mysql数据库的表映射到本体结构对应的类别下;其次,针对该表的每个字段,编写映射代码将其映射到本体结构中对应的属性;对数据库的每个表结构执行上述相同的操作流程;4.2数据转换借用d2rq提供的转换工具dump-rdf,结合所撰写的配置文件,将mysql中的结构化数据转换为RDF格式的数据。优选的,所述的数据存储及查询服务,具体步骤为:5.1数据存储采用开源的JAVA语义网和链接数据框架Jena作为RDF数据存储和查询的后端;利用Jena提供的原生高性能三元组存储组件TDB持久化RDF数据;使用Jena提供的命令行工具tdbloader为RDF数据建立索引和存储;5.2查询服务利用Jena提供的Fuseki组件来查询RDF数据;将构建的本体文件放置在Fuseki服务对应的配置文件目录下;通过脚本fuseki-server启动Fuseki服务。优选的,所述的基于正则与规则的方法具体为:将用户查询中的每个词作为一个对象;该对象拥有两个基本属性:词汇与词性;利用开源工具REfO定义匹配规则;当拥有特定词汇或词性的组合出现时,一条规则匹配成功,执行预设的函数;针对每条用户查询,首先利用开源分词工具Jieba对用户查询进行分词和词性标注,得到一个对象列表;其次与预定义的规则逐一匹配;匹配成功,则执行对应的函数;匹配失败,则采用基于神经网络的方法;所述的基于神经网络的方法具体为:将用户查询语义解析分解为两个子问题:命名实体识别与短文本分类;采用BiLSTM+CRF网络结构来解决命名实体识别问题;LSTM每个单元的具体实现如下:it=σ(Wxixt+Whiht-1+bi)ft=σ(Wxfxt+Whfht-1+bf)ot=σ(Wxoxt+Whoht-1+bo)ct=ftct-1+ittanh(wxcxt+whcht-1+bc)ht=ottanh(ct)其中σ代表sigmoid函数;it,ft,ot,ct分别代表t时刻的输入门、遗忘门、输出门和记忆单元,大小与隐藏单元一致;Wxi、Wxf、Wxo、wxc分别代表任一时刻输入门、遗忘门、输出门和记忆单元关于输入的参数;Whi、Whf、Who、whc分别代表任一时刻输入门、遗忘门、输出门和记忆单元关于隐藏单元的参数;bi、bf、bo、bc分别代表任一时刻输入门、遗忘门、输出门和记忆单元的偏置;xt代表当前时刻的输入;ht-1代表上一个时刻的隐藏单元;利用双向LSTM结构获取当前时刻之前和之后的特征;经过LSTM抽取的特征作为CRF模型的输入,解码得到当前时刻字符的标签;采用TextCNN模型进行短文本分类;用户查询作为模型的输入,查询对应的属性作为输出;假设是一个k维向量,代表查询中第i个词;一个长度为n个词的查询表示为:一个卷积操本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的文学编年史问答系统的构建方法,其特征在于包括如下步骤:1)预处理数据:设计关系型数据库ER图,获取文学编年史相关的结构化数据,转存数据于自定义schema数据库中;2)本体建模:根据文学编年史涉及的概念、实体,自上而下构建垂直领域的本体结构;3)数据格式转换:利用创建的本体,创建映射文件;将关系型数据库中的结构化数据转为RDF格式;4)数据存储及查询服务:利用第三方开源软件存储RDF数据,并启用SPARQL查询终端提供接口;5)语义解析:通过基于正则与规则的方法对用户查询进行语义解析,若解析失败,则采用基于神经网络的方法解析用户查询;6)SPARQL查询:根据语义解析的结果构建SPARQL查询,对知识图谱进行搜索得到相应结果返回用户;7)日志反馈收集:收集用户使用日志和用户反馈用于定位失败的案例,改进系统功能;将日志作为标注数据,迭代训练神经网络模型,提升泛化性能。

【技术特征摘要】
1.一种基于知识图谱的文学编年史问答系统的构建方法,其特征在于包括如下步骤:1)预处理数据:设计关系型数据库ER图,获取文学编年史相关的结构化数据,转存数据于自定义schema数据库中;2)本体建模:根据文学编年史涉及的概念、实体,自上而下构建垂直领域的本体结构;3)数据格式转换:利用创建的本体,创建映射文件;将关系型数据库中的结构化数据转为RDF格式;4)数据存储及查询服务:利用第三方开源软件存储RDF数据,并启用SPARQL查询终端提供接口;5)语义解析:通过基于正则与规则的方法对用户查询进行语义解析,若解析失败,则采用基于神经网络的方法解析用户查询;6)SPARQL查询:根据语义解析的结果构建SPARQL查询,对知识图谱进行搜索得到相应结果返回用户;7)日志反馈收集:收集用户使用日志和用户反馈用于定位失败的案例,改进系统功能;将日志作为标注数据,迭代训练神经网络模型,提升泛化性能。2.根据权利要求1中所述的构建方法,其特征在于所述的预处理数据,具体步骤为:2.1设计关系型数据库ER图ER图主要包括人物表格、地点表格、作品表格和职位表格;ER图也包含了表格之间的关系,主要包含人物之间的亲属关系、人物之间的非亲属关系、人物与地点之间的关系、人物与作品的关系;2.2结构化数据获取收集结构化数据,对数据进行去重,繁简转化操作;将数据导入已设计好schema的mysql数据库中。3.根据权利要求1所述的构建方法,其特征在于所述的本体建模,具体步骤为:利用开源的本体编辑软件protégé设计本体结构;结合mysql数据库的表结构,自上而下地构建文学编年史垂直领域本体结构;设定属性的domain和range;指定属性的特性,用于知识的推理。4.根据权利要求1所述的构建方法,其特征在于所述的数据格式转换,具体步骤为:4.1创建映射文件采用第三方开源软件d2rq的数据映射配置规范;撰写配置文件,将mysql数据库的表映射到本体结构对应的类别下;其次,针对该表的每个字段,编写映射代码将其映射到本体结构中对应的属性;对数据库的每个表结构执行上述相同的操作流程;4.2数据转换借用d2rq提供的转换工具dump-rdf,结合所撰写的配置文件,将mysql中的结构化数据转换为RDF格式的数据。5.根据权利要求书1所述的构建方法,其特征在于所述的数据存储及查询服务,具体步骤为:5.1数据存储采用开源的JAVA语义网和链接数据框架Jena作为RDF数据存储和查询的后端;利用Jena提供的原生高性能三元组存储组件TDB持久化RDF数据;使用Jena提供的命令行工具tdbloader为RDF数据建立索引和存储;5.2查询服务利用Jena提供的Fuseki组件来查询RDF数据;将构建的本体文件放置在Fuseki服务对应的配置文件目录下;通过脚本fuseki-server启动Fuseki服务。6.根据权利要求书1所述的构建方法,其特征在于:所述的基于正则与规则的方法具体为:将用户查询中的每个词作为一个对象;该对象拥有两个基本属性:词汇与词性;利用开源工具REfO定义匹配规则;当拥有特定词汇或词性的组合出现时,一条规则匹配成功,执行预设的函数;针对每条用户查询,首先利用开源分词工具Jieba对用户查询进行分词和词性标注,得到一个对象列表;其次与预定义的规则逐一匹配;匹配成功,则执行对应的函数;匹配失败,则采用基于神经网络的方法;所述的基于神经网络的方法具体为:将用户查询语义解析分解为两个子问题:命名实体识别与短文本分类;...

【专利技术属性】
技术研发人员:吴江琴黄诗磊庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1