一种基于知识图谱的文学编年史问答系统的构建方法技术方案

技术编号：21141047 阅读：57 留言：0更新日期：2019-05-18 05:09

本发明专利技术公开了一种基于知识图谱的文学编年史问答系统的构建方法：以中国文学编年史相关的结构化数据为基础，结合自上而下创建的文学编年史本体结构，构建了文学编年史垂直领域的知识图谱；设计了语义解析框架，包含了两种用户问题解析的模块，一个是基于正则与规则，一个是基于神经网络；将问题解析得到的结果组织成对应的SPARQL查询语句，在构建的知识图谱中搜索对应的结果；将结果组织为回复，返回给用户；设计实现了网页端和微信公众号服务，作为系统与用户交互的窗口；设计实现了用户使用日志与反馈收集模块，将相关数据用于迭代训练神经网络模型，增强模型的泛化能力；本发明专利技术可以直接处理用户的自然语言查询，返回精准的结果，对提升知识获取效率、促进中国文化研究等方面均有重要作用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱的文学编年史问答系统的构建方法
本专利技术涉及问答系统，尤其涉及一种基于知识图谱的文学编年史问答系统的构建方法。
技术介绍
问答系统是信息检索系统的一种高级形式，它能回答用户用自然语言提出的问题；问答系统能够满足用户对快速、准确地获取信息的需求；不同于现有的搜索引擎，问答系统返回用户的不再是基于关键词匹配的相关文档排序，而是精准的自然语言形式的答案；问答系统可分为基于阅读理解的问答系统、基于社区问答对的问答系统以及基于知识图谱的问答系统；知识图谱多是以实体、关系为基本单元所组成的图结构；基于这样的结构化的知识，分析用户自然语言问题的语义，进而在已构建的结构化知识图谱中通过检索、匹配或推理等手段，获取正确答案，这一任务称之为知识库问答(QuestionAnsweringoverKnowledgeBase,KBQA)；这一问答范式由于已经在数据层面通过知识图谱的构建对于文本内容进行了深度挖掘与理解，能够有效地提升问答的准确性；知识库问答系统在回答用户问题时，需要正确理解用户所提的自然语言问题，抽取其中的关键语义信息，然后在已有单个或多个知识库中通过检索、推理等手段获取答案并返回给用户；知识库问答所涉及的技术包括：词法分析、句法分析、语义分析、信息检索、逻辑推理、语言生成等；按照问答领域划分，知识库问答又可分为限定领域的知识库问答和开放域的知识库问答；知识图谱的构建涉及到本体建模，也称为数据建模；本体建模分为自顶向下和自底向上两种方式；开放域知识图谱的本体构建通常用自底向上的方法，自动地从知识图谱中抽取概念、概念层次和概念之间的关系；领域知识图谱...

【技术保护点】
1.一种基于知识图谱的文学编年史问答系统的构建方法，其特征在于包括如下步骤：1)预处理数据：设计关系型数据库ER图，获取文学编年史相关的结构化数据，转存数据于自定义schema数据库中；2)本体建模：根据文学编年史涉及的概念、实体，自上而下构建垂直领域的本体结构；3)数据格式转换：利用创建的本体，创建映射文件；将关系型数据库中的结构化数据转为RDF格式；4)数据存储及查询服务：利用第三方开源软件存储RDF数据，并启用SPARQL查询终端提供接口；5)语义解析：通过基于正则与规则的方法对用户查询进行语义解析，若解析失败，则采用基于神经网络的方法解析用户查询；6)SPARQL查询：根据语义解析的结果构建SPARQL查询，对知识图谱进行搜索得到相应结果返回用户；7)日志反馈收集：收集用户使用日志和用户反馈用于定位失败的案例，改进系统功能；将日志作为标注数据，迭代训练神经网络模型，提升泛化性能。

【技术特征摘要】
1.一种基于知识图谱的文学编年史问答系统的构建方法，其特征在于包括如下步骤：1)预处理数据：设计关系型数据库ER图，获取文学编年史相关的结构化数据，转存数据于自定义schema数据库中；2)本体建模：根据文学编年史涉及的概念、实体，自上而下构建垂直领域的本体结构；3)数据格式转换：利用创建的本体，创建映射文件；将关系型数据库中的结构化数据转为RDF格式；4)数据存储及查询服务：利用第三方开源软件存储RDF数据，并启用SPARQL查询终端提供接口；5)语义解析：通过基于正则与规则的方法对用户查询进行语义解析，若解析失败，则采用基于神经网络的方法解析用户查询；6)SPARQL查询：根据语义解析的结果构建SPARQL查询，对知识图谱进行搜索得到相应结果返回用户；7)日志反馈收集：收集用户使用日志和用户反馈用于定位失败的案例，改进系统功能；将日志作为标注数据，迭代训练神经网络模型，提升泛化性能。2.根据权利要求1中所述的构建方法，其特征在于所述的预处理数据，具体步骤为：2.1设计关系型数据库ER图ER图主要包括人物表格、地点表格、作品表格和职位表格；ER图也包含了表格之间的关系，主要包含人物之间的亲属关系、人物之间的非亲属关系、人物与地点之间的关系、人物与作品的关系；2.2结构化数据获取收集结构化数据，对数据进行去重，繁简转化操作；将数据导入已设计好schema的mysql数据库中。3.根据权利要求1所述的构建方法，其特征在于所述的本体建模，具体步骤为：利用开源的本体编辑软件protégé设计本体结构；结合mysql数据库的表结构，自上而下地构建文学编年史垂直领域本体结构；设定属性的domain和range；指定属性的特性，用于知识的推理。4.根据权利要求1所述的构建方法，其特征在于所述的数据格式转换，具体步骤为：4.1创建映射文件采用第三方开源软件d2rq的数据映射配置规范；撰写配置文件，将mysql数据库的表映射到本体结构对应的类别下；其次，针对该表的每个字段，编写映射代码将其映射到本体结构中对应的属性；对数据库的每个表结构执行上述相同的操作流程；4.2数据转换借用d2rq提供的转换工具dump-rdf，结合所撰写的配置文件，将mysql中的结构化数据转换为RDF格式的数据。5.根据权利要求书1所述的构建方法，其特征在于所述的数据存储及查询服务，具体步骤为：5.1数据存储采用开源的JAVA语义网和链接数据框架Jena作为RDF数据存储和查询的后端；利用Jena提供的原生高性能三元组存储组件TDB持久化RDF数据；使用Jena提供的命令行工具tdbloader为RDF数据建立索引和存储；5.2查询服务利用Jena提供的Fuseki组件来查询RDF数据；将构建的本体文件放置在Fuseki服务对应的配置文件目录下；通过脚本fuseki-server启动Fuseki服务。6.根据权利要求书1所述的构建方法，其特征在于：所述的基于正则与规则的方法具体为：将用户查询中的每个词作为一个对象；该对象拥有两个基本属性：词汇与词性；利用开源工具REfO定义匹配规则；当拥有特定词汇或词性的组合出现时，一条规则匹配成功，执行预设的函数；针对每条用户查询，首先利用开源分词工具Jieba对用户查询进行分词和词性标注，得到一个对象列表；其次与预定义的规则逐一匹配；匹配成功，则执行对应的函数；匹配失败，则采用基于神经网络的方法；所述的基于神经网络的方法具体为：将用户查询语义解析分解为两个子问题：命名实体识别与短文本分类；...

【专利技术属性】
技术研发人员：吴江琴，黄诗磊，庄越挺，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人