政策文本的知识图谱构建方法及系统技术方案

技术编号:27879203 阅读:113 留言:0更新日期:2021-03-31 01:08
本发明专利技术实施例提供一种政策文本的知识图谱构建方法及系统。方法包括:获取待构建知识图谱的政策文本;基于模式匹配技术对政策文本进行处理,得到政策文本的框架信息;基于深度学习技术对政策文本进行处理,得到政策文本的属性信息;基于句法分析技术对政策文本中的每一单句进行处理,得到每一单句的实体关系信息;基于政策文本的框架信息、政策文本的属性信息以及政策文本中每一单句的实体关系信息,构建政策文本的知识图谱。本发明专利技术实施例提供的方法及系统,通过基于模式匹配的政策文本框架提取、基于神经网络的政策文本属性信息提取和基于句法分析的政策文本实体关系抽取,能够完成对政策文本的解析,从而构建得到政策文本对应的知识图谱。

【技术实现步骤摘要】
政策文本的知识图谱构建方法及系统
本专利技术涉及计算机
,尤其涉及一种政策文本的知识图谱构建方法及系统。
技术介绍
知识图谱的概念诞生于2012年。为了使知识和信息系统化,使用户可以通过任意一个关键词获得完整的相关知识体系,提高搜索质量,Google提出了知识图谱的概念并构建了最初的知识图谱。由于知识图谱能够准确地反映真实世界的事实,并能够良好地表达概念、层次等抽象知识,近年来,知识图谱已被应用于多个领域,并围绕其开展了大量的研究。知识图谱研究领域的愿景是构建一个结构化的知识库,服务于人工智能领域的方方面面。知识图谱将能够作为人工智能生态的基础设施,提升数据获取效率,降低知识应用门槛,提高知识工作效能。知识图谱将能够作为大数据时代的知识引擎,及时从最新信息源中获取结构化知识。知识图谱将能够作为人工智能时代的机器智脑,让机器理解人类社会的背景知识。知识图谱中涉及两项重要的技术,分别是命名实体识别技术和关系抽取技术。现实中知识图谱已经被应用到很多场景中,如人名、地名识别等,但是在政策领域没有搭建完整的框架,现有的政策知识图谱是从宏观上政策之间关系的构建,但是缺乏细粒度的信息解析。传统的知识图谱中,包含明确的实体和关系,通过对文本内容进行分析,提取其中的实体和关系。但是对于政策文本来说,政策文本很难界定文本中明确的实体、属性和关系,政策文本主要是由动宾结构构成,并且整体上,存在论述框架,需要针对政策特定领域来制定知识图谱构建方案。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种政策文本的知识图谱构建方法及系统。第一方面,本专利技术实施例提供一种政策文本的知识图谱构建方法,包括:获取待构建知识图谱的政策文本;基于模式匹配技术对所述政策文本进行处理,得到所述政策文本的框架信息;基于深度学习技术对所述政策文本进行处理,得到所述政策文本的属性信息;基于句法分析技术对所述政策文本中的每一单句进行处理,得到每一单句的实体关系信息;基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息,构建所述政策文本的知识图谱。进一步地,所述政策文本包括目录,基于模式匹配技术对所述政策文本进行处理,得到所述政策文本的框架信息,包括:构建若干正则表达式;将每一所述正则表达式与所述政策文本的目录进行匹配,若匹配到,则获取匹配结果,将获取到的所有所述匹配结果作为所述政策文本的框架信息。进一步地,所述政策文本的框架信息包括所述政策文本的目录中的若干标题,若干所述标题包括指导思想、发展原则、发展目标、重点任务、重大工程和保障措施中的任意一种或多种的组合。进一步地,所述政策文本包括前言,基于深度学习技术对所述政策文本进行处理,得到所述政策文本的属性信息,包括:将所述政策文本的前言输入至训练后的神经网络模型,获取所述神经网络模型的输出结果,将所述输出结果作为所述政策文本的属性信息。进一步地,所述神经网络模型为TENER模型。进一步地,所述政策文本的属性信息包括所述政策文本的前言中的发布地点、发布机构和发布时间中的任意一种或多种的组合。进一步地,基于句法分析技术对所述政策文本中的每一单句进行处理,得到每一单句的实体关系信息,包括:获取所述政策文本中的若干单句;对于每一单句,基于句法树分析方法对所述单句进行解析,以提取所述单句中的动词和对应的名词,并将所述动词作为关系,将所述名词作为实体。第二方面,本专利技术实施例提供一种政策文本的知识图谱构建系统,包括:政策文本获取模块,用于获取待构建知识图谱的政策文本;框架信息获取模块,用于基于模式匹配技术对所述政策文本进行处理,得到所述政策文本的框架信息;属性信息获取模块,用于基于深度学习技术对所述政策文本进行处理,得到所述政策文本的属性信息;实体关系信息获取模块,用于基于句法分析技术对所述政策文本中的每一单句进行处理,得到每一单句的实体关系信息;知识图谱构建模块,用于基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息,构建所述政策文本的知识图谱。第三方面,本专利技术实施例提供一种电子设备,包括存储器和处理器;其中,所述存储器中存储有计算机程序;所述处理器,用于执行所述计算机程序以实现如上所述的政策文本的知识图谱构建方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的政策文本的知识图谱构建方法。本专利技术实施例提供的政策文本的知识图谱构建方法及系统,通过基于模式匹配的政策文本框架提取、基于神经网络的政策文本属性信息提取和基于句法分析的政策文本实体关系抽取,能够完成对政策文本的解析,从而构建得到政策文本对应的知识图谱。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的政策文本的知识图谱构建方法流程图;图2为本专利技术实施例提供的单句句法解析示意图;图3为本专利技术实施例提供的政策文本的知识图谱的结构示意图;图4为本专利技术实施例提供的政策文本的知识图谱构建系统的结构示意图;图5为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的政策文本的知识图谱构建方法流程图,如图1所示,该构建方法包括:步骤101,获取待构建知识图谱的政策文本。具体地,随着互联网、人工智能和大数据等计算机应用在各行各业中的快速发展,大量关于互联网、人工智能和大数据等计算机领域的政策层出不穷,以规范和促进互联网、人工智能和大数据等计算机领域的发展。本专利技术实施例中的待构建知识图谱的政策文本即是指互联网、人工智能和大数据等计算机领域的政策文本。步骤102,基于模式匹配技术对所述政策文本进行处理,得到所述政策文本的框架信息。具体地,模式匹配是数据结构中字符串的一种基本运算,即给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,这就是模式匹配。对该政策文本进行模式匹配,能够得到该政策文本的框架信息。需要说明的是,框架信息具体指政策文本的各章节的标题。步骤103,基于深度学习技术对所述政策文本进行处理,得到所述政本文档来自技高网...

【技术保护点】
1.一种政策文本的知识图谱构建方法,其特征在于,包括:/n获取待构建知识图谱的政策文本;/n基于模式匹配技术对所述政策文本进行处理,得到所述政策文本的框架信息;/n基于深度学习技术对所述政策文本进行处理,得到所述政策文本的属性信息;/n基于句法分析技术对所述政策文本中的每一单句进行处理,得到每一单句的实体关系信息;/n基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息,构建所述政策文本的知识图谱。/n

【技术特征摘要】
1.一种政策文本的知识图谱构建方法,其特征在于,包括:
获取待构建知识图谱的政策文本;
基于模式匹配技术对所述政策文本进行处理,得到所述政策文本的框架信息;
基于深度学习技术对所述政策文本进行处理,得到所述政策文本的属性信息;
基于句法分析技术对所述政策文本中的每一单句进行处理,得到每一单句的实体关系信息;
基于所述政策文本的框架信息、所述政策文本的属性信息以及所述政策文本中每一单句的实体关系信息,构建所述政策文本的知识图谱。


2.根据权利要求1所述的政策文本的知识图谱构建方法,其特征在于,所述政策文本包括目录,基于模式匹配技术对所述政策文本进行处理,得到所述政策文本的框架信息,包括:
构建若干正则表达式;
将每一所述正则表达式与所述政策文本的目录进行匹配,若匹配到,则获取匹配结果,将获取到的所有所述匹配结果作为所述政策文本的框架信息。


3.根据权利要求2所述的政策文本的知识图谱构建方法,其特征在于,所述政策文本的框架信息包括所述政策文本的目录中的若干标题,若干所述标题包括指导思想、发展原则、发展目标、重点任务、重大工程和保障措施中的任意一种或多种的组合。


4.根据权利要求1所述的政策文本的知识图谱构建方法,其特征在于,所述政策文本包括前言,基于深度学习技术对所述政策文本进行处理,得到所述政策文本的属性信息,包括:
将所述政策文本的前言输入至训练后的神经网络模型,获取所述神经网络模型的输出结果,将所述输出结果作为所述政策文本的属性信息。


5.根据权利要求4所述的政策文本的知识图谱构建方法,其特征在于,所述神经网络模型为TENER模型。


6....

【专利技术属性】
技术研发人员:孙璐李向前刘巍曹扬王鹏王晖巢文涵郝雅琦张金言
申请(专利权)人:国家工业信息安全发展研究中心中电科大数据研究院有限公司中译语通科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1