一种图谱网络的生成方法和装置制造方法及图纸

技术编号:34436304 阅读:14 留言:0更新日期:2022-08-06 16:20
本发明专利技术公开了一种图谱网络的生成方法,包括以下步骤:定义图谱网络的结构,结构包括标题节点、元素节点和节点路径;其中,节点路径为标题节点与元素节点之间的关系元素;获取信息来源文本,对信息来源文本进行解析,获取文本标题和文本内容;对文本内容进行结构化处理,生成图谱网络。根据上述技术方案,可以提高生成图谱网络的灵活度,增加了扩展性,使对各种信息进行关联时,内容更清晰、准确、实现过程更灵活高效。灵活高效。灵活高效。

【技术实现步骤摘要】
一种图谱网络的生成方法和装置


[0001]本专利技术涉及计算机应用领域,具体而言,涉及一种图谱网络的生成方法和装置。

技术介绍

[0002]如今互联网信息爆炸式增长,信息来源繁多,一个事件在一定时间内,来自不同来源的信息量会大量增长,在对信息的管理中,每新增一条信息,需要对信息的关联进行把控。在本领域中,图谱网络是一种将各种信息进行关联的方法。
[0003]目前常用的生成图谱网络的方式有很多种,常用的文本关联方式生成图谱网络时,计算信息之间的关联容易边界不清晰,易受相近词干扰,导致关联错误,特别是在要求关联严谨的应用场景,需要额外的大量处理才能提高关联的准确度;另一方面,图谱网络的结构如果过于复杂,元素节点之间还会间隔着多层关系,在构成图谱网络时,或者是在现有的基础上增加新的信息时,需要与已有所有信息计算关联,计算量大。
[0004]因此需要一种清晰、准确、灵活高效地对各种信息进行关联的图谱网络结构及生成的方案。

技术实现思路

[0005]第一方面,为实现上述目的,本申请提供了一种图谱网络的生成方法,包括以下步骤:
[0006]定义图谱网络的结构,包括标题节点、元素节点和节点路径;其中,节点路径为标题节点与元素节点之间的关系元素。
[0007]获取信息来源文本,对信息来源文本进行解析,获取文本标题和文本内容;
[0008]对文本内容进行结构化处理,生成图谱网络,其中结构化处理与所述图谱网络的结构匹配。
[0009]在对所述文本内容进行结构化处理前,解析所述文本内容,获得基本元素和主题三元组,主题三元组包括:三元组主语、三元组谓语、三元组宾语;
[0010]基本元素包括:主题时间、主题地区、主题人物机构名称;
[0011]对关系元素进行配置,关系元素的范围包括:人物、国家、省份、城市、三元组主宾语、三元组谓语。
[0012]进一步的,结构化处理包括:
[0013]将文本标题匹配为标题节点;
[0014]将基本元素匹配为元素节点;
[0015]将三元组主语、三元组宾语匹配为元素节点;
[0016]从关系元素中选择元素节点与标题节点之间的节点路径。
[0017]进一步的,解析所述文本内容包括,提取时间、提取地点、提取人物机构名称;
[0018]其中,所述提取时间包括:标准时间词提取、特殊时间词提取、时间补全和标记时间边界。
[0019]其中,提取地点包括:词表搜索提取地名、地区补全处理;执行提取地区前,构造地点结构树,用于所述地区补全处理。
[0020]其中,提取人物机构名称包括:准备文本内容、标记特征位置、训练BERT 模型、使用所述BERT模型获取人物机构名称。
[0021]进一步的,标记时间边界指:获取一个文本内容中的一个或多个时间,提取一个主题包括的时间集合,从中确定最大时间,确定最小时间,标记最大时间和所小时间为时间边界。
[0022]另一方面,本申请提供了一种图谱网络的生成装置,包括:
[0023]图谱网络结构确定模块:用于确定图谱网络结构,本专利技术中的图谱网络结构包括标题节点、元素节点和节点路径;其中,节点路径为标题节点与元素节点之间的关系元素。
[0024]信息输入模块:用于获取信息来源文本,对信息来源文本进行解析,输出文本标题和文本内容;
[0025]结构化文本处理模块:用于将信息输入模块输出的文本标题和文本内容生成图谱网络,图谱网络符合图谱网络结构确定模块提供的结构规则;
[0026]图谱网络输出模块:存储和输出需要的图谱网络。
[0027]进一步的,结构化文本处理模块还包括:
[0028]结构数据处理子模块:用于处理文本内容,抽取基本元素,所述基本元素包括主题时间、主题地区、主题人物机构名称:
[0029]三元组处理子模块:用于处理文本内容,解析生成三元组信息,三元组信息包括:三元组主语、三元组宾语和三元组谓语;
[0030]图谱网络匹配子模块:获取匹配规则,生成图谱网络,其中图谱网络的数据来自所述基本元素和三元组信息。
[0031]在生成图谱网络的过程即结构与数据的匹配,匹配规则在图谱网络结构确定模块定义,包括:
[0032]将文本标题匹配为标题节点;
[0033]将基本元素匹配为元素节点;
[0034]将三元组主语、三元组宾语匹配为元素节点;
[0035]选择元素节点与标题节点之间的节点路径。
[0036]本专利技术中采用了单层间隔元素节点的简化型图谱网络,节点之间采用了文本片段,因此,避免了相近词的干扰,缩小了关联范围,提高了关联的准确率。本专利技术中对功能的封装,提高了处理的灵活度,增加了扩展性,使对各种信息进行关联时,内容更清晰、准确、实现过程更灵活高效。
附图说明
[0037]图1是根据本专利技术实施例提供的微博话题原始信息图;;
[0038]图2是根据本专利技术实施例提供的图谱网络的生成流程图;
[0039]图3是根据本专利技术实施例提供的图谱网络结构图;
[0040]图4是根据本专利技术实施例提供的地点结构树示意图;
[0041]图5是根据本专利技术实施例提供的提取人物机构名称的计算流程图;
[0042]图6是根据本专利技术实施例提供的图谱网络生成装置结构图。
具体实施方式
[0043]下面结合说明书附图对本专利技术的具体实现方式做一详细描述。
[0044]本专利技术提供的图谱网络的生成方法,基于文本信息的内容,对文本信息进行核心数据的抽取,并对关键词的结构化,匹配至图谱网络的结构节点,以网状显示一条信息中各元素的关系,多信息之间各元素的关系,以实现多信息多角度的关联。采用本申请的图谱网络结构,可以对多种话题、新闻资讯建立关联,关联的方式可以是话题、人物、事件等,根据不同的关联因素可以生成不同的思维导图,例如应用在话题分类中生成主题事件脉落。
[0045]本文中以微博场景下的一个案例举例进行说明:微博的内容具备话题性质,信息的创作者,会以#号嵌入话题的标题,而发布信息,即文本信息中,话题与话题之间并没有联系,属于同一个事件的多个话题。如图1所示。
[0046]图2是本专利技术实施例中提供的图谱网络的生成方法流程图,如图所示,包括以下步骤:
[0047]S100:定义图谱网络的结构,包括标题节点、元素节点和节点路径,节点路径为标题节点与元素节点之间的关系元素,一个标题节点与多个元素节点对应。在图谱网图的展示中,标题节点用方框表示,元素节点用椭圆框表示。
[0048]图2为本专利技术实施例提供的图谱网络结构图,如图3中展示了三个话题,即三个标题节点,三个话题相关的关系元素,如地区、人物、事件,三个标题节点与各关系元素的关系定义。
[0049]确定结构后,在以下步骤中填充将图谱网络中的各元素和路径。
[0050]S110:获取信息来源文本,对所述信息来源文本进行解析,获取文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图谱网络的生成方法,其特征在于,包括以下步骤:定义图谱网络的结构,所述结构包括标题节点、元素节点和节点路径;其中,所述节点路径为标题节点与元素节点之间的关系元素;获取信息来源文本,对所述信息来源文本进行解析,获取文本标题和文本内容;对所述文本内容进行结构化处理,生成图谱网络,其中所述结构化处理与所述图谱网络的结构匹配。2.根据权利要求1所述的图谱网络的生成方法,其特征在于,所述对所述文本内容进行结构化处理前,解析所述文本内容,获得基本元素和主题三元组,所述主题三元组包括:三元组主语、三元组谓语、三元组宾语;所述基本元素包括:主题时间、主题地区、主题人物机构名称;配置所述关系元素范围,包括:人物、国家、省份、城市、三元组主宾语、三元组谓语。3.根据权利要求2所述的图谱网络的生成方法,其特征在于,所述结构化处理包括:将所述文本标题匹配为标题节点;将所述基本元素匹配为元素节点;将所述三元组主语、三元组宾语匹配为元素节点;从所述关系元素范围中选择元素节点与标题节点之间的节点路径。4.根据权利要求2所述的图谱网络的生成方法,其特征在于,所述解析所述文本内容包括,提取时间、提取地点、提取人物机构名称;其中,所述提取时间包括:标准时间词提取、特殊时间词提取、时间补全和标记时间边界。5.根据权利要求4所述的图谱网络的生成方法,其特征在于,所述提取地点包括:词表搜索提取地名、地区补全处理;其中,执行所述提取地区前,构造地点结构树,用于所述地区补全处理。6.根据权利要求4所述的图谱网络的生成方法,其特征在于,所述提取人物机构名称包括:准备文本内容、标记特征位置、训练...

【专利技术属性】
技术研发人员:欧锦华李晓鹏田丹高瑞雪
申请(专利权)人:广州启生信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1