一种面向半结构化领域数据的知识图谱自动构建方法技术

技术编号:29614730 阅读:12 留言:0更新日期:2021-08-10 18:29
本发明专利技术提供了一种面向半结构化领域数据的知识图谱自动构建方法,所述方法包括以下步骤:S1:准备用于构建领域知识图谱的半结构化领域数据;S2:创建包括概念在知识图谱中的名字、概念与概念之间的关系、实例数据提取正则表达式的规则库;S3:结合所述规则库,将半结构化数据自动转换为结构化数据,完成数据的自动提取;S4:生成与所提供数据和规则相对应的概念‑实体关系集;S5:将概念‑实体关系集存入数据库;以及S6:根据概念‑实体关系集构建知识图谱和更新知识图谱。本发明专利技术提高了知识图谱自动构建方法的适用范围、减少了构建知识图谱所需要成本。

【技术实现步骤摘要】
一种面向半结构化领域数据的知识图谱自动构建方法
本专利技术涉及知识图谱自动构建
,具体地,涉及一种面向半结构化领域数据的知识图谱自动构建方法。
技术介绍
人工构建知识图谱是一个即耗时又昂贵的技巧化任务,并且构建的时候过程烦琐容易出错,因此,如何自动地构建知识图谱具有重要的意义。根据自动构建方法所面向领域数据的类型,有面向结构化领域数据、半结构化领域数据、非结构化领域数据的自动构建方法。目前,针对半结构化领域数据的知识图谱自动构建方法都是针对特定领域中的特定数据,各领域之间的自动构建方法无法进行很好的迁移,面对新领域中的半结构化数据需要重新针对该领域中数据进行设计新的知识图谱自动构建方法。中国专利文献CN111949828公布了一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法,通过固定半结构化表格,按照数据在表格中的位置和对特定类型数据格式和值的规定,以及提前规定好的概念与概念之间的关系实现对数据的自动提取。然而,该方法对数据的要求较高,提取的方法较为死板,不能对其他领域的知识图谱进行迁移,使得对另外领域的知识图谱进行构建时要重新提出方法,浪费人力,这也是目前很多领域知识图谱构建方法的缺点。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的在于提供一种提高了知识图谱自动构建方法的适用范围、减少了构建知识图谱所需要成本的面向半结构化领域数据的知识图谱自动构建方法。为解决上述问题,本专利技术的技术方案为:一种面向半结构化领域数据的知识图谱自动构建方法,所述方法包括以下步骤:S1:准备用于构建领域知识图谱的半结构化领域数据;S2:创建包括概念在知识图谱中的名字、概念与概念之间的关系、实例数据提取正则表达式的规则库;S3:结合所述规则库,将半结构化数据自动转换为结构化数据,完成数据的自动提取;S4:生成与所提供数据和规则相对应的概念-实体关系集;S5:将概念-实体关系集存入数据库;以及S6:根据概念-实体关系集构建知识图谱和更新知识图谱。可选地,所述步骤S1中准备的半结构化数据为表格形式,表格中列名为概念类别,每个概念类别下的数据为对应概念类别的实例数据。可选地,所述步骤S2具体包括:对于要提取的数据为结构化数据,将正则表达式定义为保留全部字符;对于要提取的数据为半结构化数据,需要在正则表达式中定义数据匹配样式;对于要提取的数据为非结构化数据,需要对非结构化数据进行数据的清洗和提取。可选地,所述步骤S3具体包括:读取规则库中所有规则,暂存在数组ru中;结合所读取的规则,利用正则表达式清洗和提取数据;将处理过后的数据暂存在数组d中。可选地,所述结合所读取的规则,利用正则表达式清洗和提取数据的步骤具体包括:按行遍历除列名之外的表格,获取表格每一行每一列单元格的值,同时遍历表格中列名和所有规则,如果列名和规则数组ru中存储的列名相同时,则将原先的列名替换为规则数组ru中对应元素的图谱中概念并使用对应元素中所定义的正则表达式,对该列名所在下标的元素使用正则表达式进行数据清洗和提取。可选地,所述对数据的清洗和提取具体包括:使用对应的正则表达式对实例数据进行匹配,如果匹配不成功,则返回空字符串,如果匹配成功,则将所匹配到的内容通过间隔符号进行拼接之后返回整个字符串。可选地,所述步骤S4具体包括:遍历规则数组ru,找到规则数组ru中关系值为null的元素,读取关系为null的元素的列名值,将数组d中该列名所在列与第一列进行交换;遍历数组d,在列与列中间加入关系列,根据规则数组ru,找到和当前概念相同的图谱中概念的元素,将该元素中的关系值插入列与列之间,得到概念-实体关系数组d_r,从而得到与所提供数据和规则相对应的概念-实体关系集。可选地,所述步骤S5具体包括:遍历步骤S4得到的概念-实体关系数组d_r,按行依次将概念、对应实例数据及其实例与实例之间的关系存入数据库。可选地,所述步骤S6具体包括:如果数据与之前处理的数据结构相同,则重复步骤S3更新知识图谱,否则,重复步骤S1构建知识图谱。与现有技术相比,本专利技术针对半结构化领域数据,通过用户提供规则库来完成对半结构化数据的清洗、提取,自动抽取出构建知识图谱所需的概念及其实例数据,根据规则库自动生成概念-实体关系集,自动构建了知识图谱,可以减少或避免在对不同结构表格形式半结构化数据构建知识图谱时,需要针对不同数据、不同领域采用不同方法的问题,提高了知识图谱自动构建方法的适用范围和效率,减少了在构建知识图谱过程中所需的成本,为实现对普遍表格形式半结构化数据自动构建领域知识图谱提供方案。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例提供的面向半结构化领域数据的知识图谱自动构建方法流程框图;图2为本专利技术实施例提供的将半结构化数据自动转换为结构化数据的流程示意图;图3为本专利技术实施例提供的生成概念-实体关系集的流程示意图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。图1为本专利技术实施例提供的面向半结构化领域数据的知识图谱自动构建方法流程框图,如图1所示,所述方法包括以下步骤:S1:准备用于构建领域知识图谱的半结构化领域数据;具体地,准备的半结构化数据为表格形式存在,表格中列名为概念类别,每个概念类别下的数据为对应概念类别的实例数据。若干表格中对实例数据类型、数据长度等没有严格的要求,并且每张表中所含概念不必完全相同,但每张表中相同概念所对应的实例数据类型、结构应保持一致,如下表1和表2所示,其中表1表示表格形式半结构化数据模式图,表1中仅含有概念1和概念2;表2表示另外一种表格形式半结构化数据模式图,表2中则含有概念1、概念3、概念5,表中概念数量不确定,并且包含的所需概念也不确定。概念1概念2半结构化数据非结构化实例数据表1概念1概念3概念5半结构化数据结构化数据非结构化实例数据表2S2:创建包括概念在知识图谱中的名字、概念与概念之间的关系、实例数据提取正则表达式的规则库;具体地,规则以<表格中概念>:概念类别名,<图谱中概念>:概念类别名,<关系>:关系名,<数据提取规则>:正则表达式的形式存储。其中,<表格中概念>和<图谱中概念>为唯一值,不可重复出现。概念与概本文档来自技高网...

【技术保护点】
1.一种面向半结构化领域数据的知识图谱自动构建方法,其特征在于,所述方法包括以下步骤:/nS1:准备用于构建领域知识图谱的半结构化领域数据;/nS2:创建包括概念在知识图谱中的名字、概念与概念之间的关系、实例数据提取正则表达式的规则库;/nS3:结合所述规则库,将半结构化数据自动转换为结构化数据,完成数据的自动提取;/nS4:生成与所提供数据和规则相对应的概念-实体关系集;/nS5:将概念-实体关系集存入数据库;以及/nS6:根据概念-实体关系集构建知识图谱和更新知识图谱。/n

【技术特征摘要】
1.一种面向半结构化领域数据的知识图谱自动构建方法,其特征在于,所述方法包括以下步骤:
S1:准备用于构建领域知识图谱的半结构化领域数据;
S2:创建包括概念在知识图谱中的名字、概念与概念之间的关系、实例数据提取正则表达式的规则库;
S3:结合所述规则库,将半结构化数据自动转换为结构化数据,完成数据的自动提取;
S4:生成与所提供数据和规则相对应的概念-实体关系集;
S5:将概念-实体关系集存入数据库;以及
S6:根据概念-实体关系集构建知识图谱和更新知识图谱。


2.根据权利要求1所述的面向半结构化领域数据的知识图谱自动构建方法,其特征在于,所述步骤S1中准备的半结构化数据为表格形式,表格中列名为概念类别,每个概念类别下的数据为对应概念类别的实例数据。


3.根据权利要求1所述的面向半结构化领域数据的知识图谱自动构建方法,其特征在于,所述步骤S2具体包括:对于要提取的数据为结构化数据,将正则表达式定义为保留全部字符;对于要提取的数据为半结构化数据,需要在正则表达式中定义数据匹配样式;对于要提取的数据为非结构化数据,需要对非结构化数据进行数据的清洗和提取。


4.根据权利要求1所述的面向半结构化领域数据的知识图谱自动构建方法,其特征在于,所述步骤S3具体包括:
读取规则库中所有规则,暂存在数组ru中;
结合所读取的规则,利用正则表达式清洗和提取数据;
将处理过后的数据暂存在数组d中。


5.根据权利要求4所述的面向半结构化领域数据的知识图谱自动构建方法,其特征在于,所述结合所读取的规则,利用正则表达式清洗和提取数据的步骤具体包...

【专利技术属性】
技术研发人员:陈明朱珏樟
申请(专利权)人:上海海洋大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1