【技术实现步骤摘要】
一种材料基因工程无模式数据转换为知识图谱的方法
[0001]本专利技术涉及无模式数据处理领域,具体的提供了一种材料基因工程无模式数据转换为知识图谱的方法。
技术介绍
[0002]传统的材料基因工程领域描述数据使用关系型数据库,其需要预先定义数据库的模式才能存储数据,这种方法使得关系型数据库存储材料数据灵活性差。
[0003]为了解决材料数据存储的灵活性,材料基因工程领域提出基于无模式数据库的存储方式,通过无模式数据来描述材料数据之间的关系,用户可以灵活设置数据模式,例如用户能够自定义材料的概念、属性和它们之间的关系等。所以,无模式数据存储具有方便和直观的优点。然而,材料领域专家在建立无模式数据时没有统一的标准,导致材料领域之间的数据难于共享,在进行数据汇交的时候,很难实现跨模式的查询。
[0004]因此,一种将材料基因工程无模式数据之间建立关联,实现异构的数据的融合的方法亟待出现,这样能够在保持材料基因工程领域数据存储灵活的同时,也能够实现不同来源数据的共享以及联合查询。知识图谱能够有效的表达数据之间的关联,利用知识图谱实现不同模式的材料数据的融合,将容器内的标签作为数据之间的关系,在异构模式下的数据进行关联,实现统一的视图,解决信息孤岛问题。
[0005]无模式数据的具体存储结构为:
[0006]*使用json格式存储
[0007]*一个json文件分为templete和data两个部分
[0008]*其中templete描述了数据的结构,即对图1所示结构的描述。r/>[0009]*data部分的数据包含若干条记录数据,描述了当前templete格式下的若干组实例
[0010]*每组实例分为两个部分:meta和content。
[0011]*meta用于描述当前实例的特征,例如来源,数据ID,关键词等信息,content使用templete规定的格式描述了meta所介绍的真实数据值。其结构如下所示:
[0012][0013]
技术实现思路
[0014]本专利技术的目的在于解决无模式数据存在数据标签不规范不统一(如同词异义、同义异词)的问题,导致无模式的材料数据之间无法跨模板查询与检索的问题,通过将无模式数据转换为知识图谱,图形数据库建立知识图谱时将不同数据结构不同种类的无模式数据利用节点和关系边关联,能自由实现无模式数据之间跨模板的查询和检索。
[0015]为了达到上述目的,本专利技术采用如下技术方案:
[0016]一种材料基因工程无模式数据转换为知识图谱的方法,包括以下步骤:
[0017]单个无模式数据包含template和data两个部分,其中template部分描述了由实体组成的数据结构,data部分的数据包含若干条记录数据,每一条数据使用template规定的格式描述了每个实体对应的真实数据值,
[0018]其特征在于:
[0019]步骤s0.初始化关联视图,初始化融合视图;
[0020]步骤s1、执行步骤s2
‑
步骤s5逐一对待融合的单个无模式数据进行以下处理,直至所有无模式数据全部更新进入关联视图和融合视图:步骤s2.对单个无模式数据中本体节点、属性节点和关系属性申明:
[0021]根据单个无模式数据中的template部分的各个实体的层次关系,将各个实体定义为本体节点或属性节点,根据本体节点与本体节点之间的层次关系、本体节点和属性节点之间的层次关系得到关系属性;
[0022]步骤s3.对单个无模式数据中本体节点、属性节点对应的知识图谱数据申明:
[0023]将步骤S1申明的单个无模式数据的本体节点、属性节点与单个无模式数据中的data部分的每个实体的真实数据值根据关系属性进行映射,得到本体节点、属性节点对应的知识图谱数据,即得到单个无模式数据的知识图谱数据;
[0024]步骤s4.将当前无模式数据的本体节点与关联视图的本体节点通过语义相似度进行融合,将当前待关联的属性节点与关联视图的属性节点通过语义相似度进行关联,得到新的关联视图;
[0025]步骤s5.将关联视图的融合本体节点或关联属性节点对应知识图谱数据与待融合
的单个无模式数据的知识图谱数据根据相似度进行融合,得到融合后的知识图谱数据,将关联视图的融合本体节点或关联属性节点与对应的融合后的知识图谱数据关联得到融合视图。
[0026]上述技术方案中,述步骤S1包括以下步骤:
[0027]步骤S1
‑
1:获取单个无模式数据,得到单个无模式数据中所有实体;
[0028]步骤S1
‑
2:在单个无模式数据的所有实体中,通过单个无模式数据的每个实体的“_type”值,申明单个无模式数据中的本体节点和属性节点;
[0029]步骤S1
‑
3:如果“type=aaa”,aaa取值包含容器型、表格型,则当前实体为本体节点;
[0030]步骤S1
‑
4:如果“_type=bbb”,bbb取值包含字符串型、数值型、范围型、候选型、文件、图片型,则当前实体为属性节点;
[0031]步骤S1
‑
5:在单个无模式数据中所有申明的本体节点和属性节点中,通过每个实体的路径申明本体节点与本体节点、本体节点与属性节点之间的关系属性。
[0032]上述技术方案中,所述步骤S2包括以下步骤:
[0033]步骤S2
‑
1:获取单个无模式数据,得到单个无模式数据的本体节点、属性节点和关系属性以及单个无模式数据中data部分的若干条记录数据,即若干条知识图谱数据;
[0034]步骤S2
‑
2:根据关系属性对单个无模式数据中所有的记录数据,映射到对应的无模式数据本体节点、属性节点;
[0035]步骤S2
‑
3:对每条记录数据,经过步骤S2
‑
2映射得到包含属性节点值的本体节点。
[0036]上述技术方案中,定义关联视图为视图1,融合视图为视图2,所述步骤S4包括以下步骤:
[0037]步骤S4
‑
1:加载单个无模式数据,根据步骤S1得到单个无模式数据的本体节点、属性节点和关系属性,得到待融合的单个无模式数据;
[0038]步骤S4
‑
2:加载最新的关联视图,如果最新的关联视图为空,则执行步骤S4
‑
3;如果最新的关联视图不为空,则执行步骤S4
‑
4;
[0039]步骤S4
‑
3:将当前单个无模式数据的本体节点之间的关系、本体节点与属性节点之间的关系更新进入视图1,得到最新的关联视图;
[0040]步骤S4
‑
4:加载最新的关联视图得到最新的关联视图中所有的本体节点和属性节点;
[0041]步骤S4
‑
5:利用BERT计算步骤S4
...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种材料基因工程无模式数据转换为知识图谱的方法,其特征在于,包括以下步骤:单个无模式数据包含template和data两个部分,其中template部分描述了由实体组成的数据结构,data部分的数据包含若干条记录数据,每一条数据使用template规定的格式描述了每个实体对应的真实数据值,其特征在于:步骤s0.初始化关联视图,初始化融合视图;步骤s1.执行步骤s2
‑
步骤s5逐一对待融合的单个无模式数据进行以下处理,直至所有无模式数据全部更新进入关联视图和融合视图;步骤s2.对单个无模式数据中本体节点、属性节点和关系属性申明:根据单个无模式数据中的template部分的各个实体的层次关系,将各个实体定义为本体节点或属性节点,根据本体节点与本体节点之间的层次关系、本体节点和属性节点之间的层次关系得到关系属性;步骤s3.对单个无模式数据中本体节点、属性节点对应的知识图谱数据申明:将步骤S2申明的单个无模式数据的本体节点、属性节点与单个无模式数据中的data部分的每个实体的真实数据值根据关系属性进行映射,得到本体节点、属性节点对应的知识图谱数据,即得到单个无模式数据的知识图谱数据;步骤s4.将当前无模式数据的本体节点与关联视图的本体节点通过语义相似度进行融合,将当前待关联的属性节点与关联视图的属性节点通过语义相似度进行关联,得到新的关联视图;步骤s5.将关联视图的融合本体节点或关联属性节点对应知识图谱数据与待融合的单个无模式数据的知识图谱数据根据相似度进行融合,得到融合后的知识图谱数据,将关联视图的融合本体节点或关联属性节点与对应的融合后的知识图谱数据关联得到融合视图。2.根据权利要求1所述的一种材料基因工程无模式数据转换为知识图谱的方法,其特征在于,所述步骤S2包括以下步骤:步骤S2
‑
1:获取单个无模式数据,得到单个无模式数据中所有实体;步骤S2
‑
2:在单个无模式数据的所有实体中,通过单个无模式数据的每个实体的“_type”值,申明单个无模式数据中的本体节点和属性节点;步骤S2
‑
3:如果“_type=aaa”,aaa取值包含容器型、表格型,则当前实体为本体节点;步骤S2
‑
4:如果“_type=bbb”,bbb取值包含字符串型、数值型、范围型、候选型、文件、图片型,则当前实体为属性节点;步骤S2
‑
5:在单个无模式数据中所有申明的本体节点和属性节点中,通过每个实体的路径申明本体节点与本体节点、本体节点与属性节点之间的关系属性。3.根据权利要求1所述的一种材料基因工程无模式数据转换为知识图谱的方法,其特征在于,所述步骤S3包括以下步骤:步骤S3
‑
1:获取单个无模式数据,得到单个无模式数据的本体节点、属性节点和关系属性以及单个无模式数据中data部分的若干条记录数据,即若干条知识图谱数据;步骤S3
‑
2:根据关系属性对单个无模式数据中所有的记录数据,映射到对应的无模式数据本体节点、属性节点;步骤S3
‑
3:对每条记录数据,经过步骤S3
‑
2映射得到包含属性节点值的本体节点。
4.根据权利要求1所述的一种材料基因工程无模式数据转换为知识图谱的方法,其特征在于,所述步骤S4包括以下步骤:步骤S4
‑
1:加载单个无模式数据,根据步骤S2得到单个无模式数据的本体节点、属性节点和关系属性,得到待融合的单个无模式数据;步骤S4
‑
2:加载最新的关联视图,如果最新的关联视图为空,则执行步骤S4
‑
3;如果最新的关联视图不为空,则执行步骤S4
‑
4;步骤S4
‑
3:将当前单个无模式数据的本体节点之间的关系、本体节点与属性节点之间的关系更新进入关联视图,得到最新的关联视图;步骤S4
‑
4:加载最新的关联视图得到最新的关联视图中所有的本体节点和属性节点;步骤S4
‑
5:利用BERT计算步骤S4
‑
1获得的当前待融合的单个无模式数据的本体节点与最新的关联视图的本体节点两两节点之间的相似度,即本体相似度,获得本体相似度列表,具体的:单个无模式数据的本体节点列表O=[o1,...,o
i
,...,o
m
],其中本体节点o
i
=[c1,...,c
l
]是由l个字组成;最新的关联视图本体节点X=[x1,...,x
i
,...,x
n
],其中本体节点x
i
=[w1,...,w
k
]是由k个字组成;对于包含m个本体节点的O和包含n个本体节点的X,利用BERT语言模型两两计算本体节点之间的相似度,共执行m
×
n次,具体为:对于本体节点o
i
和本体节点x
i
:本体节点o
i
中的每个字c
i
,其对应的初始化嵌入向量为本体节点x
i
中的每个字w
i
对应的初始化嵌入向量为将o
i
和x
i
进行拼接,形式如[CLS]c1,...,c
l
[SEP]w1,...,w
k
,送入BERT语言模型进行相似度计算,即BERT(o
i
,x
i
),获得o
i
和x
i
的相似度大小;最终获得长度为m
×
n的本体节点相似度列表:S1=[[o1,x1,BERT(o1,x1)],...,[o
i
,x
i
,BERT(o
i
,x
i
)],...,[o
m
,x
n
,BERT(o
m
,x
n
)]]步骤S4
‑
6:利用BERT计算步骤S4
‑
1获得的待融合的单个无模式数据的属性节点与最新的关联视图的属性节点两两节点之间的相似度,即属性相似度,具体的:单个无模式数据的属性节点列表A=[a1,...,a
i
,...,a
u
],其中属性节点a
i
=[c1,...,c
l
]是由
l
技术研发人员:于中华,陈黎,卢永美,孙川,叶子铭,于晓欣,何东,李洲,李沛东,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。