一种基于知识图谱的汽车数据构建方法技术

技术编号:39746772 阅读:9 留言:0更新日期:2023-12-17 23:45
本发明专利技术公开了一种基于知识图谱的汽车数据构建方法,包括如下步骤:步骤一

【技术实现步骤摘要】
一种基于知识图谱的汽车数据构建方法


[0001]本专利技术涉及知识图谱
,更具体的是,本专利技术涉及一种基于知识图谱的汽车数据构建方法


技术介绍

[0002]知识图谱以结构化的形式描述客观世界中概念

实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织

管理和理解互联网海量信息的能力

知识图谱将互联网上可以识别的客观对象进行关联,以形成客观世界实体和实体关系的知识库,知识库中的所有数据将构成庞大的实体关系网络,形成“知识图谱”。
[0003]现有的知识图谱的构建技术主要有自顶向下和自底向上的方法,其中,自顶向下法能很好地反映出概念之间的层次关系,但存在着高度的人为依赖,模式层的更新受到限制,只适合构建小数据量的知识图谱;自底向上法更新快,支持构建海量数据的知识图谱,但是知识噪音大

精度差


技术实现思路

[0004]本专利技术的目的是设计开发了一种基于知识图谱的汽车数据构建方法,根据实体重要性对知识图谱的数据表达能力进行补充,精准的选取有效信息,减少数据冗余

[0005]本专利技术提供的技术方案为:
[0006]一种基于知识图谱的汽车数据构建方法,包括如下步骤:
[0007]步骤一

采集汽车品牌数据

汽车型号数据和汽车出厂数据并进行预处理;
[0008]步骤二
/>将预处理后的数据按照实体

属性关系和属性值建立三元组数据
(E
h
,r,E
t
)
,进而构建知识图谱
G

{E,R}

[0009]式中,
E
为实体集,
R
为关系集,
E
h
为主实体,
E
t
为客实体,
r
为主实体和客实体之间的关系,
E
h

E
t
∈E

r∈R

[0010]其中,所述构建知识图谱包括:数据获取

实体及其关系抽取

数据融合和数据存储;
[0011]所述主实体和客实体之间的关系强度满足:
[0012][0013]式中,
R
str
为实体
e
i
和实体
e
j
之间的关系强度,
E
m
(e
i
)
为实体
e
i
的重要性,为实体
e
i
和实体
e
j
之间的距离

[0014]优选的是,所述汽车出厂数据包括:
[0015]制动方式

最高时速

车身重量

后备箱容积

标准座位数

参考价格

轴距

座椅材质

油箱容积

加速时间

驱动方式和车身尺寸

[0016]优选的是,所述预处理为:
[0017]去除与实体无关的符号

文字

重复的字符以及转义字符

[0018]优选的是,所述数据获取的来源为结构化数据

半结构化数据和非结构化数据

[0019]优选的是,对所述非结构化数据建立实体抽取模型进行实体抽取,所述实体抽取模型包括依次设置的输入层
、BERT
模型层

双向长短期记忆网络
、CRF
层和输出层

[0020]优选的是,所述数据存储使用
Neo4J
数据库

[0021]优选的是,所述主实体和客实体之间的关系强度计算具体包括如下步骤:
[0022]步骤
1、
识别出文本的实体和关系,获得头实体

关系

尾实体三元组;
[0023]步骤
2、
对文本进行依存句法分析,得到候选关系短语,然后按照多元关系强度类型,确定作为关系强度的候选目标短语;
[0024]步骤
3、
将每一对候选目标短语和头实体或者尾实体进行距离计算,然后将小于距离阈值的作为最终要提取的目标短语;
[0025]步骤
4、
以最终要提取的目标短语之间的距离作为关系强度信息进行关系强度因子的计算

[0026]优选的是,所述实体
e
i
的重要性满足:
[0027][0028]式中,
N
为知识图谱中实体数目,
α
为阻尼系数,
G(e
i
)
为关联到实体
e
i
的实体集合

[0029]优选的是,所述三元组数据的存储格式为
CSV
格式和
UTF
‑8编码方式

[0030]优选的是,所述数据融合包括实体消歧和实体对齐

[0031]本专利技术所述的有益效果:
[0032]本专利技术设计开发的一种基于知识图谱的汽车数据构建方法,便于行业管理者

用户对数据进行查询或分析,能够精准的选取有效信息,为汽车领域的用于提供数据支撑,并且,能够细化描述实体之间的关系,避免信息的缺失,进一步提高了准确性

附图说明
[0033]图1为本专利技术所述基于知识图谱的汽车数据构建方法的框架流程示意图

[0034]图2为本专利技术所述实体及其关系抽取的模型结构示意图

[0035]图3为本专利技术所述
LSTM
模型结构示意图

具体实施方式
[0036]下面结合对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施

[0037]如图1所示,本专利技术提供的一种基于知识图谱的汽车数据构建方法,具体包括:
[0038]知识图谱的逻辑架构可分为模式层与数据层:模式层是知识图谱的核心,其位于数据层之上,用于存储经过抽象提炼后的知识,通常情况下采用本体库来对知识图谱的模式层进行管理,通过建立知识图谱实体

关系和属性的规则对数据层的知识实体进行规范

管理和约束;数据层将模式层中的知识存储在经过规范和约束的实体数据中,通常以
(
实体...

【技术保护点】

【技术特征摘要】
1.
一种基于知识图谱的汽车数据构建方法,其特征在于,包括如下步骤:步骤一

采集汽车品牌数据

汽车型号数据和汽车出厂数据并进行预处理;步骤二

将预处理后的数据按照实体

属性关系和属性值建立三元组数据
(E
h
,r,E
t
)
,进而构建知识图谱
G

{E,R}
;式中,
E
为实体集,
R
为关系集,
E
h
为主实体,
E
t
为客实体,
r
为主实体和客实体之间的关系,
E
h

E
t
∈E

r∈R
;其中,所述构建知识图谱包括:数据获取

实体及其关系抽取

数据融合和数据存储;所述主实体和客实体之间的关系强度满足:式中,
R
str
为实体
e
i
和实体
e
j
之间的关系强度,
E
m
(e
i
)
为实体
e
i
的重要性,为实体
e
i
和实体
e
j
之间的距离
。2.
如权利要求1所述的基于知识图谱的汽车数据构建方法,其特征在于,所述汽车出厂数据包括:制动方式

最高时速

车身重量

后备箱容积

标准座位数

参考价格

轴距

座椅材质

油箱容积

加速时间

驱动方式和车身尺寸
。3.
如权利要求2所述的基于知识图谱的汽车数据构建方法,其特征在于,所述预处理为:去除与实体无关的符号

文...

【专利技术属性】
技术研发人员:王亚君杜威宁武张廷丰
申请(专利权)人:辽宁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1