当前位置: 首页 > 专利查询>西南大学专利>正文

一种大型噪声语义图实体类型错误检测方法技术

技术编号:39576852 阅读:12 留言:0更新日期:2023-12-03 19:28
本发明专利技术涉及一种大型噪声语义图实体类型错误检测方法,属于计算机技术领域

【技术实现步骤摘要】
一种大型噪声语义图实体类型错误检测方法


[0001]本专利技术属于计算机
,涉及一种大型噪声语义图实体类型错误检测方法


技术介绍

[0002]大型百科及领域语义图包含百科及领域知识,是当前各领域智能应用包括:问答系统

聊天系统

智能诊疗和智能推荐等应用的基石

大型语义图的规模巨大,其实体规模一般不低于百万级别,实体间关系规模更大,一般为千万级别

大型语义图的构建采用
(

)
自动的方式生成,即:利用自然语言处理算法,从网页

书籍等文本资料中自动抓取实体并建立实体间的关系

虽然利用自然语言处理算法能够快速构建领域语义图,但是其缺陷是所构建的语义图存在事实不一致和错误情况

这种包含不一致和错误信息的语义图被称为“噪声语义图”。
例如,根据文献统计,大型百科类语义图
YAGO

DBpedia

69


99
%的实例缺少属性,而在
Freebase
中,
71
%的人没有出生地属性,
DBpedia

Wikidata

27
%的实体粗分类有错误,而
73
%的实体细分类有错误

上述错误严重影响以语义图为知识库的智能应用的准确性和可靠性

在这些语义图噪声中,实体类型错误是最根本的错误,因为对实体类型的正确判定是任何智能系统的基本要求,是所有智能应用所依赖的基本知识

[0003]因此,对于当前大型语义图进行错误检测

以清除语义图的噪声,是提升语义图质量和相关智能应用准确性的关键

然而,由于大型语义图规模巨大,依赖领域专家手动进行错误检测是不现实的

本专利技术针对当前大型语义图中实体类型错误自动检测难题,提出一种高效的自动检测方法,能够有效发现语义图中实体类型错误


技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种大型噪声语义图实体类型错误检测方法

[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]一种大型噪声语义图实体类型错误检测方法,该方法包括以下步骤:
[0007]S1
:对噪声语义图进行基于语义网标准的推理完善,通过推理补全语义图未明确申明的实体类型,并获取所有实体的最细类型;
[0008]S2
:基于节点语义嵌入及异常检测的实体类型错误检测,其目的是以每一个最细类型为对象,对其所包含的所有实体成员,利用节点的语义嵌入预训练实向量进行类型异常检测,以及发现该类型所包含的异常实体;
[0009]S3
:语义图类型

属性的分布统计,根据
S2
发现的异常对语义图进行初步清洗,并获取每个属性关联的实体类型的概率分布;
[0010]S4
:基于事实三元组链接的实体类型错误检测;对每个实体及其所属的每个最细类型,基于
S3
的语义图类型

属性的统计信息,计算实体属于每个最细类型的信任度,并根据设定的阈值给出判断;根据语义图本体类型层次关系,对错误的实体最细类型的所有父类型进行标注,最终得出语义图实体类型错误结果

[0011]可选的,所述
S1
具体为:
[0012]语义图由语义数据
RDF
三元组构成,包括本体信息和事实数据;语义图基于
RDF

RDFS
标准,用
rdfs:subClassOf
描述类型间的层次关系,对属性的定义域和值域用
rdfs:domain

rdfs:range
进行申明;在进行实体类型错误检测之前,首先基于
RDFS
标准,包括基于
rdfs:domain、rdfs:range

rdfs:subClassOf
进行蕴含推理,以补全缺失的实体类型声明和三元组数据;
RDFS
推理的实现基于语义数据库包含的推理引擎完成;
[0013]将语义图定义为六元组
SG

<E,R,H,P,L
R
,L
E
>
,其中,
E
是实体集合,
R
是实体间的关系集合,
H

<C,S>
是类型层次关系,其中
C
是所有类型集合,
S
是类型间的关系集合,
P
是属性集合,即:关系类型集合,
L
R
:R

P
是关系到关系类型的映射,是实体到类型的集合,其中表示
C
的幂集;
[0014]对任意的
SG
中的实体
e
;用
C(e)
表示
e
所属的类型集合并且去掉最顶层的类:
owl:Thing

[0015]定义1:实体的最细类型;
[0016]给定
SG

<E,R,H,P,L
R
,L
E
>
,设
PathC(e)
是包含实体
e
的所有类型所在的路径集合,则
e
的最细类型为:
[0017][0018]其中
Level(c)
表示
c
所在
H
中的层次;
[0019]根据定义1,实体的最细类型是位于类型层次中的最深的类,且每个实体能够属于不同的最细类型;
[0020]基于语义图推理完善的实体最细类型获取包括以下步骤:
[0021]S11
:对
SG
中任意三元组
(s,p,o)∈R

s,o∈E

p∈P
,根据属性
p
的定义域和值域声明,利用
rdfs:domain

rdfs:range

s

o
的类型进行推理完善;
[0022]S12
:对
SG
中任意实体
e∈E
,根据
e
的类型定义和
rdfs:subClassOf
,对
e
...

【技术保护点】

【技术特征摘要】
1.
一种大型噪声语义图实体类型错误检测方法,其特征在于:该方法包括以下步骤:
S1
:对噪声语义图进行基于语义网标准的推理完善,通过推理补全语义图未明确申明的实体类型,并获取所有实体的最细类型;
S2
:基于节点语义嵌入及异常检测的实体类型错误检测,其目的是以每一个最细类型为对象,对其所包含的所有实体成员,利用节点的语义嵌入预训练实向量进行类型异常检测,以及发现该类型所包含的异常实体;
S3
:语义图类型

属性的分布统计,根据
S2
发现的异常对语义图进行初步清洗,并获取每个属性关联的实体类型的概率分布;
S4
:基于事实三元组链接的实体类型错误检测;对每个实体及其所属的每个最细类型,基于
S3
的语义图类型

属性的统计信息,计算实体属于每个最细类型的信任度,并根据设定的阈值给出判断;根据语义图本体类型层次关系,对错误的实体最细类型的所有父类型进行标注,最终得出语义图实体类型错误结果
。2.
根据权利要求1所述的一种大型噪声语义图实体类型错误检测方法,其特征在于:所述
S1
具体为:语义图由语义数据
RDF
三元组构成,包括本体信息和事实数据;语义图基于
RDF

RDFS
标准,用
rdfs:subClassOf
描述类型间的层次关系,对属性的定义域和值域用
rdfs:domain

rdfs:range
进行申明;在进行实体类型错误检测之前,首先基于
RDFS
标准,包括基于
rdfs:domain、rdfs:range

rdfs:subClassOf
进行蕴含推理,以补全缺失的实体类型声明和三元组数据;
RDFS
推理的实现基于语义数据库包含的推理引擎完成;将语义图定义为六元组
SG

<E,R,H,P,L
R
,L
E
>
,其中,
E
是实体集合,
R
是实体间的关系集合,
H

<C,S>
是类型层次关系,其中
C
是所有类型集合,
S
是类型间的关系集合,
P
是属性集合,即:关系类型集合,
L
R
:R

P
是关系到关系类型的映射,
L
E
:
是实体到类型的集合,其中表示
C
的幂集;对任意的
SG
中的实体
e
;用
C(e)
表示
e
所属的类型集合并且去掉最顶层的类:
owl:Thing
;定义1:实体的最细类型;给定
SG

<E,R,H,P,L
R
,L
E
>
,设
PathC(e)
是包含实体
e
的所有类型所在的路径集合,则
e
的最细类型为:其中
Level(c)
表示
c
所在
H
中的层次;根据定义1,实体的最细类型是位于类型层次中的最深的类,且每个实体能够属于不同的最细类型;基于语义图推理完善的实体最细类型获取包括以下步骤:
S11
:对
SG
中任意三元组
(s,p,o)∈R

s,o∈E

p∈P
,根据属性
p
的定义域和值域声明,利用
rdfs:domain

rdfs:range

s

o
的类型进行推理完善;
S12
:对
SG
中任意实体
e∈E
,根据
e
的类型定义和
rdfs:subClassOf
,对
e
所属的类型集合
C(e)
进行补充,即将所有
H
中的
e
的父类推理补充至
C(e)
中;
S13
:对
SG
中任意实体
e∈E
,根据定义1提取
e
的最细类型
C
s
(e)
,得到所有实体的最细类型集合
C
s


e∈E
C
s
(e)。3.
根据权利要求2所述的一种大型噪声语义图实体类型错误检测方法,其特征在于:所述
S2
具体为:
S21
:设
C
s
是包含所有实体最细类型的集合;对任意的
c∈C
s
,获取其所有实体,表示为
E(c)
,即:
E(c)

{c|(e,rdf:type c),e∈E}

S22
:对
e∈E(c)
的每个实体,提取语义图的预训练语义嵌入向量
ee

[r1,r2,

,r
n
]

r
i
为实数,
i

1,

,n
,它是
n
维实向量,
n

100、150、200

500
;语义图的预训练语义嵌入向量包括
RDF2Vec

Wikipedia2Vec
两种选择;
S23
:设
EE(c)

E(c)
的所有实体语义嵌入构成的集合,对该集合进行基于属性分割和基于距离的异常检测,对
E(c)
中的异常实体进行识别;
S231
:基于属性分割的异常检测是针对多属性样本集合,根据各属性的差异来识别异常样本;将实体的语义嵌入
n
维实向量
ee

[r1,r2,

,r
n
]
的每个分量看作一个属性值,对类型
c
的实体语义嵌入
EE(c)
进行基于属性分割...

【专利技术属性】
技术研发人员:王艺
申请(专利权)人:西南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1