【技术实现步骤摘要】
一种大型噪声语义图实体类型错误检测方法
[0001]本专利技术属于计算机
,涉及一种大型噪声语义图实体类型错误检测方法
。
技术介绍
[0002]大型百科及领域语义图包含百科及领域知识,是当前各领域智能应用包括:问答系统
、
聊天系统
、
智能诊疗和智能推荐等应用的基石
。
大型语义图的规模巨大,其实体规模一般不低于百万级别,实体间关系规模更大,一般为千万级别
。
大型语义图的构建采用
(
半
)
自动的方式生成,即:利用自然语言处理算法,从网页
、
书籍等文本资料中自动抓取实体并建立实体间的关系
。
虽然利用自然语言处理算法能够快速构建领域语义图,但是其缺陷是所构建的语义图存在事实不一致和错误情况
。
这种包含不一致和错误信息的语义图被称为“噪声语义图”。
例如,根据文献统计,大型百科类语义图
YAGO
和
DBpedia
中
69
%
‑
99
%的实例缺少属性,而在
Freebase
中,
71
%的人没有出生地属性,
DBpedia
和
Wikidata
中
27
%的实体粗分类有错误,而
73
%的实体细分类有错误
。
上述错误严重影响以语义图为知识库的智能应用的
【技术保护点】
【技术特征摘要】
1.
一种大型噪声语义图实体类型错误检测方法,其特征在于:该方法包括以下步骤:
S1
:对噪声语义图进行基于语义网标准的推理完善,通过推理补全语义图未明确申明的实体类型,并获取所有实体的最细类型;
S2
:基于节点语义嵌入及异常检测的实体类型错误检测,其目的是以每一个最细类型为对象,对其所包含的所有实体成员,利用节点的语义嵌入预训练实向量进行类型异常检测,以及发现该类型所包含的异常实体;
S3
:语义图类型
‑
属性的分布统计,根据
S2
发现的异常对语义图进行初步清洗,并获取每个属性关联的实体类型的概率分布;
S4
:基于事实三元组链接的实体类型错误检测;对每个实体及其所属的每个最细类型,基于
S3
的语义图类型
‑
属性的统计信息,计算实体属于每个最细类型的信任度,并根据设定的阈值给出判断;根据语义图本体类型层次关系,对错误的实体最细类型的所有父类型进行标注,最终得出语义图实体类型错误结果
。2.
根据权利要求1所述的一种大型噪声语义图实体类型错误检测方法,其特征在于:所述
S1
具体为:语义图由语义数据
RDF
三元组构成,包括本体信息和事实数据;语义图基于
RDF
和
RDFS
标准,用
rdfs:subClassOf
描述类型间的层次关系,对属性的定义域和值域用
rdfs:domain
和
rdfs:range
进行申明;在进行实体类型错误检测之前,首先基于
RDFS
标准,包括基于
rdfs:domain、rdfs:range
和
rdfs:subClassOf
进行蕴含推理,以补全缺失的实体类型声明和三元组数据;
RDFS
推理的实现基于语义数据库包含的推理引擎完成;将语义图定义为六元组
SG
=
<E,R,H,P,L
R
,L
E
>
,其中,
E
是实体集合,
R
是实体间的关系集合,
H
=
<C,S>
是类型层次关系,其中
C
是所有类型集合,
S
是类型间的关系集合,
P
是属性集合,即:关系类型集合,
L
R
:R
→
P
是关系到关系类型的映射,
L
E
:
是实体到类型的集合,其中表示
C
的幂集;对任意的
SG
中的实体
e
;用
C(e)
表示
e
所属的类型集合并且去掉最顶层的类:
owl:Thing
;定义1:实体的最细类型;给定
SG
=
<E,R,H,P,L
R
,L
E
>
,设
PathC(e)
是包含实体
e
的所有类型所在的路径集合,则
e
的最细类型为:其中
Level(c)
表示
c
所在
H
中的层次;根据定义1,实体的最细类型是位于类型层次中的最深的类,且每个实体能够属于不同的最细类型;基于语义图推理完善的实体最细类型获取包括以下步骤:
S11
:对
SG
中任意三元组
(s,p,o)∈R
,
s,o∈E
,
p∈P
,根据属性
p
的定义域和值域声明,利用
rdfs:domain
和
rdfs:range
对
s
和
o
的类型进行推理完善;
S12
:对
SG
中任意实体
e∈E
,根据
e
的类型定义和
rdfs:subClassOf
,对
e
所属的类型集合
C(e)
进行补充,即将所有
H
中的
e
的父类推理补充至
C(e)
中;
S13
:对
SG
中任意实体
e∈E
,根据定义1提取
e
的最细类型
C
s
(e)
,得到所有实体的最细类型集合
C
s
=
∪
e∈E
C
s
(e)。3.
根据权利要求2所述的一种大型噪声语义图实体类型错误检测方法,其特征在于:所述
S2
具体为:
S21
:设
C
s
是包含所有实体最细类型的集合;对任意的
c∈C
s
,获取其所有实体,表示为
E(c)
,即:
E(c)
=
{c|(e,rdf:type c),e∈E}
;
S22
:对
e∈E(c)
的每个实体,提取语义图的预训练语义嵌入向量
ee
=
[r1,r2,
…
,r
n
]
,
r
i
为实数,
i
=
1,
…
,n
,它是
n
维实向量,
n
取
100、150、200
或
500
;语义图的预训练语义嵌入向量包括
RDF2Vec
和
Wikipedia2Vec
两种选择;
S23
:设
EE(c)
为
E(c)
的所有实体语义嵌入构成的集合,对该集合进行基于属性分割和基于距离的异常检测,对
E(c)
中的异常实体进行识别;
S231
:基于属性分割的异常检测是针对多属性样本集合,根据各属性的差异来识别异常样本;将实体的语义嵌入
n
维实向量
ee
=
[r1,r2,
…
,r
n
]
的每个分量看作一个属性值,对类型
c
的实体语义嵌入
EE(c)
进行基于属性分割...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。