当前位置: 首页 > 专利查询>西南大学专利>正文

一种基于偏序格的大型语义图近似摘要方法及系统技术方案

技术编号:33206581 阅读:44 留言:0更新日期:2022-04-24 00:54
本发明专利技术涉及一种基于偏序格的大型语义图近似摘要方法及系统,属于计算机领域。本发明专利技术首先根据关系类型指标将语义图分为两类,针对每一类语义图的特点,再利用代数结构中偏序格这一数学模型对语义图中的实体和关系生成格结构,作为该类语义图的摘要。对于两类语义图,本发明专利技术给出了摘要的方法和相应的摘要信息度指标,以对生成的语义图摘要进行评估,从而达到高效提取大型语义图关键信息的目的。到高效提取大型语义图关键信息的目的。到高效提取大型语义图关键信息的目的。

【技术实现步骤摘要】
一种基于偏序格的大型语义图近似摘要方法及系统


[0001]本专利技术属于计算机领域,涉及一种基于偏序格的大型语义图近似摘要方法及系统。

技术介绍

[0002]语义图,即语义数据形成的一种图结构,在诸多领域,包括医疗、教育、电子商务及农业等都有应用。当前语义数据爆炸式增长,例如,来自地理、生物科学、词汇统计、语言学、社会学等不同领域的语义数据,仅地理领域的Linkgeodata数据集就含有超过200亿个三元组以及30亿个节点数据;语义图开放关联数据云(The Linked Open Data Cloud(LOD))拥有超过 630万个不同的大型数据集,链接的数据集包括AGROVOC,DBpedia和wikidata等。由于语义数据的不断增长,使得理解和使用大型语义图异常困难。
[0003]语义图摘要通过提取或者压缩原语义图中的数据,达到缩小语义图规模的目的,从而解决上述语义图应用问题。现有的语义图摘要主要基于:(1)统计的方法,即:通过各种计算中心节点的方法提取语义图重要节点以形成摘要;(2)模式挖掘,即对语义图的频繁子图进行挖掘,以子图本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于偏序格的大型语义图近似摘要方法,其特征在于:该方法包括以下步骤:S1:对大型语义图按照关系类型的丰富程度进行分类,分为:I型,即丰富关系型语义图和II型,即简单关系型语义图;S2:对于I型语义图,使用算法1根据其特征计算基于偏序格的近似摘要,进而利用算法3计算摘要的信息度,即:覆盖原语义图的比率;S3:对于II型语义图,使用算法2根据其特征计算基于偏序格的近似摘要,进而利用算法4计算摘要的信息度,即:原语义图实体的过滤比率;S4:生成语义图的偏序格摘要结果。2.根据权利要求1所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述S1具体为:语义图由语义数据RDF三元组构成,将语义图定义为其中V是实体的集合,R是实体之间的关系集合,是关系类型,即对象属性集合,是属性,即数据类型属性集合,是关系到关系类型的映射,是实体到属性集合的映射;将语义图的中实体的属性视为仅关联该实体的性质,而不是实体与属性值之间的关系;定义关系类型指标δ:来衡量语义图中的关系的丰富程度;其中,δ越大则语义图的关系类型越丰富;反之,关系类型越简单;语义图分类步骤,具体如下:S11:首先,提取大型语义图的实体数量|V|及关系类型数量通过解析语义图的RDF文件完成或将语义图导入相应的数据库,包括图数据库和语义数据库,利用数据库查询语言获取;S12:其次,按公式(1)计算关系指标δ;S13:将关系指标δ与设定的指标阈值δ
T
比较大小关系;根据现有大型语义图的情况,将δ
T
默认值设定为10
‑4;用户根据所处理的语义图的具体情况进行设定;S14:最后根据δ与δ
T
的大小,得出语义图类型:当δ<δ
T
时,语义图为I型语义图;当δ≥δ
T
时,语义图为II型语义图。3.根据权利要求2所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述S2具体为:定义1实体模式:给定语义图G,设为实体中所有三元组(s,p,o)中主语s的集合;对任意为实体s的特征集合;一个实体模式(EP)定义为c=(S,T,A),其中:(i)(ii)CS(s)=T;(iii)A=∪
s∈S
L
A
(s);设C为所有实体模式的集合,则形成一个偏序集;若设定2个特殊的实体模式若设定2个特殊的实体模式和则形成一个偏序格;定义2关键关系类型:给定语义图G,若关系类型的子集:是该语义图被检索最频繁的前σ%个关系类型,其中则称R
t
*为关键关系类型集合,R
t
*中的元素为关键关系类型;
设定σ值为20;定义3基于偏序格的I型语义图近似摘要:给定语义图G及关键关系类型集合R
t
*,基于偏序格的I型语义图近似摘要定义为由偏序集(σC,≤)所形成的格σL,其中σC是实体模式集合且每个实体模式至少包含一个关键关系类型,即:算法1给出了计算于偏序格的I型语义图近似摘要ELSRR的步骤;该算法的输入是语义图G,关键类型集合R
t
*,参数σ及语义图类型,输出是基于偏序格的I型语义图近似摘要σL;S21:对实体模式集合进行初始化;S22:针对每个语义图中的实体s,若其关联了关键关系类型,则将该实体s及其关联的所有关系类型加入σC中;S23:合并具有相同特征集合CS的实体,并且按照特征集合CS的基数对实体模式EP进行分层;CS_T
k
存放第k层的实体模式EP,即:所有在第k层的实体模式EP均满足:所有实体的特征集合的基数|T|=k;m表示所有特征集合CS的最大值;S24:根据各层的实体模式CS_T生成偏序格σL;S25:返回偏序格σL。4.根据权利要求3所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述S3具体为:定义4基于偏序格的II型语义图近似摘要:给定语义图G及关键关系类型集合基于偏序格的II型语义图近似摘要定义为由偏序集(μC,≤)所形成的格μL,其中:有有...

【专利技术属性】
技术研发人员:王艺
申请(专利权)人:西南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1