跨媒体知识图谱构建方法及系统、计算机设备及可读存储介质技术方案

技术编号:26651030 阅读:40 留言:0更新日期:2020-12-09 00:51
本发明专利技术涉及一种跨媒体知识图谱构建方法及系统、计算机设备及可读存储介质。其中所述方法包括:获取跨媒体数据中不同的单模媒体数据分别对应的低层特征向量,并根据低层特征向量确定不同的单模媒体数据是否具有相同的语义标签;若是,则将具有相同的语义标签的所述单模媒体数据存入同一个多模态语义文档;基于所述多模态语义文档,通过预设的主题模型获取所述单模媒体数据在多模态媒体下的语义标注,并存放到语义元数据知识库;基于所述单模媒体数据的语义标注在所述语义元数据知识库中开展语义关联分析,获取所述跨媒体语义关联知识AK;基于所述跨媒体语义关联知识AK构建跨媒本体知识库;基于所述跨媒本体知识库构建跨媒体知识图谱。

【技术实现步骤摘要】
跨媒体知识图谱构建方法及系统、计算机设备及可读存储介质
本专利技术涉及电力系统电力计量知识图谱构建
,特别是涉及一种跨媒体知识图谱构建方法及系统、计算机设备及可读存储介质。
技术介绍
随着智能电网的发展,每天产生的电力计量相关数据越来越多,如果能充分提取这些数据中的信息,并加以分析与利用,将会更大程度地促进智能电网发展。但是这些海量信息还存在如质量良莠不齐、组织异构无序、信息过剩等一系列问题,大量有价值与无价值的信息融合在一起,严重影响了有价值数据的获取效率。所以,需要采取有效措施对海量数据进行整合,进行内容的筛选过滤,当用户需要某方面的信息时,能够提供全方位的相关信息。目前,电力计量领域知识图谱的数据来源仅限于文本数据,没有充分利用其他类型的海量数据,造成了其他媒体类型信息的浪费。
技术实现思路
基于此,本专利技术提供了一种跨媒体知识图谱构建方法及系统、计算机设备及可读存储介质,以获取全方位的有价值的信息。本专利技术提供了一种跨媒体知识图谱构建方法包括:获取跨媒体数据中不同的单模媒体数本文档来自技高网...

【技术保护点】
1.一种跨媒体知识图谱构建方法,其特征在于,包括:/n获取跨媒体数据中不同的单模媒体数据分别对应的低层特征向量,并根据所述低层特征向量确定不同的所述单模媒体数据是否具有相同的语义标签;/n若是,则将具有相同的所述语义标签的所述单模媒体数据存入同一个多模态语义文档;/n基于所述多模态语义文档,通过预设的主题模型获取所述单模媒体数据在多模态媒体下的语义标注,并存放到语义元数据知识库;/n基于所述单模媒体数据的语义标注在所述语义元数据知识库中开展语义关联分析,获取所述跨媒体语义关联知识AK;/n基于所述跨媒体语义关联知识AK构建跨媒本体知识库;/n基于所述跨媒本体知识库构建跨媒体知识图谱。/n

【技术特征摘要】
1.一种跨媒体知识图谱构建方法,其特征在于,包括:
获取跨媒体数据中不同的单模媒体数据分别对应的低层特征向量,并根据所述低层特征向量确定不同的所述单模媒体数据是否具有相同的语义标签;
若是,则将具有相同的所述语义标签的所述单模媒体数据存入同一个多模态语义文档;
基于所述多模态语义文档,通过预设的主题模型获取所述单模媒体数据在多模态媒体下的语义标注,并存放到语义元数据知识库;
基于所述单模媒体数据的语义标注在所述语义元数据知识库中开展语义关联分析,获取所述跨媒体语义关联知识AK;
基于所述跨媒体语义关联知识AK构建跨媒本体知识库;
基于所述跨媒本体知识库构建跨媒体知识图谱。


2.如权利要求1所述的跨媒体知识图谱构建方法,其特征在于,对跨媒体数据中图像媒体数据与音频媒体数据进行分析,分别得到对应的低层特征向量。


3.如权利要求2所述的跨媒体知识图谱构建方法,其特征在于,所述获取跨媒体数据中不同的单模媒体数据分别对应的低层特征向量,包括:
利用SIFT(Scale-invariantfeaturetransform,尺度不变特征变换)方法从所述图像媒体数据中提取图片特征,获得128维视觉特征向量;以及,从所述音频媒体数据提取语音特征参数MFCC(MelFrequencyCepstrumCoefficient,梅尔频率倒谱系数),获得13维声音特征向量。


4.如权利要求3所述的跨媒体知识图谱构建方法,其特征在于,根据所述低层特征向量判断不同的所述跨媒体数据是否具有相同的语义标签的步骤包括:
利用预设的贝叶斯分类概率分布模型,将所述图像媒体数据dI的低层特征向量和音频媒体数据dA的低层特征向量输入到各自的类别分布模型中,通过后验概率计算得到对应的类别分布频率,并利用余弦夹角公式得到所述图像媒体数据和所述音频媒体数据的类别分布频率相似值;其中,所述类别分布频率相似值的大小反映了分布频率的相似度;
将所述图像媒体数据和所述音频媒体数据的类别分布频率相似值与预设值进行比较;
若所述类别分布频率相似值大于所述预设值,则判断所述图像媒体数据和所述音频媒体数据分布频率一致,具有相同的语义标签。


5.如权利要求3或4所述的跨媒体知识图谱构建方法,其特征在于,所述多模态语义文档的集合为:



其中,一个代表x语义类别的MAD可以表示为:



M表示所有模态总类,nm表示单一模态下的实例个数,表示在第m个模态下第i个单模媒体数据中语义为x的特征。


6.如权利要求5所述的跨媒体知识图谱构建方法,其特征在于,一个MAD可以通过一个维度的向量Vec(MADx)表示:
Vec(MADx)={(MADx,Vec1(P)),......,(MADx,Vecnp(P),(MADx,Vec1(s))),...,(MADx,Vecns(s))}
其中,图像模态I下的低层特征向量为



其中为语义类别x中图像模态的低层特征;
音频模态S下的低层特征向量为



其中表示语义类别x中提取的音频特征参数MFCC。


7.如权利要求1所述的跨媒体知识图谱构建方法,其特征在于,通过GM-PLSA(GaussianMultinationalProbabilisticLatentSemanticAnalysis,GM概率潜语义分析)主题模型学习潜在的语义主题,构建主题语义空间,对所述跨媒体数据实现多模态媒体的语义标注。


8.如权利要求1所述的跨媒体知识图谱构建方法,其特征在于,
在获得所述语义标注后,结合电力计量领域知识库与专家经验知识库,抽取所述单模态媒体数据中媒体特征概念与关系,并以RDF(ResourceDe...

【专利技术属性】
技术研发人员:石少青郑楷洪张文瀚周尚礼李胜
申请(专利权)人:南方电网数字电网研究院有限公司中国南方电网有限责任公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1