【技术实现步骤摘要】
一种结合跨媒体融合的信息摘要提取方法
本专利技术涉及一种结合跨媒体融合的信息摘要提取方法,属于信息提取领域。
技术介绍
我们生活在一个信息时代,海量信息扩增,互联网每天在新增大量的信息,而信息的存储方式日渐多样化,文本、图像、音频、视频是多媒体资源的基本存在形式。如今多种类型媒体数据混合并存,媒体数据组织结构复杂,但不同类型的媒体数据从不同侧面表达同一语义,信息提取中需要根据媒体之间存在的各种联系,从一种媒体跨越到另一种媒体。因此,如何跨越媒体之间的界限,如何提取多种媒体之间的潜在关联性,成为目前信息提取所面临的挑战。对于多种媒体形式混合并存的大数据,现有方法主要是通过同一种媒体的特征辨识来实现的,难以跨越多媒体之间的语义鸿沟,例如图像的视觉特征与音频的听觉特征之间的特征维数不同而无法直接度量他们之间的相似性,因此,现有信息提取方法不能很好为用户提供直观缩略图(或信息摘要),如何将混合的大量多媒体数据分类与提取,成为信息提取亟需解决的关键技术难题之一,也是目前所研究的热门课题。现有的成熟文本挖掘技术、图像特征提取算法、音频场景识别、语音识别、视频场景分割、关键帧提取等方法可以提取单一媒体的语义信息,如何将这些算法加以结合,将不同维数的特征信息提取,形成处理多媒体的信息提取系统,我们通过图像这一中间维数的媒体来解决此问题。
技术实现思路
针对上述问题,本专利技术提出一种结合跨媒体融合的信息摘要提取方法。通过采用将异维数据同维化为图像的方法,解决了难以跨越多媒体语义鸿沟的问题。通过图像聚类方法,从而间接的将多媒体数据分类和提取,生成跨媒体信息摘要。本专利技术提出了 ...
【技术保护点】
一种结合跨媒体融合的信息摘要提取方法,其特征在于,首先将输入的多媒体数据(文字、图像、音频、视频等)按数据类型将其分类;再将异维多媒体数据同维化并建立数据的文本标签,获得同维图像和文本标签;然后将同维图像数据聚类并进行文本标签的关联性检验;再分类别融合若干张同维图像为一副图像;最后生成跨媒体信息摘要;所述方法至少包括以下步骤:步骤一:将输入的多媒体数据中(文字、图像、音频、视频)按数据类型分类为原始文本数据,原始图像数据,原始音频数据,原始视频数据;步骤二:设置图像数据维数(图像像素)标准值,建立带有文本标签的同维图像样本库,进行异维多媒体数据同维化处理,根据数据类型的不同采用相对应的处理方法;步骤三:对已处理的同维图像数据,根据聚类所需要的准确度确定阈值,按照图像聚类算法进行聚类,根据每类数据的文本标签进行文本标签关联性检验,将不满足条件的数据再次聚类,直到不满足条件的数据数量小于阈值,可得类同维图像数据的地址,即索引;步骤四:对已聚类的同维图像数据,按照一种融合规则,进行融合,从而得到每一类同维图像数据的融合图像;步骤五:根据每一类同维图像数据的融合图像以及索引,生成信息摘要。
【技术特征摘要】
1.一种结合跨媒体融合的信息摘要提取方法,其特征在于,首先将输入的多媒体数据,包括文字、图像、音频、视频,按数据类型将其分类;再将异维多媒体数据同维化并建立数据的文本标签,获得同维图像和文本标签;然后将同维图像数据聚类并进行文本标签的关联性检验;再分类别融合若干张同维图像为一副图像;最后生成跨媒体信息摘要;所述方法至少包括以下步骤:步骤一:将输入的多媒体数据中,包括文字、图像、音频、视频,按数据类型分类为原始文本数据T{T1,T2,T3,...,Tt},原始图像数据P{P1,P2,P3,...,Pp},原始音频数据A{A1,A2,A3,...,Aa},原始视频数据V{V1,V2,V3,...,Vv};步骤二:设置图像数据维数(图像像素)标准值,建立带有文本标签的同维图像样本库,进行异维多媒体数据同维化处理,根据数据类型的不同采用相对应的处理方法;1)将原始文本数据T{T1,T2,T3,...,Tt}处理为同维图像数据Ft{Ft1,Ft2,Ft3,...,Ftt},步骤包含,预处理,利用文本挖掘技术,将原始文本数据T{T1,T2,T3,...,Tt}中每组文本信息段落的关键词提取为标签Lt{Lt1,Lt2,Lt3,...,Ltt};然后将T组文本数据根据标签关键词和样本库对应到同维图像数据Ft{Ft1,Ft2,Ft3,...,Ftt},其中,一组文本可对应多个标签以及同维图像数据;2)将原始图像数据P{P1,P2,P3,...,Pp}处理为同维图像数据Fp{Fp1,Fp2,Fp3,...,Fpp},步骤包括:预处理原始图像数据P{P1,P2,P3,...,Pp},利用相关算法增强关键特征,得到处理后的图像P′{P′1,P′2,P′3,...,P′p};对于图像P′{P′1,P′2,P′3,...,P′p},利用图像缩放技术缩放为同维图像数据Fp{Fp1,Fp2,Fp3,...,Fpp}(与样本库同维);将同维图像数据Fp{Fp1,Fp2,Fp3,...,Fpp}采用图像识别方法与样本库比对,获得图像的文本标签,结果存放于Lp{Lp1,Lp2,Lp3,...,Lpp};3)将原始音频数据A{A1,A2,A3,...,Aa}处理为同维图像数据Fa{Fa1,Fa2,Fa3,...,Faa},步骤包含:预处理原始音频数据A{A1,A2,A3,...,Aa},利用相关算法提取音频场景,语言语义特征,得到提取的文本标签La{La1,La2,La3,...,Laa};对于提取的文本标签La{La1,La2,La3,...,Laa},文本标签与样本库对应,得到同维图像数据Fa{Fa1,Fa2,Fa3,...,Faa},其中,同组音频可对应多个标签以及同维图像数据;4)将原始视频数据V{V1,V2,V3,...,Vv}处理为同维图像数据Fv{Fv1,Fv2,Fv3,...,Fvv},步骤包含:预处理原始视频数据Vi{V1,V2,V3,...,Vv},利用场景分割算法,对于每一视频Vi,得到分割场景后j个视...
【专利技术属性】
技术研发人员:裴廷睿,赵津锋,李哲涛,崔荣峻,吴相润,关屋大雄,
申请(专利权)人:湘潭大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。