当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于群智感知的多模态数据融合方法技术

技术编号:12260809 阅读:104 留言:0更新日期:2015-10-28 23:52
本发明专利技术公开了一种基于群智感知的多模态数据融合方法,本发明专利技术分为预处理,PLSA建模和基于PLSA建模的所模态数据融合三个步骤。经过图像表示、音频表示预处理,建立图像和音频之间的联系;采用PLSA模型,解决文本分类的问题,它挖掘文本与单词间的不可见主题关系,解决了文本“一词多义、一义多词”的问题,现已延伸到图像、音频、视频等多媒体数据分析中;将PLSA模型应用到音、视频数据的融合分析中,完成多模态的数据融合。本发明专利技术解决了在大数据环境下,群智感知到的数据异构性的问题,将异构的数据融合起来,达到分析应用的目的。

【技术实现步骤摘要】

: 本专利技术属于数据处理
,涉及一种将异构数据进行数据融合的方法,具体 涉及。 技术背景: 随着计算机及数码电子产品的普及,以及互联网的迅速发展,人们每天都可以接 触到海量的多媒体信息。这些多媒体信息铺天盖地,不仅数量大而且冗余,哪些信息是人们 所需要的呢?是否可以采取相关技术,从海量数据中挖掘出人们感兴趣的相关信息?是否 可以使计算机如人的大脑一样,通过观察及学习来自动识别,实现对多模态数据的语义理 解?类似需求已成为多媒体研究中急需要解决的问题。 在这些问题中,由于多媒体语义可以从视觉、听觉、触觉等综合角度表达,但这些 多模态数据的维度、属性、表现形式各不相同,如何建立模态间的对应关系及关联性成为 了核心难点之一。因此需要研究一种新的检索方法,使得用户可以提交某种单一模态样例 (如可以是图像、音频、视频、文本等多媒体文档),在对其进行分析并挖掘出其他模态的相 关信息后,返回其它模态的相关数据,从而实现跨模态检索。例如:用户提交一幅老虎的图 像,系统不仅可以返回与该图像相似的老虎图像,还可以返回该老虎的叫声。这种检索算 法可以实现模态间的灵活跨越,从而避免单纯倚重本文档来自技高网...

【技术保护点】
一种基于群智感知的多模态数据融合方法,本方法将获取到的包括图像数据和音频数据的异构数据视为文档,图像特征视为文档中的视觉单词,音频特征视为文档中的听觉单词;其特征在于,包括以下步骤:步骤1:对异构数据进行预处理,其具体实现包括以下子步骤:步骤1.1:对图像数据进行预处理,生成视觉单词;步骤1.2:对音频数据进行预处理,生成听觉单词;步骤2:对异构数据进行分类并根据来源位置与时间特征进行关联;步骤3:PLSA建模,挖掘文档与视觉单词、听觉单词与关联文档之间不可见主题关系,主题关系即是单词元素按照一定的主题来关联文档,解决了文档“一词多义、一义多词”的问题;所述的单词元素包括视觉单词、听觉单词;步...

【技术特征摘要】

【专利技术属性】
技术研发人员:叶登攀张倬胜卢玥锟张浩天吴荀
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1