多媒体信息话题分析方法、装置、设备及存储介质制造方法及图纸

技术编号：34475568 阅读：62 留言：0更新日期：2022-08-10 08:50

本公开涉及一种多媒体信息话题分析方法、装置、设备及计算机可读存储介质，本公开通过音频数据得到语音识别文本、通过视频数据的关键帧得到字幕文本；针对上述语音识别文本及字幕文本从实体、关键词、语义标签三方面提取话题信息，实现了基于文本数据的全方面、多粒度的文本话题提取；针对视频数据的关键帧，从人脸标签及图片标签两方面提取话题信息，实现了基于图像数据的视觉话题提取；本公开实施例充分考虑了视频数据的多模态特征，全面的分析视频话题，提高了话题分析的准确性；进一步的，通过准确的话题分析，可以使受众快速有效的获取视频的主要信息，提升了工作效率，并可以广泛应用于视频个性化推荐、视频内容检索等场景。视频内容检索等场景。视频内容检索等场景。

全部详细技术资料下载

【技术实现步骤摘要】
多媒体信息话题分析方法、装置、设备及存储介质

[0001]本公开涉及深度学习、计算机视觉和自然语言处理领域，尤其涉及一种多媒体信息话题分析方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]在互联网环境中，多媒体信息在日常生活中越来越重要，准确分析多媒体信息的话题对多媒体信息的筛选、阅读、多媒体内容检索、多媒体个性化推荐至关重要。而视频作为多媒体信息的一种很重要的体现形式，准确分析出视频的话题也就尤为重要。
[0003]视频是一种典型的多模态组合类型，其包括文本、图像、音频等不同模态特征。但是，现有技术中，面向视频的话题分析技术，通常情况下是直接利用视频标题以及视频相似关键帧对视频话题进行分析；因为视频的多模态特征，仅仅通过视频标题以及视频相似关键帧进行话题分析，导致话题分析不全面，话题分析结果准确度不高，进一步的导致视频的筛选、阅读、视频内容检索、视频个性化推荐等准确性不高。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种多媒体信息话题分析方法、装置、设备及计算机可读存储介质，充分考虑了视频数据的多模态特征，全面的分析视频话题，提高了话题分析的准确性；进一步的，通过准确的话题分析，可以使受众快速有效的获取视频的主要信息，提升了工作效率，并可以广泛应用于视频个性化推荐、视频内容检索等场景。
[0005]第一方面，本公开实施例提供一种多媒体信息话题分析方法，包括：
[0006]提取多媒体信息中的音频数据和视频数据；
>[0007]将所述音频数据转换为第一文本信息，并根据所述第一文本信息得到语音识别文本；
[0008]从所述音频数据提取语音信息，得到语音识别文本；
[0009]从所述视频数据的关键帧中提取字幕信息，得到字幕文本；
[0010]从所述语音识别文本和所述字幕文本中提取实体和关键词，以及确定所述语音识别文本和所述字幕文本的语义标签；
[0011]提取所述关键帧中的人脸标签、以及确定所述关键帧的图片标签；
[0012]根据所述实体、所述关键词、所述语义标签、所述人脸标签和所述图片标签，确定所述多媒体信息的目标话题。
[0013]第二方面，本公开实施例提供一种多媒体信息话题分析装置，包括：
[0014]第一提取模块，用于提取多媒体信息中的音频数据和视频数据；
[0015]第二提取模块，用于从所述音频数据提取语音信息，得到语音识别文本；
[0016]第三提取模块，用于从所述视频数据的关键帧中提取字幕信息，得到字幕文本；
[0017]第四提取模块，用于从所述语音识别文本和所述字幕文本中提取实体和关键词；
[0018]第一确定模块，用于确定所述语音识别文本和所述字幕文本的语义标签；
[0019]第五提取模块，用于提取所述关键帧中的人脸标签；
[0020]第二确定模块，用于确定所述关键帧的图片标签；
[0021]第三确定模块，用于根据所述实体、所述关键词、所述语义标签、所述人脸标签和所述图片标签，确定所述多媒体信息的目标话题。
[0022]第三方面，本公开实施例提供一种电子设备，包括：
[0023]存储器；
[0024]处理器；以及
[0025]计算机程序；
[0026]其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。
[0027]第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。
[0028]第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的多媒体信息话题分析方法。
[0029]本公开实施例提供的多媒体信息话题分析方法、装置、设备及计算机可读存储介质，通过音频数据得到语音识别文本、通过视频数据的关键帧得到字幕文本；针对上述语音识别文本及字幕文本从实体、关键词、语义标签三方面提取话题信息，实现了基于文本数据的全方面、多粒度的文本话题提取；针对视频数据的关键帧，从人脸标签及图片标签两方面提取话题信息，实现了基于图像数据的视觉话题提取；本公开实施例充分考虑了视频数据的多模态信息，全面的分析视频话题，提高了话题分析的准确性；进一步的，通过准确的话题分析，可以使受众快速有效的获取视频的主要信息，提升了工作效率，并可以广泛应用于视频个性化推荐、视频内容检索等场景。
附图说明
[0030]此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
[0031]为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0032]图1为本公开实施例提供的一种多媒体信息话题分析方法流程图；
[0033]图2为本公开实施例提供的一种多媒体信息话题分析方法实现流程图；
[0034]图3为本公开实施例提供的一种基于文本数据的话题信息提取实现流程图；
[0035]图4为本公开实施例提供的一种基于图像数据的话题信息提取实现流程图；
[0036]图5为本公开实施例提供的另一种多媒体信息话题分析方法流程图；
[0037]图6为本公开实施例提供的一种多媒体信息话题分析装置的结构示意图；
[0038]图7为本公开实施例提供的电子设备的结构示意图。
具体实施方式
[0039]为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
[0040]在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
[0041]在互联网环境中，多媒体信息在日常生活中越来越重要，准确分析多媒体信息的话题对多媒体信息的筛选、阅读、多媒体内容检索、多媒体个性化推荐至关重要。而视频作为多媒体信息的一种很重要的体现形式，准确分析出视频的话题也就尤为重要。
[0042]通常情况下，面向视频的话题分析技术，大部分是直接利用视频标题或者是视频相似关键帧对视频话题进行分析；但是因为视频的多模态特征，仅仅通过视频标题以及视频相似关键帧进行话题分析，导致话题分析不全面，话题分析结果准确度不高，进一步的导致视频的筛选、阅读、视频内容检索、视频个性化推荐等准确性不高。
[0043]针对该问题，本公开实施例提供了一种多媒体信息话题分析方法，下面结合具体的实施例对该方法进行介绍。
[0044]图1为本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多媒体信息话题分析方法，其特征在于，所述方法包括：提取多媒体信息中的音频数据和视频数据；从所述音频数据提取语音信息，得到语音识别文本；从所述视频数据的关键帧中提取字幕信息，得到字幕文本；从所述语音识别文本和所述字幕文本中提取实体和关键词，以及确定所述语音识别文本和所述字幕文本的语义标签；提取所述关键帧中的人脸标签、以及确定所述关键帧的图片标签；根据所述实体、所述关键词、所述语义标签、所述人脸标签和所述图片标签，确定所述多媒体信息的目标话题。2.根据权利要求1所述的方法，其特征在于，根据所述实体、所述关键词、所述语义标签、所述人脸标签和所述图片标签，确定所述多媒体信息的目标话题，包括：将所述实体、所述关键词和所述语义标签进行合并，得到合并后的文本话题信息；将所述人脸标签和所述图片标签进行合并，得到合并后的视觉话题信息；根据所述合并后的文本话题信息和所述合并后的视觉话题信息，确定所述多媒体信息中出现的多个话题；根据所述多个话题中每个话题的出处，确定每个话题的权重值；根据每个话题的权重值，确定所述多媒体信息的目标话题，所述目标话题是权重值满足预设条件的话题。3.根据权利要求2所述的方法，其特征在于，根据所述多个话题中每个话题的出处，确定每个话题的权重值，包括：若所述话题出现在文本数据中，则确定所述话题的权重值为第一权重值，所述文本数据包括所述语音识别文本和/或所述字幕文本；若所述话题出现在图像数据中，则确定所述话题的权重值为第二权重值，所述图像数据包括所述关键帧；若所述话题同时出现在所述文本数据和所述图像数据，则确定所述话题的权重值为第三权重值，所述第三权重值是所述第一权重值和所述第二权重值的和值。4.根据权利要求2所述的方法，其特征在于，将所述人脸标签和所述图片标签进行合并，得到合并后的视觉话题信息，包括：将所述人脸标签与所述关键帧的图片标签分别去重后进行合并，得到合并后的视觉话题信息。5.根据权利要求1所述的方法，其特征在于，所述从所述音频数据提取语音信息，得到语...

【专利技术属性】
技术研发人员：陈志鹏，张旭，朱晓航，刘宏宇，马先钦，姜文华，曹家，罗引，王磊，
申请(专利权)人：北京中科闻歌科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人