多媒体文件的预测方法和装置制造方法及图纸

技术编号:18497183 阅读:46 留言:0更新日期:2018-07-21 20:13
本发明专利技术提供了一种多媒体文件的预测方法和装置,其中,所述方法包括:对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到三个标签集;根据三个标签集,将目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计各目标多媒体文件在各主题中的分布概率;根据各目标多媒体文件在各主题中的分布概率及各主题中目标主题对应的条件分布概率,预测各目标多媒体文件的得分;按照得分对各目标多媒体文件进行排序。从而可以解决单独采用语音识别算法、图像识别算法或自然语言处理算法进行内容识别,准确性较差的问题,取得了提高多媒体文件内容识别的准确性的有益效果。

Prediction methods and devices for multimedia files

The invention provides a method and device for prediction of multimedia files. The method comprises the following steps: three tag sets are identified by speech recognition algorithm, image recognition algorithm and Natural Language Processing algorithm for target multimedia file set, and the target multimedia files are set by three tag sets. The standard multimedia files are divided into the subjects of the preset theme set, and the distribution probability of the multi-media files in each subject is counted. According to the distribution probability of the multi-media files in each subject and the probability of the conditional distribution of the target theme in each subject, the scores of the multi-media files of each target are predicted and the scores are calculated according to the score. Sorting the multi-media files of each target. It can solve the problem that the speech recognition algorithm, the image recognition algorithm or the Natural Language Processing algorithm can be used to identify the content, and the accuracy is poor, and the beneficial effect of improving the accuracy of the content recognition of the multimedia files is achieved.

【技术实现步骤摘要】
多媒体文件的预测方法和装置
本专利技术涉及软件应用
,尤其涉及一种多媒体文件的预测方法和装置。
技术介绍
近年来,深度学习在视频图像、语音识别、自然语言处理等领域得到了广泛应用。例如,对于视频图像而言,采用图像识别算法进行内容识别;对于语音数据,采用语音识别算法进行内容识别;对于文本数据,采用自然语音处理进行内容识别。而在实际应用中,单独采用一种算法进行识别,往往无法准确的识别内容。例如,对于典型的UGC平台(UserGeneratedContent,用户原创内容平台),每天均会有大量用户上传各种各样的视频,这些记录用户生活的视频包括自拍、跳舞、美食等内容。当要从数以亿计的视频中筛选出“美食教程”的视频时,若仅采用图像分类算法,虽然可以识别出“美食”视频,但无法识别出“教程”视频;若使用自然语言处理算法,虽然可以从文本中分离出“教程”以识别出“教程”视频,但无法识别图像中的“美食”;若把这个两个算法简单联合起来,虽然可以筛选出一定的“美食教程”视频,但并不是所有“美食教程”视频都包括“教程”字样,用户描述视频的文字很可能是“葱”、“姜”、“蒜”等食材。从而仅靠简单的算法融合无法准确识别内容。
技术实现思路
本专利技术实施例提供的多媒体文件的预测方法和装置,可解决单独采用语音识别算法、图像识别算法或自然语言处理算法进行内容识别,准确性较差的问题。一方面,本专利技术实施例公开了一种多媒体文件的预测方法,包括:对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一标签集、第二标签集及第三标签集;根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计所述各目标多媒体文件在各主题中的分布概率;根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分;所述条件分布概率通过对训练多媒体文件集进行训练得到;按照所述得分对所述各目标多媒体文件进行排序。另一方面,本专利技术实施例还公开了一种多媒体文件的预测装置,包括:标签获取模块,用于对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一标签集、第二标签集及第三标签集;主题划分模块,用于根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计所述各目标多媒体文件在各主题中的分布概率;得分预测模块,用于根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分;所述条件分布概率通过对训练多媒体文件集进行训练得到;排序模块,用于按照所述得分对所述各目标多媒体文件进行排序。在本专利技术实施例中,对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一标签集、第二标签集及第三标签集;根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计所述各目标多媒体文件在各主题中的分布概率;根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分;所述条件分布概率通过对训练多媒体文件集进行训练得到;按照所述得分对所述各目标多媒体文件进行排序。从而可以解决单独采用语音识别算法、图像识别算法或自然语言处理算法进行内容识别,准确性较差的问题,取得了提高多媒体文件内容识别的准确性的有益效果。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例一中的一种多媒体文件的预测方法的步骤流程图;图2示出了本专利技术实施例二中的一种多媒体文件的预测方法的步骤流程图;图3示出了本专利技术实施例三中的一种多媒体文件的预测装置的结构框图;图4示出了本专利技术实施例四中的一种多媒体文件的预测装置的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面通过列举几个具体的实施例详细介绍本专利技术提供的一种多媒体文件的预测方法和装置。实施例一参照图1,示出了本专利技术实施例一的一种多媒体文件的预测方法的步骤流程图,具体可以包括如下步骤:步骤101,对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一标签集、第二标签集及第三标签集。本专利技术实施例针对多媒体文件进行分类。其中,多媒体文件至少包括视频、动图等。语音识别算法通过语音信号的预处理、特征提取、模式匹配,识别内容。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。图像识别算法通过图像处理、分析和理解,以识别图像内容。图像识别主要以图像的主要特征为基础。例如,字母A都有个尖、P有个圈、Y的中心有个锐角等。自然语言处理算法通过语法、语义等进行解析,识别内容。本专利技术实施例可以综合三种算法对目标多媒体文件进行识别,从而更加准确的对目标多媒体文件进行分类。在实际应用中,为了区别三种算法生成的标签,对各算法生成的标签设置唯一的标识。具体地,语音识别算法生成的标签标识采用前缀A,图像识别算法生成的标签标识采用前缀I,自然语言处理算法生成的标签采用前缀T。例如,对于同一多媒体文件的标签1,对应三种算法分别生成标识为A-1、I-1、T-1的标签。对于目标多媒体文件集,按照上述方法生成的第一标签集为A-1、A-2、A-3、…、A-M,第二标签集为I-1、I-2、I-3、…、I-N,第三标签集为T-1、T-2、T-3、…、T-L。可以理解,一个目标多媒体文件按照一种算法可以对应多个标签。步骤102,根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计所述各目标多媒体文件在各主题中的分布概率。其中,预设主题集可以根据当前任务设定,可以与当前任务的主题相关。例如,当前任务是对多媒体文件识别出“美食教程”,则需要设置与美食教程相关的主题。可以理解,主题数目可以根据实际应用场景设定,本专利技术实施例对其不加以限制。具体地,采用LDA模型将目标多媒体文件划分至预设主题集中的各主题中。LDA(LatentDirichletAllocation,潜藏狄利克雷分配)是一种文档主题生成模型,也称为三层贝叶斯概率模型,包含词、主题和文档三层结构。生成模型认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”。其中,文档到本文档来自技高网...

【技术保护点】
1.一种多媒体文件的预测方法,其特征在于,所述方法包括:对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一标签集、第二标签集及第三标签集;根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计所述各目标多媒体文件在各主题中的分布概率;根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分;所述条件分布概率通过对训练多媒体文件集进行训练得到;按照所述得分对所述各目标多媒体文件进行排序。

【技术特征摘要】
1.一种多媒体文件的预测方法,其特征在于,所述方法包括:对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一标签集、第二标签集及第三标签集;根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中,并统计所述各目标多媒体文件在各主题中的分布概率;根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分;所述条件分布概率通过对训练多媒体文件集进行训练得到;按照所述得分对所述各目标多媒体文件进行排序。2.根据权利要求1所述的方法,其特征在于,所述条件分布概率通过对训练多媒体文件集进行训练得到的步骤,包括:对训练多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法,识别得到第一训练标签集、第二训练标签集及第三训练标签集;根据所述第一训练标签集、第二训练标签集及第三训练标签集,将所述训练多媒体文件集中的各训练多媒体文件划分至预设主题集的各主题中;根据所述各训练多媒体文件的标注信息,统计各主题中的训练多媒体文件属于目标主题的概率,得到各主题中目标主题对应的条件分布概率。3.根据权利要求2所述的方法,其特征在于,所述根据所述各训练多媒体文件的标注信息,统计各主题中的训练多媒体文件属于目标主题的概率,得到各主题中目标主题对应的条件分布概率的步骤,包括:根据所述各训练多媒体文件的标注信息,统计各主题中属于目标主题的训练多媒体文件的数目,得到第一数值;统计所述各主题中的训练多媒体文件的总数目,得到第二数值;计算所述第一数值与第二数值的比值,得到各主题中目标主题对应的条件分布概率。4.根据权利要求1所述的方法,其特征在于,所述根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率,预测所述各目标多媒体文件的得分的步骤,包括:对于每个目标多媒体文件,将所述目标多媒体文件在各主题中的分布概率和各主题中目标主题对应的条件分布概率分别相乘,得到所述目标多媒体文件在各主题中的目标概率;将所述目标多媒体文件在各主题中的目标概率相加,得到所述目标多媒体文件的得分。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一标签集、第二标签集及第三标签集,将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中的步骤,包括:对于所述目标多媒体文件集中的各目标多媒体文件,根据所述目标多媒体文件在第一标签集中对应的第一标签、第二标签集中的第二标签以及第三标签集中的第三标签,进行综合判断以...

【专利技术属性】
技术研发人员:张志伟杨帆
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1