多媒体文件的预测方法和装置制造方法及图纸

技术编号：18497183 阅读：46 留言：0更新日期：2018-07-21 20:13

本发明专利技术提供了一种多媒体文件的预测方法和装置，其中，所述方法包括：对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法，识别得到三个标签集；根据三个标签集，将目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中，并统计各目标多媒体文件在各主题中的分布概率；根据各目标多媒体文件在各主题中的分布概率及各主题中目标主题对应的条件分布概率，预测各目标多媒体文件的得分；按照得分对各目标多媒体文件进行排序。从而可以解决单独采用语音识别算法、图像识别算法或自然语言处理算法进行内容识别，准确性较差的问题，取得了提高多媒体文件内容识别的准确性的有益效果。

Prediction methods and devices for multimedia files

The invention provides a method and device for prediction of multimedia files. The method comprises the following steps: three tag sets are identified by speech recognition algorithm, image recognition algorithm and Natural Language Processing algorithm for target multimedia file set, and the target multimedia files are set by three tag sets. The standard multimedia files are divided into the subjects of the preset theme set, and the distribution probability of the multi-media files in each subject is counted. According to the distribution probability of the multi-media files in each subject and the probability of the conditional distribution of the target theme in each subject, the scores of the multi-media files of each target are predicted and the scores are calculated according to the score. Sorting the multi-media files of each target. It can solve the problem that the speech recognition algorithm, the image recognition algorithm or the Natural Language Processing algorithm can be used to identify the content, and the accuracy is poor, and the beneficial effect of improving the accuracy of the content recognition of the multimedia files is achieved.

全部详细技术资料下载

【技术实现步骤摘要】
多媒体文件的预测方法和装置
本专利技术涉及软件应用
，尤其涉及一种多媒体文件的预测方法和装置。
技术介绍
近年来，深度学习在视频图像、语音识别、自然语言处理等领域得到了广泛应用。例如，对于视频图像而言，采用图像识别算法进行内容识别；对于语音数据，采用语音识别算法进行内容识别；对于文本数据，采用自然语音处理进行内容识别。而在实际应用中，单独采用一种算法进行识别，往往无法准确的识别内容。例如，对于典型的UGC平台(UserGeneratedContent，用户原创内容平台)，每天均会有大量用户上传各种各样的视频，这些记录用户生活的视频包括自拍、跳舞、美食等内容。当要从数以亿计的视频中筛选出“美食教程”的视频时，若仅采用图像分类算法，虽然可以识别出“美食”视频，但无法识别出“教程”视频；若使用自然语言处理算法，虽然可以从文本中分离出“教程”以识别出“教程”视频，但无法识别图像中的“美食”；若把这个两个算法简单联合起来，虽然可以筛选出一定的“美食教程”视频，但并不是所有“美食教程”视频都包括“教程”字样，用户描述视频的文字很可能是“葱”、“姜”、“蒜”等食材。从而仅靠简单的算法融合无法准确识别内容。
技术实现思路
本专利技术实施例提供的多媒体文件的预测方法和装置，可解决单独采用语音识别算法、图像识别算法或自然语言处理算法进行内容识别，准确性较差的问题。一方面，本专利技术实施例公开了一种多媒体文件的预测方法，包括：对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法，识别得到第一标签集、第二标签集及第三标签集；根据所述第一标签集、第二标签集及第三...

【技术保护点】
1.一种多媒体文件的预测方法，其特征在于，所述方法包括：对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法，识别得到第一标签集、第二标签集及第三标签集；根据所述第一标签集、第二标签集及第三标签集，将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中，并统计所述各目标多媒体文件在各主题中的分布概率；根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率，预测所述各目标多媒体文件的得分；所述条件分布概率通过对训练多媒体文件集进行训练得到；按照所述得分对所述各目标多媒体文件进行排序。

【技术特征摘要】
1.一种多媒体文件的预测方法，其特征在于，所述方法包括：对目标多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法，识别得到第一标签集、第二标签集及第三标签集；根据所述第一标签集、第二标签集及第三标签集，将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中，并统计所述各目标多媒体文件在各主题中的分布概率；根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率，预测所述各目标多媒体文件的得分；所述条件分布概率通过对训练多媒体文件集进行训练得到；按照所述得分对所述各目标多媒体文件进行排序。2.根据权利要求1所述的方法，其特征在于，所述条件分布概率通过对训练多媒体文件集进行训练得到的步骤，包括：对训练多媒体文件集分别通过语音识别算法、图像识别算法及自然语言处理算法，识别得到第一训练标签集、第二训练标签集及第三训练标签集；根据所述第一训练标签集、第二训练标签集及第三训练标签集，将所述训练多媒体文件集中的各训练多媒体文件划分至预设主题集的各主题中；根据所述各训练多媒体文件的标注信息，统计各主题中的训练多媒体文件属于目标主题的概率，得到各主题中目标主题对应的条件分布概率。3.根据权利要求2所述的方法，其特征在于，所述根据所述各训练多媒体文件的标注信息，统计各主题中的训练多媒体文件属于目标主题的概率，得到各主题中目标主题对应的条件分布概率的步骤，包括：根据所述各训练多媒体文件的标注信息，统计各主题中属于目标主题的训练多媒体文件的数目，得到第一数值；统计所述各主题中的训练多媒体文件的总数目，得到第二数值；计算所述第一数值与第二数值的比值，得到各主题中目标主题对应的条件分布概率。4.根据权利要求1所述的方法，其特征在于，所述根据所述各目标多媒体文件在各主题中的分布概率以及各主题中目标主题对应的条件分布概率，预测所述各目标多媒体文件的得分的步骤，包括：对于每个目标多媒体文件，将所述目标多媒体文件在各主题中的分布概率和各主题中目标主题对应的条件分布概率分别相乘，得到所述目标多媒体文件在各主题中的目标概率；将所述目标多媒体文件在各主题中的目标概率相加，得到所述目标多媒体文件的得分。5.根据权利要求1所述的方法，其特征在于，所述根据所述第一标签集、第二标签集及第三标签集，将所述目标多媒体文件集中的各目标多媒体文件划分至预设主题集的各主题中的步骤，包括：对于所述目标多媒体文件集中的各目标多媒体文件，根据所述目标多媒体文件在第一标签集中对应的第一标签、第二标签集中的第二标签以及第三标签集中的第三标签，进行综合判断以...

【专利技术属性】
技术研发人员：张志伟，杨帆，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人