标签提取方法、服务器及可读存储介质技术

技术编号：24498050 阅读：43 留言：0更新日期：2020-06-13 03:50

本发明专利技术公开了一种标签提取方法，包括步骤：获取待提取标签的影片数据，并从所述影片数据中获取图像和对白；根据所述对白确定影片数据包含的多个场景，并选取每个场景对应的图像；对每个场景中对白以及图像进行识别，以得到每个场景中对白和图像分别对应的关键词；将所述关键词作为所述影片数据的标签信息。本发明专利技术还公开了一种服务器及可读存储介质。其中围绕影片中对白和图像进行标签自动提取，使影片标签的信息更加全面，而且不基于人工主观标记。

Label extraction method, server and readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
标签提取方法、服务器及可读存储介质
本专利技术涉及信息处理领域，尤其涉及一种标签提取方法、服务器及可读存储介质。
技术介绍
电影由于其丰富的元素迅速成为人们日常生活中必不可少的休闲方式之一，电视的市场越来越大，电影的种类也越来越多。通常用户了解一部电影内容的方式通常包括简介、预告片、影评及电影标签，对于电影标签来说大部分基于人工主观标记，存在标签信息不全的情况。
技术实现思路
本专利技术提出的一种标签提取方法、服务器及可读存储介质，旨在解决标签基于人工主观标记，存在标签信息不全的问题。为实现上述目的，本专利技术提供一种标签提取方法，所述方法包括步骤：获取待提取标签的影片数据，并从所述影片数据中获取图像和对白；根据所述对白确定影片数据包含的多个场景，并选取每个场景对应的图像；对每个场景中对白以及图像进行识别，以得到每个场景中对白和图像分别对应的关键词；将所述关键词作为所述影片数据的标签信息。优选地，所述从所述影片数据中获取图像的步骤包括：从影片数据中获...

【技术保护点】
1.一种标签提取方法，其特征在于，所述方法包括步骤：/n获取待提取标签的影片数据，并从所述影片数据中获取图像和对白；/n根据所述对白确定影片数据包含的多个场景，并选取每个场景对应的图像；/n对每个场景中对白以及图像进行识别，以得到每个场景中对白和图像分别对应的关键词；/n将所述关键词作为所述影片数据的标签信息。/n

【技术特征摘要】
1.一种标签提取方法，其特征在于，所述方法包括步骤：
获取待提取标签的影片数据，并从所述影片数据中获取图像和对白；
根据所述对白确定影片数据包含的多个场景，并选取每个场景对应的图像；
对每个场景中对白以及图像进行识别，以得到每个场景中对白和图像分别对应的关键词；
将所述关键词作为所述影片数据的标签信息。

2.如权利要求1所述的标签提取方法，其特征在于，所述从所述影片数据中获取图像的步骤包括：
从影片数据中获取经灰度化处理和/或去重处理后的图像。

3.如权利要求1所述的标签提取方法，其特征在于，所述从所述影片数据中获取对白的步骤之前，还包括：
判断所述影片数据中是否包含字幕信息；
若是，则将所述字幕信息作为对白；
若否，则提取影片数据中的音频数据并将音频数据转化为文本数据，以将所述文本数据作为对白。

4.如权利要求1所述的标签提取方法，其特征在于，所述根据所述对白确定影片数据包含的多个场景的步骤包括：
获取每句对白对应的时间信息，其中所述时间信息包括起始时间和结束时间；
采用K-means聚类算法对所述时间信息进行聚类分析，并根据分析结果确定场景。

5.如权利要求1所述的标签提取方法，其特征在于，所述选取每个场景对应的图像的步骤包括：
获取每个场景的时间范围以及每张图像对应的播放时间；
将所述每个场景的时间范围与每张图像对应的播放时间进行匹配...

【专利技术属性】
技术研发人员：赵磊，
申请(专利权)人：深圳市酷开网络科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人