标签提取方法、服务器及可读存储介质技术

技术编号:24498050 阅读:41 留言:0更新日期:2020-06-13 03:50
本发明专利技术公开了一种标签提取方法,包括步骤:获取待提取标签的影片数据,并从所述影片数据中获取图像和对白;根据所述对白确定影片数据包含的多个场景,并选取每个场景对应的图像;对每个场景中对白以及图像进行识别,以得到每个场景中对白和图像分别对应的关键词;将所述关键词作为所述影片数据的标签信息。本发明专利技术还公开了一种服务器及可读存储介质。其中围绕影片中对白和图像进行标签自动提取,使影片标签的信息更加全面,而且不基于人工主观标记。

Label extraction method, server and readable storage medium

【技术实现步骤摘要】
标签提取方法、服务器及可读存储介质
本专利技术涉及信息处理领域,尤其涉及一种标签提取方法、服务器及可读存储介质。
技术介绍
电影由于其丰富的元素迅速成为人们日常生活中必不可少的休闲方式之一,电视的市场越来越大,电影的种类也越来越多。通常用户了解一部电影内容的方式通常包括简介、预告片、影评及电影标签,对于电影标签来说大部分基于人工主观标记,存在标签信息不全的情况。
技术实现思路
本专利技术提出的一种标签提取方法、服务器及可读存储介质,旨在解决标签基于人工主观标记,存在标签信息不全的问题。为实现上述目的,本专利技术提供一种标签提取方法,所述方法包括步骤:获取待提取标签的影片数据,并从所述影片数据中获取图像和对白;根据所述对白确定影片数据包含的多个场景,并选取每个场景对应的图像;对每个场景中对白以及图像进行识别,以得到每个场景中对白和图像分别对应的关键词;将所述关键词作为所述影片数据的标签信息。优选地,所述从所述影片数据中获取图像的步骤包括:从影片数据中获取经灰度化处理和/或去重处理后的图像。优选地,所述从所述影片数据中获取对白的步骤之前,还包括:判断所述影片数据中是否包含字幕信息;若是,则将所述字幕信息作为对白;若否,则提取影片数据中的音频数据并将音频数据转化为文本数据,以将所述文本数据作为对白。优选地,所述根据所述对白确定影片数据包含的多个场景的步骤包括:获取每句对白对应的时间信息,其中所述时间信息包括起始时间和结束时间;采用K-means聚类算法对所述时间信息进行聚类分析,并根据分析结果确定场景。优选地,所述选取每个场景对应的图像的步骤包括:获取每个场景的时间范围以及每张图像对应的播放时间;将所述每个场景的时间范围与每张图像对应的播放时间进行匹配,以将播放时间匹配的图像作为时间范围匹配的场景对应的图像。优选地,所述对每个场景中对白以及图像进行识别,以得到每个场景中对白和图像分别对应的关键词的步骤包括:将每个场景中对白与预设关键词进行匹配,并将匹配到的关键词作为该场景中对白对应的关键词;根据预设关键词对每个场景中图像进行识别,以将识别到的预设关键词作为该场景中图像对应的关键词。优选地,所述将所述关键词作为所述影片数据的标签信息的步骤包括:确定每个场景中对白和图像的关键词分别对应的次数;将所有场景中对白和图像的关键词分别对应的次数进行整合,并将整合后的关键词及对应的次数作为影片数据的标签信息。优选地,所述将所述关键词作为所述影片数据的标签信息的步骤之后,还包括:将标签信息与标签信息在影片数据中出现的时间信息进行关联。此外,为实现上述目的,本专利技术还提供一种服务器,所述服务器包括:通信模块、存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的标签提取方法的步骤。此外,为实现上述目的,本专利技术还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的标签提取方法的步骤。本专利技术通过获取待提取标签的影片数据,并从所述影片数据中获取图像和对白;根据所述对白确定影片数据包含的多个场景,并选取每个场景对应的图像;对每个场景中对白以及图像进行识别,以得到每个场景中对白和图像分别对应的关键词;将所述关键词作为所述影片数据的标签信息。其中围绕影片中对白和图像进行例如电影标签的标签自动提取,使标签的信息更加全面,而且不基于人工主观标记,更具客观性,也降低了人力成本。附图说明图1是本专利技术实施例方案涉及的服务器的硬件结构示意图;图2为本专利技术标签提取方法第一实施例的流程示意图。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参看图1,图1为本专利技术所提供的服务器的硬件结构示意图。所述服务器可以包括通信模块10、存储器20以及处理器30等部件。在所述服务器中,所述处理器30分别与所述存储器20以及所述通信模块10连接,所述存储器20上存储有计算机程序,所述计算机程序同时被处理器30执行,所述计算机程序执行时实现下述方法实施例的步骤。通信模块10,可通过网络与外部通讯设备连接。通信模块10可以接收外部通讯设备发出的请求,还可以发送请求、指令及信息至所述外部通讯设备。所述外部通讯设备可以是其他服务器和/或其他设备终端,例如电视。存储器20,可用于存储软件程序以及各种数据。存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如获取待提取标签的影片数据)等;存储数据区可包括数据库,存储数据区可存储根据服务器的使用所创建的数据或信息等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器30,是服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器20内的软件程序和/或模块,以及调用存储在存储器20内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。处理器30可包括一个或多个处理单元;可选地,处理器30可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器30中。尽管图1未示出,但上述服务器还可以包括电路控制模块,用于与电源连接,保证其他部件的正常工作。本领域技术人员可以理解,图1中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。基于上述硬件结构,提出本专利技术方法各个实施例。请参照图2,图2为本专利技术标签提取方法第一实施例的流程示意图,在该实施例中,所述方法包括:步骤S10,获取待提取标签的影片数据,并从所述影片数据中获取图像和对白;电影、电视剧等节目由于丰富的元素迅速地成为人们日常生活中必备的休闲方式之一。电影、电视剧等的市场越来越大,电影、电视剧等的种类越来越多。琳琅满目的电影以及电影的时长导致用户不可能完整浏览一部影片,对于即将上映的电影来说,用户了解一部电影的较好方式通常包括简介,预告片,其他用户的影片评论以及电影标签,但对于一些年份较古老或者较冷门的电影,用户了解的方式通常只有简介和电影标签。因此,电影的标签具有较大的意义,但是,目前对于未上映的电影或者冷门电影,由于观看的用户数目极少,因此这部分电影的标签通常非常少甚至没有,手工的为这部分电影打标签不仅费时费力,而且难以较全面地覆盖电影的各个方面。本实施例中的影片数据包括电视剧、电影、综艺节目、纪录片等的音视频数据,本实例以电影为例说明,在对电影进行标签提取时,首先获取待提本文档来自技高网...

【技术保护点】
1.一种标签提取方法,其特征在于,所述方法包括步骤:/n获取待提取标签的影片数据,并从所述影片数据中获取图像和对白;/n根据所述对白确定影片数据包含的多个场景,并选取每个场景对应的图像;/n对每个场景中对白以及图像进行识别,以得到每个场景中对白和图像分别对应的关键词;/n将所述关键词作为所述影片数据的标签信息。/n

【技术特征摘要】
1.一种标签提取方法,其特征在于,所述方法包括步骤:
获取待提取标签的影片数据,并从所述影片数据中获取图像和对白;
根据所述对白确定影片数据包含的多个场景,并选取每个场景对应的图像;
对每个场景中对白以及图像进行识别,以得到每个场景中对白和图像分别对应的关键词;
将所述关键词作为所述影片数据的标签信息。


2.如权利要求1所述的标签提取方法,其特征在于,所述从所述影片数据中获取图像的步骤包括:
从影片数据中获取经灰度化处理和/或去重处理后的图像。


3.如权利要求1所述的标签提取方法,其特征在于,所述从所述影片数据中获取对白的步骤之前,还包括:
判断所述影片数据中是否包含字幕信息;
若是,则将所述字幕信息作为对白;
若否,则提取影片数据中的音频数据并将音频数据转化为文本数据,以将所述文本数据作为对白。


4.如权利要求1所述的标签提取方法,其特征在于,所述根据所述对白确定影片数据包含的多个场景的步骤包括:
获取每句对白对应的时间信息,其中所述时间信息包括起始时间和结束时间;
采用K-means聚类算法对所述时间信息进行聚类分析,并根据分析结果确定场景。


5.如权利要求1所述的标签提取方法,其特征在于,所述选取每个场景对应的图像的步骤包括:
获取每个场景的时间范围以及每张图像对应的播放时间;
将所述每个场景的时间范围与每张图像对应的播放时间进行匹配...

【专利技术属性】
技术研发人员:赵磊
申请(专利权)人:深圳市酷开网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1