一种基于弹幕的视频高光片段识别方法、终端及存储介质技术

技术编号：25921738 阅读：34 留言：0更新日期：2020-10-13 10:42

本发明专利技术公开了一种基于弹幕的视频高光片段识别方法、终端及存储介质，本发明专利技术通过获取视频片段中的弹幕对应的语义向量，并根据弹幕的语义向量获取视频片段的语义向量，根据视频片段的语义向量确定该视频片段是否为高光片段，实现了对视频中的高光片段的自动识别，不需要进行人工识别，提升了高光片段的识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于弹幕的视频高光片段识别方法、终端及存储介质
本专利技术涉及终端
，特别涉及一种基于弹幕的视频高光片段识别方法、终端及存储介质。
技术介绍
视频的高光片段是指一段视频中精彩的片段，视频中的高光片段便于观看，传播效率显然大大高于整个视频的传播效率，因此，将视频中的高光片段单独提取出来进行剪辑的做法非常常见。在现有技术中，需要人工看完整个视频，判断哪些是高光片段，这种方式耗时长。因此，现有技术还有待改进和提高。
技术实现思路
针对现有技术的上述缺陷，本专利技术提供一种基于弹幕的视频高光片段识别方法、终端及存储介质，旨在解决现有技术中由人工识别高光片段耗时长的问题。为了解决上述技术问题，本专利技术所采用的技术方案如下：本专利技术的第一方面，提供一种基于弹幕的视频高光片段识别方法，所述方法包括：获取目标视频，对所述目标视频进行分割，得到至少一个视频片段；对于所述至少一个视频片段中的目标片段中的每个弹幕，将弹幕文本输入至预先训练完成的第一神经网络，获取所述第一神经网络输出的所述弹幕对应的第一语义向量；根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量；根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段。所述的基于弹幕的视频高光片段识别方法，其中，所述第一神经网络的参数是根据多组训练数据完成的，每组训练数据中包括样本视频片段以及样本视频片段中的各个弹幕，所述第一神经网络的训练目标函数为：r>其中，BSi为训练数据中样本视频片段中的第i个弹幕，xi为所述第i个弹幕对应的第一语义向量，BSi+j为BSi的上下文弹幕，2*m为弹幕的上下文弹幕的数量，uo为BSi的上下文弹幕的第一语义向量，ubs为样本视频片段中第bs个弹幕的第一语义向量，N为样本视频片段中弹幕的数量，Vj为目标片段，V为目标视频，θ为所述第一神经网络的参数，p(BSi+j|BSi；θ)为所述第一神经网络的参数取θ时对应的p(BSi+j|BSi)。所述的基于弹幕的视频高光片段识别方法，其中，所述根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量包括：对所述弹幕进行分词，将所述弹幕中的各个单词输入至预先训练完成的第二神经网络，获取所述第二神经网络输出的所述各个单词分别对应的词向量，根据所述各个词向量获取所述弹幕对应的第二语义向量；根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量。所述的基于弹幕的视频高光片段识别方法，其中，所述根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量包括：将所述第一语义向量和所述第二语义向量连接后输入至预先训练的第三神经网络，获取所述第三神经网络输出的所述目标语义向量；其中，在所述第三神经网络中，对所述第一语义向量和所述第二语义向量进行处理的公式为：z＝t⊙g(WH[Ew；Ebs]+bH)+(1-t)⊙[Ew；Ebs]t＝σ(WT[Ew；Ebs]+bT)其中，z为所述目标语义向量，Ew为所述第一语义向量，Ebs为所述第二语义向量，[Ew；Ebs]为所述第一语义向量和所述第二语义向量连接后的向量联合表示，WT为门机制矩阵，WH为变换权重矩阵，bH、bT分别为所述第三神经网络中的常数偏置项，g为非线性激活函数，σ为sigmoid激活函数。所述的基于弹幕的视频高光片段识别方法，其中，所述根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段包括：对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取，获取所述目标片段中的各个弹幕分别对应的特征向量；根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示；根据所述目标语义表示确定所述目标片段是否为高光片段。所述的基于弹幕的视频高光片段识别方法，其中，所述对所述目标片段中的各个弹幕分别对应的目标语义向量进行特征提取包括：将所述目标片段中的各个弹幕分别对应的目标语义向量输入至预先训练完成的第四神经网络，获取所述第四神经网络输出的所述目标片段中的各个弹幕分别对应的特征向量；其中，所述第四神经网络为双向长短期记忆网络。所述的基于弹幕的视频高光片段识别方法，其中，所述根据所述目标片段中的各个弹幕分别对应的特征向量获取所述目标片段对应的目标语义表示包括：获取所述目标片段中的各个弹幕的特征向量分别对应的注意力比值；根据所述目标片段中的各个弹幕的特征向量分别对应的注意力比值对所述各个弹幕的特征向量进行加权求和，获取所述目标片段对应的目标语义表示。所述的基于弹幕的视频高光片段识别方法，其中，所述根据所述目标语义表示确定所述目标片段是否为高光片段包括：将所述目标语义表示转化为数值；当所述数值大于预设阈值时，确定所述目标片段为高光片段。本专利技术的第二方面，提供一种终端，所述终端包括处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令，所述处理器适于调用所述存储介质中的指令，以执行实现上述任一项所述的基于弹幕的视频高光片段识别方法的步骤。本专利技术的第三方面，提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一项所述的基于弹幕的视频高光片段识别方法的步骤。与现有技术相比，本专利技术提供了一种基于弹幕的视频高光片段识别方法、终端及存储介质，所述基于弹幕的视频高光片段识别方法通过获取视频片段中的弹幕对应的语义向量，并根据弹幕的语义向量获取视频片段的语义向量，根据视频片段的语义向量确定该视频片段是否为高光片段，实现了对视频中的高光片段的自动识别，不需要进行人工识别，提升了高光片段的识别效率。附图说明图1为本专利技术提供的基于弹幕的视频高光片段识别方法的实施例的流程图；图2为本专利技术提供的基于弹幕的视频高光片段识别方法的实施例中步骤S400的子步骤流程图；图3为本专利技术提供的基于弹幕的视频高光片段识别方法的实施例的整体网络模型示意图；图4为本专利技术提供的终端的实施例的原理示意图。具体实施方式为使本专利技术的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本专利技术进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本专利技术，并不用于限定本专利技术。实施例一本专利技术提供的基于弹幕的视频高光片段识别方法，可以是应用在终端中，终端可以通过本专利技术提供的基于弹幕的视频高光片段识别方法识别视频中的高光片段。终端可以但不限于是各种计算机、手机、平板电脑、车载电脑和便携式可穿戴设备。如图1所示，所述基于弹幕的视频高光片段识别方法的一个实施例中，包括步骤：S100、获取目标视频，对所述目标视频进行分割，得到至少一个视频片段。在获取到待识别高光片段的目标视频后，对所述目标视频本文档来自技高网...

【技术保护点】
1.一种基于弹幕的视频高光片段识别方法，其特征在于，所述方法包括：/n获取目标视频，对所述目标视频进行分割，得到至少一个视频片段；/n对于所述至少一个视频片段中的目标片段中的每个弹幕，将弹幕文本输入至预先训练完成的第一神经网络，获取所述第一神经网络输出的所述弹幕对应的第一语义向量；/n根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量；/n根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段。/n

【技术特征摘要】
1.一种基于弹幕的视频高光片段识别方法，其特征在于，所述方法包括：
获取目标视频，对所述目标视频进行分割，得到至少一个视频片段；
对于所述至少一个视频片段中的目标片段中的每个弹幕，将弹幕文本输入至预先训练完成的第一神经网络，获取所述第一神经网络输出的所述弹幕对应的第一语义向量；
根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量；
根据所述目标片段中的各个弹幕分别对应的目标语义向量确定所述目标片段是否为高光片段。

2.根据权利要求1所述的基于弹幕的视频高光片段识别方法，其特征在于，所述第一神经网络的参数是根据多组训练数据完成的，每组训练数据中包括样本视频片段以及样本视频片段中的各个弹幕，所述第一神经网络的训练目标函数为：

其中，BSi为训练数据中样本视频片段中的第i个弹幕，xi为所述第i个弹幕对应的第一语义向量，BSi+j为BSi的上下文弹幕，2*m为弹幕的上下文弹幕的数量，uo为BSi的上下文弹幕的第一语义向量，ubs为样本视频片段中第bs个弹幕的第一语义向量，N为样本视频片段中弹幕的数量，Vj为目标片段，V为目标视频，θ为所述第一神经网络的参数，p(BSi+j|BSi；θ)为所述第一神经网络的参数取θ时对应的p(BSi+j|BSi)。

3.根据权利要求1所述的基于弹幕的视频高光片段识别方法，其特征在于，所述根据所述弹幕的第一语义向量获取所述弹幕对应的目标语义向量包括：
对所述弹幕进行分词，将所述弹幕中的各个单词输入至预先训练完成的第二神经网络，获取所述第二神经网络输出的所述各个单词分别对应的词向量，根据所述各个词向量获取所述弹幕对应的第二语义向量；
根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量。

4.根据权利要求3所述的基于弹幕的视频高光片段识别方法，其特征在于，所述根据所述第一语义向量和所述第二语义向量获取所述弹幕对应的目标语义向量包括：
将所述第一语义向量和所述第二语义向量连接后输入至预先训练的第三神经网络，获取所述第三神经网络输出的所述目标语义向量；
其中，在所述第三神经网络中，对所述第一语义向量和所述第二语义向量进行处理的公式为：
z＝t⊙g(WH[Ew；Ebs]+bH)+(1-t)⊙[Ew；Ebs]
t＝σ(WT[Ew；Ebs]+bT)
其中，z为所述目标语义向量，Ew为所述第一语义向量，Eb...

【专利技术属性】
技术研发人员：卢亚辉，林浩星，王辉，
申请(专利权)人：深圳大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人