一种基于深度学习的视频分段方法、系统、终端及介质技术方案

技术编号:30230589 阅读:19 留言:0更新日期:2021-09-29 10:02
本发明专利技术公开了一种基于深度学习的视频分段方法,包括以下步骤:获取待处理的视频数据,从视频数据中获取音频数据;将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;将识别的文本类别与预设的视频分段中的文本类别进行对比;根据符合分段的文本类别对视频数据进行分段。该方法通过将视频中的语音数据转化为文本信息,将文本信息输入文本分类模型中进行预测,输出文本类别,并将输出的文本类别与可视频分段的文本类别进行对比,根据符合分段的文本类别对视频数据进行分段,通过这种方式能快速、准确地对视频分段,提高视频分段的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种基于深度学习的视频分段方法、系统、终端及介质


[0001]本专利技术涉及视频处理
,具体涉及一种基于深度学习的视频分段方法、系统、终端及介质。

技术介绍

[0002]随着网络的迅速发展,在线教育成为学生学习知识的重要途径,各种课程中的历程可以记录成不同的资料形态,而要把课程中的历程记录下来最简单的方式就是存储成课程视频。对课程视频进行分析,不仅可以了解教师的教学质量也可以了解学生的学习情况。为了方便观看视频,可以将完整的视频划分为多个分段,便于直接观看感兴趣的分段。

技术实现思路

[0003]针对现有技术中的缺陷,本专利技术实施例提供一种基于深度学习的视频分段方法及系统,能快速、准确地对视频进行分段。
[0004]第一方面,本专利技术实施例提供的一种基于深度学习的视频分段方法,包括以下步骤:
[0005]获取待处理的视频数据,从视频数据中获取音频数据;
[0006]将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;
[0007]将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;
[0008]将识别的文本类别与预设的视频分段中的文本类别进行对比;
[0009]根据符合分段的文本类别对视频数据进行分段。
[0010]可选地,所述对文本信息进行预处理和文本向量化具体包括:
[0011]将文本信息进行数据清洗,得到清洗后的文本信息;
[0012]将清洗后的文本信息进行分词处理得到文本数据
[0013]将文本数据输入转化模型中转化为分布式表示的词向量。
[0014]可选地,所述转化模型为Word2vec模型。
[0015]可选地,文本分类模型的训练方法包括:
[0016]将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;
[0017]将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;
[0018]将融合后的数据输入到全连接层,预测出文本类别。
[0019]第二方面,本专利技术实施例提供的一种基于深度学习的视频分段系统,包括:获取模块、数据预处理模块、文本分类模块、对比模块和分段模块;
[0020]所述获取模块用于获取待处理的视频数据,从视频数据中获取音频数据;
[0021]所述数据预处理模块用于将所述音频数据转化为文本信息,对文本信息进行预处
理和文本向量化,得到词向量;
[0022]所述文本分类模块用于将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;
[0023]所述对比模块用于将识别的文本类别与预设的视频分段中的文本类别进行对比;
[0024]所述分段模块用于根据符合分段的文本类别对视频数据进行分段。
[0025]可选地,所述数据预处理模块包括数据清洗单元、分词单元和转化单元,
[0026]所述数据清洗单元用于将文本信息进行数据清洗,得到清洗后的文本信息;
[0027]所述分词单元用于将清洗后的文本信息进行分词处理得到文本数据;
[0028]所述转化单元用于将文本数据输入转化模型中转化为分布式表示的词向量。
[0029]可选地,所述转化模型为Word2vec模型。
[0030]可选地,所述文本分类模块包括模型训练单元,所述模型训练单元用于将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;
[0031]将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;
[0032]将融合后的数据输入到全连接层,预测出文本类别。
[0033]第三方面,本专利技术实施例提供的一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法。
[0034]第四方面,本专利技术实施例提供的一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。
[0035]本专利技术的有益效果:
[0036]本专利技术实施例提供的一种基于深度学习的视频分段方法,通过将视频中的语音数据转化为文本信息,将文本信息输入文本分类模型中进行预测,输出文本类别,并将输出的文本类别与可视频分段的文本类别进行对比,根据符合分段的文本类别对视频数据进行分段,通过这种方式能快速、准确地对视频分段,提高视频分段的准确性。
[0037]本专利技术实施例提供的一种基于深度学习的视频分段系统、终端及介质与基于深度学习的视频分段方法出于相同的专利技术构思,具有相同的有益效果。
附图说明
[0038]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
[0039]图1示出了本专利技术第一实施例所提供的一种基于深度学习的视频分段方法的流程图;
[0040]图2示出了本专利技术第二实施例所提供的一种基于深度学习的视频分段系统的结构框图;
[0041]图3示出了本专利技术第三实施例所提供的一种智能终端的结构框图。
具体实施方式
[0042]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0044]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0045]还应当进一步理解,本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0046]如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频分段方法,其特征在于,包括以下步骤:获取待处理的视频数据,从视频数据中获取音频数据;将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;将识别的文本类别与预设的视频分段中的文本类别进行对比;根据符合分段的文本类别对视频数据进行分段。2.如权利要求1所述的基于深度学习的视频分段方法,其特征在于,所述对文本信息进行预处理和文本向量化具体包括:将文本信息进行数据清洗,得到清洗后的文本信息;将清洗后的文本信息进行分词处理得到文本数据;将文本数据输入转化模型中转化为分布式表示的词向量。3.如权利要求2所述的基于深度学习的视频分段方法,其特征在于,所述转化模型为Word2vec模型。4.如权利要求1所述的基于深度学习的视频分段方法,其特征在于,文本分类模型的训练方法包括:将词向量分别输入卷积神经网络和分层注意力模型中进行训练,分别得到第一概率预测矩阵和第二概率预测矩阵;将第一概率预测矩阵和第二概率预测矩阵利用权值进行数据融合,得到融合后的数据;将融合后的数据输入到全连接层,预测出文本类别。5.一种基于深度学习的视频分段系统,其特征在于,包括:获取模块、数据预处理模块、文本分类模块、对比模块和分段模块;所述获取模块用于获取待处理的视频数据,从视频数据中获取音频数据;所述数据预处理模块用于将所述音频数据转化为文本信息,对文本信息进行预处理和文本向量化,得到词向量;所述文本分类模块用于将词向量输入训练好的文本分类模型进行文本分类,输出识别的文本类别;所述对比模块...

【专利技术属性】
技术研发人员:李志雄
申请(专利权)人:深圳市中科网威科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1