视频摘要生成方法及装置制造方法及图纸

技术编号:38435065 阅读:9 留言:0更新日期:2023-08-11 14:20
本申请属于人工智能技术领域,具体涉及一种视频摘要生成方法及装置。本发明专利技术实施例可应用于车载场景。该视频摘要生成方法包括:从待处理视频中获取多个待处理帧;根据待处理帧的文本内容对各个待处理帧进行合并,得到多个片段区间;根据各个片段区间中的待处理帧的文本内容确定片段区间的第一情感强度;根据各个片段区间中的待处理帧中的表情确定片段区间的第二情感强度;对第一情感强度和第二情感强度进行加权求和运算,得到片段区间的情感分数;根据情感分数大于或等于预设值的片段区间对应的视频时间段,截取待处理视频得到视频片段,并将视频片段拼接成视频摘要。基于该方法能够高效准确地自动化生成视频摘要。能够高效准确地自动化生成视频摘要。能够高效准确地自动化生成视频摘要。

【技术实现步骤摘要】
视频摘要生成方法及装置


[0001]本申请属于人工智能
,具体涉及一种视频摘要生成方法及装置。

技术介绍

[0002]在线视频网站近年来取得了巨大的发展,这些网站不仅提供了海量的视频数据,而且数据规模仍在快速增长。因此对于用户而言,从海量视频中直接选取视频摘要(比如情节的高潮、精彩部分)进行观看就成为了一种很合理的节省时间的选择。同时,网站也可以通过推荐视频摘要给用户的方法来改善用户体验,并吸引用户去观看完整的视频。
[0003]与传统的视频摘要致力于完整地描述视频内容不同,提取视频摘要的目的在于找到那些最受观众欢迎的片段。一般而言,需要通过费时费力的人工剪辑方法来生成这种视频摘要,人工剪辑的人力成本高昂,视频摘要的生成效率低。并且,剪辑得到的视频摘要受操作者主观审美判断的影响较大,得到的视频摘要可能无法准确地反映全视频的精彩部分。
[0004]因此,如何高效、准确地生成视频摘要,是亟需解决的技术问题。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本申请的目的在于提供一种视频摘要生成方法及装置,至少在一定程度上解决相关技术中如何高效、准确地生成视频摘要的技术问题。
[0007]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0008]根据本申请实施例的一个方面,提供一种视频摘要生成方法。所述视频摘要生成方法包括:
[0009]从待处理视频中获取多个待处理帧,并对各个所述待处理帧进行文本识别,得到所述待处理帧对应的文本内容;
[0010]根据所述待处理帧对应的文本内容对各个所述待处理帧进行合并,得到多个片段区间,所述片段区间的文本内容由合并成为所述片段区间的待处理帧的文本内容确定;
[0011]对各个片段区间中的待处理帧的文本内容进行特征提取得到文本特征,并根据所述文本特征确定所述片段区间的第一情感强度,所述第一情感强度用于表示所述片段区间中各个待处理帧在文本方面的情感强烈程度;
[0012]对各个所述片段区间中的待处理帧中的表情进行特征提取得到表情特征,并根据所述表情特征确定所述片段区间的第二情感强度,所述第二情感强度用于表示所述片段区间中各个待处理帧在表情方面的情感强烈程度;
[0013]对所述第一情感强度和所述第二情感强度进行加权求和运算,得到所述片段区间的情感分数;
[0014]根据情感分数大于或等于预设值的片段区间所对应的视频时间段,截取所述待处理视频得到视频片段,并将所述视频片段拼接成视频摘要。
[0015]根据本申请实施例的一个方面,提供一种视频摘要生成装置。所述视频摘要生成装置包括:
[0016]文本识别模块,被配置为从待处理视频中获取多个待处理帧,并对各个所述待处理帧进行文本识别,得到所述待处理帧对应的文本内容;
[0017]片段区间获取模块,被配置为根据所述待处理帧对应的文本内容对各个所述待处理帧进行合并,得到多个片段区间,所述片段区间的文本内容由合并成为所述片段区间的待处理帧的文本内容确定;
[0018]第一情感强度获取模块,被配置为对各个片段区间中的待处理帧的文本内容进行特征提取得到文本特征,并根据所述文本特征确定所述片段区间的第一情感强度,所述第一情感强度用于表示所述片段区间中各个待处理帧在文本方面的情感强烈程度;
[0019]第二情感强度获取模块,被配置为对各个所述片段区间中的待处理帧中的表情进行特征提取得到表情特征,并根据所述表情特征确定所述片段区间的第二情感强度,所述第二情感强度用于表示所述片段区间中各个待处理帧在表情方面的情感强烈程度;
[0020]情感分数计算模块,被配置为对所述第一情感强度和所述第二情感强度进行加权求和运算,得到所述片段区间的情感分数;
[0021]视频片段拼接模块,被配置为根据情感分数大于或等于预设值的片段区间所对应的视频时间段,截取所述待处理视频得到视频片段,并将所述视频片段拼接成视频摘要。
[0022]在本申请的一些实施例中,基于以上技术方案,所述片段区间获取模块包括:
[0023]单句区间获取单元,被配置为当相邻的两个待处理帧均存在文本内容时,计算所述相邻的两个待处理帧的文本内容的文本相似性,当所述文本相似性大于预设阈值时,将所述相邻的两个待处理帧合并为单句区间,所述单句区间的文本内容由所述相邻的两个待处理帧的文本内容确定;
[0024]第一合并单元,被配置为当相邻的两个单句区间的时间间隔小于第一预设间隔时,将所述相邻的两个单句区间合并为一个文本簇区间;
[0025]第二合并单元,被配置为当相邻的两个文本簇区间的时间间隔小于第二预设间隔时,将所述相邻的两个文本簇区间合并为一个片段区间。
[0026]在本申请的一些实施例中,基于以上技术方案,所述第一情感强度获取模块包括:
[0027]文本特征提取单元,被配置为对各个所述片段区间中的各个文本簇区间的文本内容进行特征提取得到文本特征;
[0028]情感置信度确定单元,被配置为根据所述文本特征确定各个所述文本簇区间对应的情感类型和情感置信度,所述情感置信度为所述文本簇区间是所述情感类型的置信度;
[0029]第一情感强度确定单元,被配置为根据所述片段区间中情感类型属于预设的情感类型的文本簇区间的情感置信度,确定所述片段区间的第一情感强度。
[0030]在本申请的一些实施例中,基于以上技术方案,所述第一情感强度确定单元,包括:
[0031]目标文本簇区间确定子单元,被配置为将所述片段区间中情感类型属于预设的情感类型的文本簇区间确定为目标文本簇区间;
[0032]第一情感强度确定子单元,被配置为对所述片段区间中的各个所述目标文本簇区间的情感置信度进行求平均运算,得到所述片段区间的第一情感强度。
[0033]在本申请的一些实施例中,基于以上技术方案,所述第二情感强度获取模块包括:
[0034]人脸检测单元,被配置为对各个所述待处理帧进行人脸检测,得到所述待处理帧对应的人脸图像;
[0035]表情特征提取单元,被配置为对所述人脸图像进行特征提取得到所述待处理帧对应的表情特征;
[0036]表情置信度确定单元,被配置为根据所述表情特征确定所述待处理帧对应的表情类型和表情置信度,所述表情置信度为所述文本簇区间是所述表情类型的置信度;
[0037]第二情感强度确定单元,被配置为根据所述片段区间中表情类型属于预设的表情类型的待处理帧的表情置信度,确定所述片段区间的第二情感强度。
[0038]在本申请的一些实施例中,基于以上技术方案,所述第二情感强度确定单元包括:
[0039]目标帧确定单元,被配置为将所述片段区间中表情类型属于预设的表情类型的待处理帧确定为目标帧;
[0040]第二情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频摘要生成方法,其特征在于,所述方法包括:从待处理视频中获取多个待处理帧,并对各个所述待处理帧进行文本识别,得到所述待处理帧对应的文本内容;根据所述待处理帧对应的文本内容对各个所述待处理帧进行合并,得到多个片段区间,所述片段区间的文本内容由合并成为所述片段区间的待处理帧的文本内容确定;对各个片段区间中的待处理帧的文本内容进行特征提取得到文本特征,并根据所述文本特征确定所述片段区间的第一情感强度,所述第一情感强度用于表示所述片段区间中各个待处理帧在文本方面的情感强烈程度;对各个所述片段区间中的待处理帧中的表情进行特征提取得到表情特征,并根据所述表情特征确定所述片段区间的第二情感强度,所述第二情感强度用于表示所述片段区间中各个待处理帧在表情方面的情感强烈程度;对所述第一情感强度和所述第二情感强度进行加权求和运算,得到所述片段区间的情感分数;根据情感分数大于或等于预设值的片段区间所对应的视频时间段,截取所述待处理视频得到视频片段,并将所述视频片段拼接成视频摘要。2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理帧对应的文本内容对各个所述待处理帧进行合并,得到多个片段区间,包括:当相邻的两个待处理帧均存在文本内容时,计算所述相邻的两个待处理帧的文本内容的文本相似性,当所述文本相似性大于预设阈值时,将所述相邻的两个待处理帧合并为单句区间,所述单句区间的文本内容由所述相邻的两个待处理帧的文本内容确定;当相邻的两个单句区间的时间间隔小于第一预设间隔时,将所述相邻的两个单句区间合并为一个文本簇区间;当相邻的两个文本簇区间的时间间隔小于第二预设间隔时,将所述相邻的两个文本簇区间合并为一个片段区间。3.根据权利要求2所述的方法,其特征在于,所述对各个片段区间中的待处理帧的文本内容进行特征提取得到文本特征,并根据所述文本特征确定所述片段区间的第一情感强度,包括:对各个所述片段区间中的各个文本簇区间的文本内容进行特征提取得到文本特征;根据所述文本特征确定所述文本簇区间对应的情感类型和情感置信度,所述情感置信度为所述文本簇区间是所述情感类型的置信度;根据所述片段区间中情感类型属于预设的情感类型的文本簇区间的情感置信度,确定所述片段区间的第一情感强度。4.根据权利要求3所述的方法,其特征在于,所述根据所述片段区间中情感类型属于预设的情感类型的文本簇区间的情感置信度,确定所述片段区间的第一情感强度,包括:将所述片段区间中情感类型属于预设的情感类型的文本簇区间确定为目标文本簇区间;对所述片段区间中的各个所述目标文本簇区间的情感置信度进行求平均运算,得到所述片段区间的第一情感强度。5.根据权利要求1所述的方法,其特征在于,所述对各个所述片段区间中的待处理帧中
的表情进行特征提取得到表情特征,并根据所述表情特征确定所述片段区间的第二情感强度,包括:对各个所述待处理帧进行人脸检测,得到所述待处理帧对应的人脸图像;对所述人脸图像进行特征提取得到所述待处理帧对应的表情特征;根据所述表情特征确定所述待处理帧对应的表情类型和表情置信度,所述表情置信度为所述文本簇区间是所述表情类型的置信度;根据所述片段区间中表情类型属于预设的表情类型的待处理帧的表情置信度,确定所述片段区间的第二情感强度。6.根据权利要求5所述的方法,其特征在于,所述根据所述片段区间中表情类型属于预设的表情类型的待处理帧的表情置信度,确定所述片段区间的第二情感强度,包括:将所述片段区间中表情类型属于预设的表情类型的待处理帧确定为目标帧;对所述片段区间中的各个所述目标帧的表情置信度进行求...

【专利技术属性】
技术研发人员:袁微
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1