视频摘要生成方法及装置制造方法及图纸

技术编号：38435065 阅读：9 留言：0更新日期：2023-08-11 14:20

本申请属于人工智能技术领域，具体涉及一种视频摘要生成方法及装置。本发明专利技术实施例可应用于车载场景。该视频摘要生成方法包括：从待处理视频中获取多个待处理帧；根据待处理帧的文本内容对各个待处理帧进行合并，得到多个片段区间；根据各个片段区间中的待处理帧的文本内容确定片段区间的第一情感强度；根据各个片段区间中的待处理帧中的表情确定片段区间的第二情感强度；对第一情感强度和第二情感强度进行加权求和运算，得到片段区间的情感分数；根据情感分数大于或等于预设值的片段区间对应的视频时间段，截取待处理视频得到视频片段，并将视频片段拼接成视频摘要。基于该方法能够高效准确地自动化生成视频摘要。能够高效准确地自动化生成视频摘要。能够高效准确地自动化生成视频摘要。

全部详细技术资料下载

【技术实现步骤摘要】
视频摘要生成方法及装置

[0001]本申请属于人工智能
，具体涉及一种视频摘要生成方法及装置。

技术介绍

[0002]在线视频网站近年来取得了巨大的发展，这些网站不仅提供了海量的视频数据，而且数据规模仍在快速增长。因此对于用户而言，从海量视频中直接选取视频摘要(比如情节的高潮、精彩部分)进行观看就成为了一种很合理的节省时间的选择。同时，网站也可以通过推荐视频摘要给用户的方法来改善用户体验，并吸引用户去观看完整的视频。
[0003]与传统的视频摘要致力于完整地描述视频内容不同，提取视频摘要的目的在于找到那些最受观众欢迎的片段。一般而言，需要通过费时费力的人工剪辑方法来生成这种视频摘要，人工剪辑的人力成本高昂，视频摘要的生成效率低。并且，剪辑得到的视频摘要受操作者主观审美判断的影响较大，得到的视频摘要可能无法准确地反映全视频的精彩部分。
[0004]因此，如何高效、准确地生成视频摘要，是亟需解决的技术问题。
[0005]需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本申请的目的在于提供一种视频摘要生成方法及装置，至少在一定程度上解决相关技术中如何高效、准确地生成视频摘要的技术问题。
[0007]本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。
[0008]根据本申请实施例的一个方面，提供一种视频摘要生成方法。所...

【技术保护点】

【技术特征摘要】
1.一种视频摘要生成方法，其特征在于，所述方法包括：从待处理视频中获取多个待处理帧，并对各个所述待处理帧进行文本识别，得到所述待处理帧对应的文本内容；根据所述待处理帧对应的文本内容对各个所述待处理帧进行合并，得到多个片段区间，所述片段区间的文本内容由合并成为所述片段区间的待处理帧的文本内容确定；对各个片段区间中的待处理帧的文本内容进行特征提取得到文本特征，并根据所述文本特征确定所述片段区间的第一情感强度，所述第一情感强度用于表示所述片段区间中各个待处理帧在文本方面的情感强烈程度；对各个所述片段区间中的待处理帧中的表情进行特征提取得到表情特征，并根据所述表情特征确定所述片段区间的第二情感强度，所述第二情感强度用于表示所述片段区间中各个待处理帧在表情方面的情感强烈程度；对所述第一情感强度和所述第二情感强度进行加权求和运算，得到所述片段区间的情感分数；根据情感分数大于或等于预设值的片段区间所对应的视频时间段，截取所述待处理视频得到视频片段，并将所述视频片段拼接成视频摘要。2.根据权利要求1所述的方法，其特征在于，所述根据所述待处理帧对应的文本内容对各个所述待处理帧进行合并，得到多个片段区间，包括：当相邻的两个待处理帧均存在文本内容时，计算所述相邻的两个待处理帧的文本内容的文本相似性，当所述文本相似性大于预设阈值时，将所述相邻的两个待处理帧合并为单句区间，所述单句区间的文本内容由所述相邻的两个待处理帧的文本内容确定；当相邻的两个单句区间的时间间隔小于第一预设间隔时，将所述相邻的两个单句区间合并为一个文本簇区间；当相邻的两个文本簇区间的时间间隔小于第二预设间隔时，将所述相邻的两个文本簇区间合并为一个片段区间。3.根据权利要求2所述的方法，其特征在于，所述对各个片段区间中的待处理帧的文本内容进行特征提取得到文本特征，并根据所述文本特征确定所述片段区间的第一情感强度，包括：对各个所述片段区间中的各个文本簇区间的文本内容进行特征提取得到文本特征；根据所述文本特征确定所述文本簇区间对应的情感类型和情感置信度，所述情感置信度为所述文本簇区间是所述情感类型的置信度；根据所述片段区间中情感类型属于预设的情感类型的文本簇区间的情感置信度，确定所述片段区间的第一情感强度。4.根据权利要求3所述的方法，其特征在于，所述根据所述片段区间中情感类型属于预设的情感类型的文本簇区间的情感置信度，确定所述片段区间的第一情感强度，包括：将所述片段区间中情感类型属于预设的情感类型的文本簇区间确定为目标文本簇区间；对所述片段区间中的各个所述目标文本簇区间的情感置信度进行求平均运算，得到所述片段区间的第一情感强度。5.根据权利要求1所述的方法，其特征在于，所述对各个所述片段区间中的待处理帧中
的表情进行特征提取得到表情特征，并根据所述表情特征确定所述片段区间的第二情感强度，包括：对各个所述待处理帧进行人脸检测，得到所述待处理帧对应的人脸图像；对所述人脸图像进行特征提取得到所述待处理帧对应的表情特征；根据所述表情特征确定所述待处理帧对应的表情类型和表情置信度，所述表情置信度为所述文本簇区间是所述表情类型的置信度；根据所述片段区间中表情类型属于预设的表情类型的待处理帧的表情置信度，确定所述片段区间的第二情感强度。6.根据权利要求5所述的方法，其特征在于，所述根据所述片段区间中表情类型属于预设的表情类型的待处理帧的表情置信度，确定所述片段区间的第二情感强度，包括：将所述片段区间中表情类型属于预设的表情类型的待处理帧确定为目标帧；对所述片段区间中的各个所述目标帧的表情置信度进行求...

【专利技术属性】
技术研发人员：袁微，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人