当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于多特征融合和随机森林模型的新闻故事分割方法技术

技术编号:28037985 阅读:25 留言:0更新日期:2021-04-09 23:20
本发明专利技术公开了一种基于多特征融合和随机森林模型的新闻故事分割方法。首先以新闻视频作为输入源,进行视觉特征提取和听觉特征提取,包括新闻主题字幕特征提取、直播间特征提取、镜头切换特征提取和静音区特征提取;其次对新闻视频进行语音识别,获得语音识别结果,确定具体候选边界点;接着将语音识别结果作为输入,进行语义特征提取,包括概要匹配特征提取、语义相似度特征提取和文本深度特征提取;再次手动标注新闻视频特征对随机森林模型进行训练,将提取的视频特征值和具体候选边界输入训练好的模型进行目标视频的二分类任务,归类结果为新闻故事单元边界和非边界;最后以归类结果对目标视频进行分割,获得最终的新闻视频故事单元。

【技术实现步骤摘要】
一种基于多特征融合和随机森林模型的新闻故事分割方法
本专利技术涉及视频理解领域,具体涉及一种基于多特征融合和随机森林模型的新闻故事分割方法。
技术介绍
信息时代,多媒体在我们的生活中扮演着重要的角色。我们几乎迷失在了海量的信息之中。对于视频,它传递的信息相比于其他形式媒介更为复杂。特别的,对于新闻视频,其内容与我们的生活高度相关,受众又十分之广,因此,如何高效的检索、分析新闻视频的信息是一个需要解决的问题,而新闻视频故事分割则是这些工作的重要前置工作。新闻故事分割指的是,将完整的新闻视频分割为彼此独立的故事单元。目前的现有技术之一是蒋兴浩的《多特征融合的新闻视频摘要提取方法》,该技术方案首先使用镜头分割算法(灰度直方图比较)得到所有镜头切换的节点,将所得到的所有镜头边界(镜头切换节点)作为新闻故事边界的候选边界,然后进行静音区间检测和新闻字幕分析。最终使用静音特性和字幕相似性两个条件判断是否为故事边界,此专利说明附图中的镜头分类和人脸检测是为了进一步提取新闻摘要,与镜头分割任务无关。该技术的缺点:(1)使用所有镜头边界作为新闻故事边界的本文档来自技高网...

【技术保护点】
1.一种基于多特征融合和随机森林模型的新闻故事分割方法,其特征在于,所述方法包括:/n以新闻视频作为输入源,进行视觉特征提取包括新闻主题字幕特征提取、直播间切换特征提取和镜头切换特征提取,进行听觉特征提取包括静音区特征提取;/n以新闻主题字幕帧的时间节点作为输入源,确定候选边界范围,以所述新闻视频作为输入源进行语音识别,获得语音识别结果,确定具体候选边界点;/n以所述语音识别结果作为输入,进行语义特征提取,包括概要匹配特征提取、语义相似度特征提取和文本深度特征提取;/n使用手动标注出新闻故事单元边界点和边界点处特征后的视频作为训练集,对随机森林模型进行训练,将所述新闻视频已提取的视频特征值和所...

【技术特征摘要】
1.一种基于多特征融合和随机森林模型的新闻故事分割方法,其特征在于,所述方法包括:
以新闻视频作为输入源,进行视觉特征提取包括新闻主题字幕特征提取、直播间切换特征提取和镜头切换特征提取,进行听觉特征提取包括静音区特征提取;
以新闻主题字幕帧的时间节点作为输入源,确定候选边界范围,以所述新闻视频作为输入源进行语音识别,获得语音识别结果,确定具体候选边界点;
以所述语音识别结果作为输入,进行语义特征提取,包括概要匹配特征提取、语义相似度特征提取和文本深度特征提取;
使用手动标注出新闻故事单元边界点和边界点处特征后的视频作为训练集,对随机森林模型进行训练,将所述新闻视频已提取的视频特征值和所述具体候选边界点输入训练好的随机森林模型进行二分类任务,归类结果为新闻故事单元边界和非边界两类;
以所述归类结果对目标视频进行分割,获得最终结果即新闻视频的故事单元。


2.如权利要求1所述的一种基于多特征融合和随机森林模型的新闻故事分割方法,其特征在于,所述新闻主题字幕特征提取,具体为:
以所述新闻视频作为输入源,主题字幕出现在(96,310)与(432,336)两个点构成的矩形区域内,此区域为处理的目标区域,将目标区域图像转化为HSV色彩模型,统计矩形区域内H(色调)值为90与103的点的数量,V(明度)大于等于200的点的数量,分别记为f1,f2,f3;
若f1>200∧f2>300∧f3>3000,则目标区域可能出现主题字幕,进行下一步判断;
从当前帧起每秒取一帧,分别计算连续三帧f1,f2,f3变化量绝对值的累加和,记为Δf1,Δf2,Δf3,若Δf1>800∧Δf2>500∧Δf3>400,则认为目标帧为主题字幕帧;
将目标帧的目标区域与上一个主题字幕帧的目标区域进行二值图的逐点比较,记像素值不相等的像素点的数量为dif,若dif>1000则认为当前主题字幕为首次出现,记录当前帧的时间节点,即新闻主题字幕帧的时间节点;
完成对整个视频的遍历,结果作为新闻主题字幕特征。


3.如权利要求1所述的一种基于多特征融合和随机森林模型的新闻故事分割方法,其特征在于,所述直播间切换特征提取,具体为:
以所述新闻视频作为输入源,对所述新闻视频每秒取1帧进行直播间判断;
将当前帧图像转换为HSV色彩模型,计算H(色调)为111的像素点的数量,记为f1,若f1>14000,继续进行人脸识别判断;
使用人脸识别模块判断人脸数量,判断当前帧是否为新闻直播间画面;
完成整个时间轴以秒为单位的新闻直播间判断的标记后,遍历标记信息,将所有当前标记位为Ture,上一帧标记位为False的时间点标记出来,结果作为直播间切换特征。


4.如权利要求1所述的一种基于多特征融合和随机森林模型的新闻故事分割方法,其特征在于,所述镜头切换特征提取,具体为:
以所述新闻视频作为输入源,对所述新闻视频每秒取1帧,使用连续两帧的颜色直方图差异作为镜头切换的衡量标准;
首先,分段对图像的RGB值进行映射减少计算量,R=R0/32,G=G0/32,B=B0/32,其中R0,G0,B0分别为原始RGB各个分量的值;
然后,将RGB颜色映射为一个标量v=R*64+B*8+G,共512种颜色,v∈[0,512);
使用局部像素重采样对图像进行缩放,长宽均缩放至原来的的1/4;
计算缩放后的当前帧图像的颜色直方图,即计算v∈[0,512),每个v值对应的像素的个数,与前一帧(每秒取一帧)v值对应的像素的个数逐值相减,取绝对值后加和,记为dif,若dif>10000,则认为当前帧出现了镜头切换,记录当前帧的时间节点;
完成对整个视频的遍历,结果作为镜头切换特征。


5.如权利要求1所述的一种基于多特征融合和随机森林模型的新闻故事分割方法,其特征在于,所述静音区特征提取,具体为:
以所述新闻视频作为输入源,将视频文件转...

【专利技术属性】
技术研发人员:王若梅周明杰周凡
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1