基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法技术

技术编号:9489953 阅读:120 留言:0更新日期:2013-12-25 23:43
本发明专利技术一种基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法,属于中文文本信息处理领域,由内容自动分节和小标题自动生成两阶段组成。在内容自动分节阶段,根据纪录片字幕文件中记录的相邻字幕出现的时间间隔的大小,选择间隔最长的若干个位置作为分割点,将整部纪录片在时间上分成若干章节。在章节小标题的自动生成阶段,依据前一阶段确定的章节起止时刻,在一定的遴选规则的指导下,在该章节的解说词中,自动选择出一个具有“定语+中心语”这种语法结构的短语组合,作为该章节的小标题。该发明专利技术较为明显地缩短了人工手动方式依照语义对较长纪录片进行分段的时间,极大提高了教师采用制作精良的纪录片片段作为教学素材的积极性。

【技术实现步骤摘要】
【专利摘要】本专利技术一种,属于中文文本信息处理领域,由内容自动分节和小标题自动生成两阶段组成。在内容自动分节阶段,根据纪录片字幕文件中记录的相邻字幕出现的时间间隔的大小,选择间隔最长的若干个位置作为分割点,将整部纪录片在时间上分成若干章节。在章节小标题的自动生成阶段,依据前一阶段确定的章节起止时刻,在一定的遴选规则的指导下,在该章节的解说词中,自动选择出一个具有“定语+中心语”这种语法结构的短语组合,作为该章节的小标题。该专利技术较为明显地缩短了人工手动方式依照语义对较长纪录片进行分段的时间,极大提高了教师采用制作精良的纪录片片段作为教学素材的积极性。【专利说明】
本专利技术属于中文文本处理领域,具体涉及一种。
技术介绍
现代化、高水平的课堂教学活动需要教师针对教学目标广泛收集和精心组织各种各样的教学素材。美国国家地理、Discovery频道和中国中央电视台的科教频道、纪录片频道等著名的纪录片品牌栏目无疑是高质量的教学素材的重要来源之一。采用这样的多媒体教学素材不仅可以丰富教师的教学内容,还可以增加学生的课堂印象和激发学生的学习兴趣。然而,纪录片的时间长度一般在45分钟以上,相当一部分长达I个半小时,甚至2个小时,远远超过了一节课的时间。全部播完整部纪录片不仅容易脱离教学目标,而且会占用过多的课堂时间。一般来说,某段纪录片中符合教师当前教学目标的内容大约为3-5分钟,只占该段纪录片全部时长很小的一部分。如果没有一种方便的自动化方法,仅靠人眼浏览纪录片的每一幅画面去搜索这段素材,必然会显著降低教师备课的效率。目前,给一个视频文件进行分段,将一个时间比较长的大影片分割成一系列的时间比较短的小影片,已经有比较成熟的方法。这些方法的区别在于分割的依据。比较简单的一种是依据在时间上等分的思路进行分段,或者根据被点播的片段流行度进行分段。比较复杂的是根据场景的变化或者镜头的切换进行分段。但是,已有的方法受其需求的限制(比如影片分段是为了促进视频服务器缓存的置换或者提取某段特定内容如足球射门),还存在比较突出的两个缺陷:一是不利于语义表达,即除非从头到尾看完,用户不清楚分割出来的某段影片具有什么样的内容;二是不利于内容搜索,即除非从头到尾看完,用户不清楚分割出来的某段影片是否具有自己关心的其它内容。字幕文件的出现,为使用计算机弥补上述缺陷准备了条件。为保障听力有障碍人士的权益,联合国公约和我国的有关法律都鼓励和提倡在音像制品提供字幕。现在,在中央电视台的所有频道和栏目中,除极少数部分直播节目外,播出的电视节目都附有字幕。一般来说,字幕分为“软”、“硬”两种。所谓“软”字幕,是指音像制品在压制的时候,将字幕内容作为一个独立的轨道(track),与音频和视频内容分开,封装到一个文件(如MKV格式的文件)中,那些需要字幕插件支持、可以单独保存的“外挂字幕”也属于这一类,即与画面内容分属不同的视频播放流。而“硬”字幕,则是指字幕内容被当作水印嵌入到视频内容中,与画面内容处于视频播放流的同一个数据组中。现在,已有成熟的方法提取视频内容中的“硬”字幕,其思路大致分为两种:基于字体边缘的提取和基于字体颜色连通区域的提取。两者的共同点在于最后一步都要经过OCR文字识别,形成字符单元,从而生成记录了字幕出现起止时刻和字幕内容的字幕文件。
技术实现思路
本专利技术就是针对上述现有技术的不足,而提供的一种,为提高教师备课效率、丰富课堂教学内容和提高学生兴趣提供技术支持。本专利技术目的是通过以下技术手段实现的。一种,该方法分为内容自动分节和小标题自动生成两个阶段,分别使用了字幕文件中的时间和文字信息。字幕文件以句为单位,存储其有关信息,常见的基本格式如下。表1字幕文件的常见基本格式【权利要求】1.一种,其特征在于:该方法由内容自动分节和小标题自动生成两个阶段组成, 所述内容自动分节阶段,根据纪录片字幕文件中记录的相邻的两条字幕出现的时间间隔的大小,选择间隔最长的若干个位置作为分割点,将整部纪录片在时间上分成若干章节; 所述小标题自动生成阶段,根据内容自动分节阶段所划分的章节时间信息,提取介于该章节起止时刻之间的字幕文字内容,使用该字幕文字内容中出现的具有“定语+中心语”结构的词组,自动生成该节小标题。2.根据权利要求1所述的,其特征在于所述内容自动分节阶段包括以下步骤: 第一步,遍历字幕文件的每一行,总共有#条字幕,如果发现其首字符是数字,则说明这是一条新字幕的第一行,记录其编号i以及提取相应的开始出现时刻和消失时刻U ; 第二步,计算当前字幕开始出现时刻与上一条字幕消失时刻的时间差,^ ^Ci) = htJJ) ~ TiJJ — I),i 为大于 I 的自然数; 第三步,对(#_1)个这样的时间差从大到小进行排序,获取排在前面的若干个i,这些i即为内容分节的位置。3.根据权利要求1所述的,其特征在于所述 小标题自动生成阶段包括以下步骤: 第一步,依据内容自动分节阶段所划分的章节时间信息,提取介于该章节起止时刻之间的字幕文字内容; 第二步,使用自动分词工具对第一步提取的字幕文字内容进行分词,并对分出的词标注词性; 第三步,按顺序从头至尾逐个扫描第二步分出的词,如果发现该词是名词或者形容词,并且下一个词是名词,就将其作为“定中结构”的词组提取出来,这些词组作为该章节小标题的候选词组; 第四步,经过一定的遴选规则,从多个候选词组中选出一个作为该章节的小标题,所述遴选规则如下所列,依次是: (1)如果候选词组只有I个,那它就直接成为小标题,且不必运用后面的规则; (2)如果候选词组多于I个,那就比较其中心语,即“名词+(的)+名词”或“形容词+ (的)+名词”结构中的第二个实词或者最后那个词性为名词的词语,在该章节中出现的次数,如果中心语出现次数最多的候选词组只有I个,那么它就成为小标题,且不必运用后面的规则,如果发生中心语出现次数最多的候选词组多于I个,那么这样的候选词组将进入下一规则的遴选; (3)比较这些候选词组的定语,即“名词+(的)+名词”或“形容词+(的)+名词”结构中的第一个实词,也就是“名词+ (的)+名词”结构中的第一个名词或者“形容词+ (的)+名词”的形容词,在该章节中的出现的次数,如果定语中心语出现次数最多的候选词组只有I个,那么它就成为小标题,且不必运用后面的规则,如果定语中心语出现次数最多的候选词组多于I个,那么这样的候选词组将进入下一规则的遴选; (4)比较这些候选词组的字数,如果字数最多的候选词组只有I个,那么它就成为小标题,且不必运用后面的规则,如果字数最多的候选词组多于I个,那么这样的候选词组将进入最后规则的遴选; (5)比较这些候选词组出现的顺序,先出现的就成为小标题。【文档编号】G06F17/27GK103473220SQ201310417087【公开日】2013年12月25日 申请日期:2013年9月13日 优先权日:2013年9月13日 【专利技术者】王泰, 刘三女牙, 杨宗凯 申请人:华中师范大学本文档来自技高网
...

【技术保护点】
一种基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法,其特征在于:该方法由内容自动分节和小标题自动生成两个阶段组成,所述内容自动分节阶段,根据纪录片字幕文件中记录的相邻的两条字幕出现的时间间隔的大小,选择间隔最长的若干个位置作为分割点,将整部纪录片在时间上分成若干章节;所述小标题自动生成阶段,根据内容自动分节阶段所划分的章节时间信息,提取介于该章节起止时刻之间的字幕文字内容,使用该字幕文字内容中出现的具有“定语+中心语”结构的词组,自动生成该节小标题。

【技术特征摘要】

【专利技术属性】
技术研发人员:王泰刘三女牙杨宗凯
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1