基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法技术

技术编号：9489953 阅读：120 留言：0更新日期：2013-12-25 23:43

本发明专利技术一种基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法，属于中文文本信息处理领域，由内容自动分节和小标题自动生成两阶段组成。在内容自动分节阶段，根据纪录片字幕文件中记录的相邻字幕出现的时间间隔的大小，选择间隔最长的若干个位置作为分割点，将整部纪录片在时间上分成若干章节。在章节小标题的自动生成阶段，依据前一阶段确定的章节起止时刻，在一定的遴选规则的指导下，在该章节的解说词中，自动选择出一个具有“定语+中心语”这种语法结构的短语组合，作为该章节的小标题。该发明专利技术较为明显地缩短了人工手动方式依照语义对较长纪录片进行分段的时间，极大提高了教师采用制作精良的纪录片片段作为教学素材的积极性。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术一种，属于中文文本信息处理领域，由内容自动分节和小标题自动生成两阶段组成。在内容自动分节阶段，根据纪录片字幕文件中记录的相邻字幕出现的时间间隔的大小，选择间隔最长的若干个位置作为分割点，将整部纪录片在时间上分成若干章节。在章节小标题的自动生成阶段，依据前一阶段确定的章节起止时刻，在一定的遴选规则的指导下，在该章节的解说词中，自动选择出一个具有“定语+中心语”这种语法结构的短语组合，作为该章节的小标题。该专利技术较为明显地缩短了人工手动方式依照语义对较长纪录片进行分段的时间，极大提高了教师采用制作精良的纪录片片段作为教学素材的积极性。【专利说明】
本专利技术属于中文文本处理领域，具体涉及一种。
技术介绍
现代化、高水平的课堂教学活动需要教师针对教学目标广泛收集和精心组织各种各样的教学素材。美国国家地理、Discovery频道和中国中央电视台的科教频道、纪录片频道等著名的纪录片品牌栏目无疑是高质量的教学素材的重要来源之一。采用这样的多媒体教学素材不仅可以丰富教师的教学内容，还可以增加学生的课堂印象和激发学生的学习兴趣。然而，纪录片的时间长度一般在45分钟以上，相当一部分长达I个半小时，甚至2个小时，远远超过了一节课的时间。全部播完整部纪录片不仅容易脱离教学目标，而且会占用过多的课堂时间。一般来说，某段纪录片中符合教师当前教学目标的内容大约为3-5分钟，只占该段纪录片全部时长很小的一部分。如果没有一种方便的自动化方法，仅靠人眼浏览纪录片的每一幅画面去搜索这段素材，必然会显著降低教师备课的效率。目前，给一个视频文件进行分段，将一个时间...

【技术保护点】
一种基于字幕文件的纪录片内容自动分节及其小标题的自动生成方法，其特征在于：该方法由内容自动分节和小标题自动生成两个阶段组成，所述内容自动分节阶段，根据纪录片字幕文件中记录的相邻的两条字幕出现的时间间隔的大小，选择间隔最长的若干个位置作为分割点，将整部纪录片在时间上分成若干章节；所述小标题自动生成阶段，根据内容自动分节阶段所划分的章节时间信息，提取介于该章节起止时刻之间的字幕文字内容，使用该字幕文字内容中出现的具有“定语+中心语”结构的词组，自动生成该节小标题。

【技术特征摘要】

【专利技术属性】
技术研发人员：王泰，刘三女牙，杨宗凯，
申请(专利权)人：华中师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人