【技术实现步骤摘要】
本专利技术涉及一种多媒体自动处理方法及系统,尤其涉及的是一种针对教 学课程相关的大量视频等多媒体文件进行自动处理和在线管理的方法及系 统。
技术介绍
现有技术中,随着多媒体技术的急速发展,大量的教学课程以多媒体 的形式呈现,包括摄录下来的教学课程视频,相关演示文稿等等,平均每 小时的教学视频饱含上万字的文本内容。面对如此海量的多媒体信息,多数在线教学网站仍然釆用人工手动方 式,即利用大量的高级打字员对视频文件等多媒体资料进行字幕制作,同 步演示文稿等工作。这种建立在人工聆听和收看基础上的操作,是一种原 始的人工处理方式,需要耗费大量的资源和处理时间,提供的在线服务緩 慢、低效。 。此外,手工方式建立的索引和标注,只能对视频进行粗略的分类和匹 配,难以实现有效的视频内容险索和精确定位。另 一方面,目前大规模连续语音识别4支术(Large Vocabulary Continuous Speech Recognition,筒称LVCSR)技术也趋近成熟,针对朗读方式的非特 定人连续语音识别率可以达到90%以上;基于内容的多媒体信息索引和检 索技术则可以根据媒体和媒体对 ...
【技术保护点】
一种基于语音识别的多媒体资源处理方法,其包括以下步骤: A、对音视频进行同步采集,并进行数据处理,将其中的音频文件处理成为可语音识别的格式; B、对音频文件进行语音识别,生成脚本文件,并与所述视频文件进行中文字幕的自动生成与同步; C、对视频文件进行内容索引,并对所述音频文件的脚本文件进行基于内容的自动故事分段,匹配标注后存储到视频数据库中。
【技术特征摘要】
1、一种基于语音识别的多媒体资源处理方法,其包括以下步骤:A、对音视频进行同步采集,并进行数据处理,将其中的音频文件处理成为可语音识别的格式;B、对音频文件进行语音识别,生成脚本文件,并与所述视频文件进行中文字幕的自动生成与同步;C、对视频文件进行内容索引,并对所述音频文件的脚本文件进行基于内容的自动故事分段,匹配标注后存储到视频数据库中。2、 根据权利要求1所述的方法,其特征在于,所述步骤C还包括 Cl、对所述脚本文件抽取多层次的词汇信息进行自动故事分段;C2、将所逸鄉本文件以XML节点形式存入XML数据库,对相应的教 学课程视频内容建立XML索引和标识集合,用于基于内容的多媒体检索和 定位。3、 根据权利要求2所述的方法,其特征在于,所述步骤C2还包括 通过使用倒排索引以及XQuery语法的查询,从特征信息数据库中检索得到 结果,并对相应的^L频文件进行操作。4、 根据权利要求2所述的方法,其特征在于,所述步骤C还包括建 立所述脚本文件中的关键信息与一演示文稿中文本信息的关联和匹配,确 定各页演示文稿的播放时间,用于实现演示文稿与学术报告和教学课程视频的自动同步播放。5、 根据权利要求1所述的方法,其特征在于,所述步骤B的语音识别 包括中文语音识别系统和英文语音识别系统;其中文/英文的语音识别过程 包括Bl、对输入的音频进行语音信号特征提取;B2、使用语音分段模块根据语音信号的波形特征和能量特征,将输入 的音频信号进行分类与分割,并送入解码器进行语音识别;B3 、将含有语音内容文本信息和时间信息的内容形成脚本文件。6、 根据权利要求5所述的方法,其特征在于,所述步骤B2还包括 所述解码器在语音识别中所使用的声学模型,为经过聚类的三音素模型,语言模型为基于词的三元和四元语言模型。7、 根据权...
【专利技术属性】
技术研发人员:王岚,邵阳,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。