教学视频自动字幕处理方法与系统技术方案

技术编号:26480605 阅读:29 留言:0更新日期:2020-11-25 19:26
本发明专利技术提供了教学视频自动字幕处理方法与系统,其通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频,其通过自动化的方式来识别教学视频中的声音信息,再根据该声音信息生成相应的字幕以添加到教学视频中,其能够快速地对教学视频进行字幕的自动加工处理,从而提高教学视频自动加工形成字幕的效率和降低字幕加工的出错几率。

【技术实现步骤摘要】
教学视频自动字幕处理方法与系统
本专利技术涉及智能教育的
,特别涉及教学视频自动字幕处理方法与系统。
技术介绍
目前,智能教学需要借助相应的教学视频执行预设课程的教授,而现有的教学视频通常都是预先录制形成的,但是录制形成的教学视频是未配置有字幕的,在缺少字幕的情况下,用户可能无法清楚地和准确地理解教学视频中的语音信息,这严重地降低了教学视频对不同场合的适用性。现有技术通常是通过人工方式识别教学视频中的语音信息,再根据该语音信息生成相应的字幕以添加到教学视频中,但是这种方式不仅工作大、效率低下,并且还容易出现字幕翻译错误和字幕显示时序发生偏差的情况。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供教学视频自动字幕处理方法与系统,其通过将预设教学视频拆解为连续图像数据和连续声音数据,并按照该预设教学视频的播放时间轴信息,将该连续图像数据和该连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据,并对若干该声音片段子数据进行语音识别,从而获得关于每一个该声音片段子数据对应的语音识别数据,并将该语音识别数据转换为本文档来自技高网...

【技术保护点】
1.教学视频自动字幕处理方法,其特征在于,用于服务器,其包括如下步骤:/n步骤S1,将预设教学视频拆解为连续图像数据和连续声音数据,并按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据;/n步骤S2,对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据,并将所述语音识别数据转换为预设语种的文字片段数据;/n步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干所述图像帧片段子数据与若...

【技术特征摘要】
1.教学视频自动字幕处理方法,其特征在于,用于服务器,其包括如下步骤:
步骤S1,将预设教学视频拆解为连续图像数据和连续声音数据,并按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据;
步骤S2,对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据,并将所述语音识别数据转换为预设语种的文字片段数据;
步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频。


2.如权利要求1所述的教学视频自动字幕处理方法,其特征在于:
在所述步骤S1中,将预设教学视频拆解为连续图像数据和连续声音数据,并按照所述预设教学视频的播放时间轴信息,将所述连续图像数据和所述连续声音数据分别划分为若干图像帧片段子数据和若干声音片段子数据具体包括,
步骤S101,在同一起始时刻对所述预设教学视频进行图像-声音数据分离处理,从而分别提取得到所述连续图像数据和所述连续声音数据;
步骤S102,以所述同一起始时刻为基准,从所述预设教学视频中提取得到所述播放时间轴信息,并将所述播放时间轴信息划分为若干具有相同长度的播放时间间隔;
步骤S103,按照若干所述播放时间间隔,将所述连续图像数据和所述连续声音数据分别划分为若干所述图像帧片段子数据和若干所述声音片段子数据,其中,每一个所述图像帧片段子数据和每一个所述声音片段子数据均具有相同的持续时间。


3.如权利要求1所述的教学视频自动字幕处理方法,其特征在于:
在所述步骤S2中,对若干所述声音片段子数据进行语音识别,从而获得关于每一个所述声音片段子数据对应的语音识别数据,并将所述语音识别数据转换为预设语种的文字片段数据具体包括,
步骤S201,对若干所述声音片段子数据进行背景噪声过滤去除处理,并识别每一个所述声音片段子数据对应的语种类型;
步骤S202,根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据;
步骤S203,对所述语音识别语句和/或词汇集合进行文本编辑,从而将所述语音识别数据转换为对应预设语种的文字片段数据。


4.如权利要求1所述的教学视频自动字幕处理方法,其特征在于:
在所述步骤S3中,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,再将若干所述图像帧片段子数据与若干所述声音片段子数据重新组合,从而生成带有自动显示字幕的教学视频具体包括,
步骤S301,确定所述文字片段数据包含的文字字数总量和所述文字片段数据对应的声音片段子数据的持续时间,并根据所述文字字数总量和所述持续时间,确定所述文字片段数据进行动态显示时对应的文字显示速度;
步骤S302,根据所述文字显示速度,将所述文字片段数据转换为动态显示播放的字幕片段数据;
步骤S303,根据所述播放时间轴信息,将所有所述图像帧片段子数据依次排列形成图像帧片段子数据序列以及将所有字幕片段数据依次排列形成字幕片段数据序列,并且将所述字幕片段数据序列依序添加至所述图像帧片段子数据序列;
步骤S304,将所述图像帧片段子数据序列中的图像帧片段子数据和若干所述声音片段子数据一一对应组合,从而生成带有自动显示字幕的教学视频。


5.如权利要求3所述的方法,其特征在于,
在所述步骤S202中,根据所述语种类型,对每一个所述声音片段子数据进行语音识别,从而得到对应的语音识别语句和/或词汇集合,以此作为所述语音识别数据具体包括,
假设对于给定的一个声音片段子数据S由如下形式构成
s=w1,w2,w3,…,wm(1)
在上述公式(1)中,wi表示第i个声音统计基元、且i=1,2,3,…,m,m表示声音统计基元的总数量;所述声音统计基元对应的文字包括字、词或者短语;
假设n1,n2,n3,…,nm分别表示声音统计基元w1,w2,w3,…,wm各自对应的同音基元数量,wi对应的同音基元是指与所述wi中的声音统计基元发声相同的文字,所述文字为一组或多组;则声音统计基元w1对应的文字取w1对应的第1个同音基元到第n1个同音基元中任一个同音基元的概率P(w1j)为



在上述公式(2)中,j表示声音统计基元w1对应的上述任一个同音基元的序号,其为1至n1中的任一正整数;
声音统计基元w2对应的文字取w2对应的第1个同音基元到第n2个同音基元中任一个同音基元的概率P(w2j)为:



在上述公式(3)中,j表示声音统计基元w2的同音基元的序号,其为1至n2中的任一正整数,P(w2j|w1j)表示当所述声音统计基元w2对应的文字取w2对应的上述任一个同音基元的同时,声音统计基元w1对应的文字取w1对应的任一个同音基元的概率中的最大值;
同理,声音统计基元wm对应的文字取wm对应的第1个同音基元到第nm个同音基元中任一个同音基元的概率P(wmj)为:



在上述公式(3)中,j表示声音统计基元wm的同音基元的序号,其为1至nm中的任一正整数,P(wmj|w1jw2j…w(m-1)j)表示当所述声音统计基元wm对应的文字取wm对应的上述任一个同音基元的同时,其它声音统计基元对应的文字取该其它声音统计基元对应的任一个同音基元的概率中的最大值;
所述声音片段子数据S对应的语音识别数据共有种可能的文字组合,取P(s)最大时对应的文字组合即为所述声音片段子数据S对应的语音识别数据;其中,P(s)=max(P(w1j)P(w2j)…P(wmj))。


6.如权利要求1所述的方法,其特征在于,
所述步骤S3,将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中,具体包括步骤A1-A2:
步骤A1、将所有文字片段数据编辑成为具有预设显示形式的字幕片段数据,并根据所述播放时间轴信息,将所有字幕片段数据添加至其对应的图像帧片段子数据中...

【专利技术属性】
技术研发人员:樊星
申请(专利权)人:上海松鼠课堂人工智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1