一种视听字幕制作系统及方法技术方案

技术编号:8347921 阅读:240 留言:0更新日期:2013-02-21 01:22
本发明专利技术提供了一种视听字幕制作系统及方法,所述系统包括原始文本处理模块、注音模块、原始声音处理模块、强制切分模块、切分可信度评估模块、错误处理模块、字幕生成模块。本发明专利技术能自动处理原始文本,分割为限定长度的句子或短语;采用形近词替代等方法自动处理非登录词,建立多发音注音网络;将注音网络展开为隐含马尔科夫识别语音对齐网络,使用强容错隐含马尔科夫声学模型对文本自动对齐强制切分;通过语音识别技术对每个切分段的切分结果进行可信度评估,可很容易发现切分错误以便进一步处理;直接根据切分结果生成各种格式适用于各种设备的视听字幕文件。借此,本发明专利技术可在无人工干预或很少人工干预的情况下直接得到高质量的视听字幕文件。

【技术实现步骤摘要】

本专利技术涉及外语电化教学领域,尤其涉及。
技术介绍
语言学习主要通过获得大量的可理解输入来实现,而“听”是获得可理解语言输入的最重要的渠道。中国的外语学习者面临着一个“读得懂却听不懂”的尴尬状态。基于多媒体技术的视听输入教学法,能再现人们真实交际场景,对改进外语教学起到了积极的推动作用。在视听输入教学法基础上,将话语信息以文字的形式(即视听字幕)同时呈现给受众,对外语视听教学更具有显著的积极意义。目前,有字幕加配的视听教学内容少之又少,其主要原因是当前字幕的加配主要是手工完成。专业技术人员需花费大量的时间和精力才能制作完成长度有限的字幕,成本太高而不能大规模应用。现代语音识别
中,在给定单句文本及其声音后,可以用基于隐含马尔科夫模型的核心模块将音节起止信息在音轴上显示出来。此方法主要应用于建立音节切分语音语料库,它要求文本与声音高度一致,否则就会切分失败或效果很差。而视听字幕的制作要求切分的单位是句子或短语,制作中要求方法有很高的容错性,要能处理文本中含未知发音的未登录词、多音词、含有错误文本段落等情况,要能发现指出切分错误之处,这些要求在传统方法中均无法满足。
技术实现思路
针对上述的缺陷,本专利技术的目的在于提供,其能够在无人工干预或很少人工干预的情况下直接得到高质量的用于外语电化教学的视听字幕文件。为了实现上述目的,本专利技术提供视听字幕制作系统,所述系统包括原始文本处理模块,用于将输入的原始文本分词后按指定规则分割为合适长度的句子或短语,并将所述句子或短语发送到注音模块;注音模块,用于处理所述句子或短语中的非登录词,然后通过查注音词典生成注音网络,并将所述注音网络发送到强制切分模块;原始声音处理模块,用于将输入的原始声音处理成预定要求的声音流,并将所述声音流发送到强制切分模块;强制切分模块,用于将所述注音网络切分为隐含马尔科夫识别语音的对齐网络,然后将所述声音流提取为特征流并在所述对齐网络对齐,并将切分结果输入到切分可信度评估模块;切分可信度评估模块,用于通过语音识别对所述切分结果中每个切分段进行可信度评估得到切分可信度评估结果,若所述切分可信度评估结果达到预定值,则将所述切分结果直接发送到字幕生成模块,否则将所述切分可信度评估结果发送到错误处理模块;错误处理模块,用于显示所述切分可信度评估结果,判断是所述原始文本有误还是所述切分结果需要人工微调,若所述切分结果需要人工微调则人工微调所述切分结果并发送到字幕生成模块,若是所述原始文本有误则人工修改原始文本后重新交由所述原始文本处理模块切分;字幕生成模块,用于结合预定的字幕文件格式,将所述切分结果输出字幕文件。根据本专利技术所述的视听字幕制作系统,所述原始文本处理模块还包括分词子模块,用于将所述原始文本用双数组Trie树分词算法分成含有若干个词的词语流;文本切分子模块,用于将所述词语流自动切分成长度合适的句子或短语,具体切分方法为从前向后遍历所述词语流,依据句子边界符号将所述词语流切分成句子流;从前向后遍历每个句子,若所述句子的长度大于预定值,则依次尝试从逗号、从句、连接词或任意词处分开所述句子,直到所述句子的长度小于或等于所述预定值。根据本专利技术所述的视听字幕制作系统,所述注音模块还包括非登录词处理子模块,用于将切分好的所述句子或短语中含有的不在所述注音词典中的词,通过形近词替换、直接删除或人工注音方法转换为已知的读音的词;注音网络生成子模块,首先将切分处理非登录词后的词语流中每个词语首尾相连,建立词语网络,再查得每个词语所有可能的发音展开为注音网络。根据本专利技术所述的视听字幕制作系统,所述形近词替换,用于自动选中词库中一个最相近的词w*替换原词;其中替换词w*通过以下方法得到w* = arg min c e c D (w, c),公式中w为原词,w*为替换词,C为注音词典集合,D为两词间的编辑距离函数。根据本专利技术所述的视听字幕制作系统,所述原始声音处理模块,用于根据所述原始声音的格式,采用对应的算法进行解码,根据声学模型的要求重新采样为指定的采样频率,再经过去噪声处理转换为预定要求的声音流。根据本专利技术所述的视听字幕制作系统,所述强制切分模块还包括声学网络生成子模块,用于将所述注音网络展开,并在词语间加入哑音,扩充为隐马尔科夫声学模型的声学网络,发送到隐藏状态序列搜索模块中;特征提取子模块,用于将从所述声音流中逐帧提取音频,经过加窗处理后提取符合隐马尔科夫声学模型的声学参数,生成逐帧的所述特征流,发送到隐藏状态序列搜索模块中;隐藏状态序列搜索子模块,用于将所述特征流与所述声学网络通过维特比算法进行对齐,并选取所述特征流所经过的声学网络节点为所搜索的隐藏状态序列,将隐藏状态序列搜索结果发送到切分结果生成模块;切分结果生成子模块,用于从所述隐藏状态序列搜索结果中求出每个切分好的句子的起止位置Sn和En。根据本专利技术所述的视听字幕制作系统,所述句子的起止位置S1^P En通过以下公式得到Sn= (A^1)/2* FD, En= (Bn+An+1) /2*FD ;其中,所述3 和En的计算公式中An、Bn为分别表示第η个切分后的句子的一个隐藏状态序列的序号和最后一个隐藏状态序列的序号,并令Btl =Ai、AN+1=BN (N为切分后的句子个数),FD为特征提取子模块所用音频帧的时长。根据本专利技术所述的视听字幕制作系统,所述切分可信度评估模块还包括特征段切分子模块,用于将每个所述句子依据得到的起止位置S1^P EnW所述特征流中独立提取出来;音节识别子模块,用于将所述特征流识别为音节流,所述音节识别子模块包括识别网络建立单元和对齐解码单元;所述识别网络建立单元,用于将语料中计算得到的一元二元音节语法模型,建立音节转移概率网络,再将每个音节扩充为隐马尔科夫声学模型中的状态序列,组成最后的语音识别网络;所述对齐解码单元,用于通过维特比算法,根据所述特征流和所述语音识别网络求出具有最大概率的路径,并将其对应的音节序列,即语音识别出的音节序列发送到可信度分数计算子模块;可信度分数计算子模块,用于计算得到识别出的所述音节序列和文本中的音节序列的相似度分数F,将F作为切分可信度评估结果。根据本专利技术所述的视听字幕制作系统,所述相似度分数F使用以下公式计算得到F= ( Le- LD (Ss, Se) ) / Ls *100 ;其中,所述LK、Ls分别为识别出的所述音节序列、文本中的音节序列音节个数,Ss, Se分别为识别出的音节序列、文本中的音节序列,LD为计算两序列最小编辑距离的函数。根据本专利技术所述的视听字幕制作系统,所述错误处理模块还包括切分结果与可信度展示子模块,用于显示所述切分结果与所述切分可信度评估结果;人工辅助切分子模块,用于所述切分结果需要人工微调时,将手动矫正所述切分结果,并将矫正后的所述切分结果发送到所述字幕生成模块,以及用于在所述原始文本有误时,则人工修改原始文本后交由所述原始文本处理模块重新切分。本专利技术还提供一种视听字幕制作方法,包括步骤如下原始文本处理步骤,将输入的原始文本分词后按指定规则分割为合适长度的句子或短语;注音步骤,处理所述句子或短语中的非登录词,然后通过查注音词典生成注音网络;原始声音处理步骤,将输入的原始声音处理成预定要求的声音流;强制本文档来自技高网...

【技术保护点】
一种视听字幕制作系统,其特征在于,所述系统包括:原始文本处理模块,用于将输入的原始文本分词后按指定规则分割为合适长度的句子或短语,并将所述句子或短语发送到注音模块;注音模块,用于处理所述句子或短语中的非登录词,然后通过查注音词典生成注音网络,并将所述注音网络发送到强制切分模块;?原始声音处理模块,用于将输入的原始声音处理成预定要求的声音流,并将所述声音流发送到强制切分模块;强制切分模块,用于将所述注音网络切分为隐含马尔科夫识别语音的对齐网络,然后将所述声音流提取为特征流并在所述对齐网络对齐,并将切分结果输入到切分可信度评估模块;?切分可信度评估模块,用于通过语音识别对所述切分结果中每个切分段进行可信度评估得到切分可信度评估结果,若所述切分可信度评估结果达到预定值,则将所述切分结果直接发送到字幕生成模块,否则将所述切分可信度评估结果发送到错误处理模块;错误处理模块,用于显示所述切分可信度评估结果,判断是所述原始文本有误还是所述切分结果需要人工微调,若所述切分结果需要人工微调则人工微调所述切分结果并发送到字幕生成模块,若是所述原始文本有误则人工修改原始文本后重新交由所述原始文本处理模块切分;字幕生成模块,用于结合预定的字幕文件格式,将所述切分结果输出字幕文件。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张云梯庄智象黄卫黄河张中良
申请(专利权)人:上海外教社信息技术有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1