计算机汉语有声影像资料自动加注中外文字幕的方法技术

技术编号:10135657 阅读:160 留言:0更新日期:2014-06-16 15:02
本技术方案是一种计算机汉语有声影像资料自动加注中外文字幕的方法,属于计算机系统声音和图像数据处理技术领域。在将汉语语音影像资料转变成加注中外文字幕的影像资料时,将汉语有声语言的信号提取出来传给汉语语音识别模块并识别成汉语语音码或汉字,再通过机器翻译模块翻译成指定的外文,再将它们单独或中外文对照文本字幕传输给传统的视频画面字幕叠加机,将字幕信息叠加在视频画面上,并与相同同步信号的视频画面合成在一起储存或同步输出。本技术方案可以使整个汉语信息可以在纯ASCII系统的计算机中进行处理,可以方便外国观众通过中国汉语影视资料学汉语。

【技术实现步骤摘要】
【专利摘要】本技术方案是一种,属于计算机系统声音和图像数据处理
。在将汉语语音影像资料转变成加注中外文字幕的影像资料时,将汉语有声语言的信号提取出来传给汉语语音识别模块并识别成汉语语音码或汉字,再通过机器翻译模块翻译成指定的外文,再将它们单独或中外文对照文本字幕传输给传统的视频画面字幕叠加机,将字幕信息叠加在视频画面上,并与相同同步信号的视频画面合成在一起储存或同步输出。本技术方案可以使整个汉语信息可以在纯ASCII系统的计算机中进行处理,可以方便外国观众通过中国汉语影视资料学汉语。【专利说明】
本技术方案属于嵌入式或非嵌入式计算机系统声音和图像数据处理
,以下叙述中将嵌入式和非嵌入式计算机系统统称为计算机系统。
技术介绍
目前市面上的汉语有声影像资料的汉字或外文或其对照字幕叠加,一般通过人工方式将汉语有声影像资料中的汉语转换成汉字或外文,再交给视频画面或影像画面字幕叠加机将表达汉语意思的汉字或外文或汉字与外文对照字幕叠加在视频画面或影像画面上,由于存在大量的汉语有声影像资料,这种影像资料包括电视录像和电影等各种格式储存的有声影像资料,因此,如果单靠采用人工转换的方式会很费工费时,而且随着计算机数字有声影像处理技术的出现,越来越需要有一种能根据汉语语音自动转换成表达汉语信息的字符和外文以及它们的对照并加注字幕到同步对应的影像资料画面上去的技术出现,而且这种能自动根据汉语转换成汉语和外文及其它们对照字幕的技术,不但能在带汉字系统的计算机系统中运行,还能再不带汉字系统只带128个字符的ASCII码系统的以美国为代表的西方国家的计算机系统中运行,以满足世界互联网的日益广泛的运用和云计算、物联网、世界各地出现的汉语热,以及中西文化交流越来越频繁的新形势的需要。
技术实现思路
本技术方案的提出就是为了解决上述出现这些问题。具体来说本技术方案通过采用以下的来解决上述出现的问题: 在将汉语语音影像资料通过计算机自动在影像资料中加注字幕时,首先通过现有计算机软件做好影像资料中视频画面或影像画面与对应的有声语言的音频信号同步信号标记,这里的同步信号标记可以采用现有的制作视频画面或影像画面与音频同步时间戳标记技术来完成,以上以下均同。然后将带同步信号标记的有声语言的音频信号提取出来传给计算机中的汉语语音识别模块,汉语语音识别模块将汉语语音识别成带与所识别的汉语语音相同同步信号标记的用26个拉丁字母表示的汉语语音码,再通过机器翻译模块将上述汉语语音码翻译成用26个拉丁字母表示的与对应汉语语音码句子具有相同同步信号标记的指定的外文,再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给传统的视频画面或影像画面字幕叠加机,根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面或影像画面同步信号标记的对应关系将字幕信息叠加在视频画面或影像画面上,并进行储存或同步输出。上述所述的汉语语音码是以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,用且仅用26个拉丁字母对汉语拼音的声母、介母、韵母、声调采取先编码再依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码拼写,并通过得到的语音码的编码直接表达汉语信息,当直接用语音码编码来表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同,编码时同一个单词的多个音节不用空格连续编码,单词与单词之间要有空格隔开。由于本技术方案采用26个拉丁字母表示的汉语语音码来表达汉语信息,且当直接用语音码编码来表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同,这样就保证了汉语信息的表达连标点符号在内都与ASCII码完全一致,也即与ASCII码100%兼容,这样上述各种汉语信息处理模块,由于处理的汉语信息是用与ASCII码完全一致的汉语语音码来表示的,这样就使得这些模块可以在ASCII码系统的计算机中运行,由于组成整个系统的模块可以在ASCII码系统的计算机中运行,因此,整个系统可以在ASCII码系统的计算机中运行。有了本技术方案以后,汉语信息可以在汉字内码系统和非汉字内码系统的ASCII内码系统的计算机信息系统中畅通无阻地进行传输和处理,而且随着世界互联网的日益广泛的运用和云计算、物联网以及世界各地汉语热的出现,使得外国观众能够更方便地通过中国的影视资料学汉语,从而使汉语能够更广更好地传播到世界各地,促进中国文化走向世界。除了汉语以汉语语音码的形式输出外,本技术方案所述的汉语语音码需要时,在汉字系统的计算机中可以通过汉字转换模块转换成汉字,并且汉语语音码或汉字能够单独或者汉语语音码、汉字、汉语拼音,意义一致的外文两两对照显示、储存、输出。【具体实施方式】下面结合实施例对本专利技术的【具体实施方式】作进一步的说明。(一)本技术方案所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法: 注:括号内的符号均为《汉语拼音方案》中的汉语拼音符号,以下简称为汉语拼音符号,不带括号的字母为本方案所采用的汉语语音码的每一音节声、韵、调的编码符号,以下将下列对照表简称为码表; 1、声码的编码符号采用与汉语拼音方案基本一致的声母的字母符号,比如采用下面这种声码的编码形式: b: (b) P: (P) m: (m) f: (f) d: (d)t: (t) η: (n) 1:(1) g: (g) k: (k) h: (h) j: (zh), (j)q: (ch), (q)x: (sh), (x) r: (r) z:(z) c:(c) s:(s) y:(y) w:(w) 2、汉语拼音介母(U)采用26个拉丁字母中的一个字母表示,比如采用下面这种介码的编码形式: 1:(i) u:(u) y:(U) 3、韵码的编码,对单韵母除(U)采用26个拉丁字母中的一个字母表示外,其它采用与汉语拼音相同的字母符号,汉语拼音的复合韵母只要是采用辅音字母来编码都是可以的,比如采用下面的这种字母符号来对汉语拼音的韵母进行编码: a: (a) o:(o) e: (e) i: (i) u: (u) y: (ii) k:(ao) c:(ai) s: (an) x:(ou) w:(ei) n:(en) z:(ua) I:(uo) b: (ang) d:(ong) p: (eng)q: (ing) g:(ng) er:(er)r: (i) 4、调码的编码除采用一个汉语不用的辅音字母V表示汉语拼音的上声(V)外,其它采用元音字母来表示汉语的声调,比如采用下面的字母来对汉语拼音的声调进行编码:a:(—)阴平e:(/)阳平 v:(V)上声 u:(\)去声 0:(不标)轻声(二)利用上述编码的汉语语音码汉语信息表示采用如下的方法: 以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,当汉语信息表示处于汉语语音码状态时,其六种点号,七种标号和一个移行号采用与英文相同的形式; 这里由于将独立运用的汉字看作单音节词,因此,本专利技术所采用的汉字本文档来自技高网
...

【技术保护点】
一种计算机汉语有声影像资料自动加注中外文字幕的方法,其特征是: 在将汉语语音影像资料通过计算机自动在影像资料中加注字幕时, 首先通过现有计算机软件做好影像资料中视频画面或影像画面与对应的有声语言的音频信号同步信号标记,然后将带同步信号标记的有声语言的音频信号提取出来传给计算机中的汉语语音识别模块,汉语语音识别模块将汉语语音识别成带与所识别的汉语语音相同同步信号标记的用26个拉丁字母表示的汉语语音码,再通过机器翻译模块将上述汉语语音码翻译成用26个拉丁字母表示的与对应汉语语音码句子具有相同同步信号标记的指定的外文, 再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给现有的视频画面或影像画面字幕叠加机,根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面或影像画面同步信号标记的对应关系将字幕信息叠加在视频画面或影像画面上,并进行储存或同步输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:苗玉水
申请(专利权)人:上海能感物联网有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1