【技术实现步骤摘要】
本专利技术涉及音频分析领域,特别是诸如演讲等包含文本说明的音频。更具体地讲,涉及创建文本到音频映射的设备及相应处理过程,以及与播放音频信息同步的文字动画设备。与音频同步的文本动画方式来表示文本到音频的映射,所传达的信息量远远多于音频或者文本自身所表达出来的信息量,也多于音频和静态文字合在一起所表达出来的信息量。以本专利技术首套实施方案为依据,我们提供一台设备(“声文映射器10”)以及一套文本到音频映射的创建方法。以本专利技术第二套实施方案为依据,我们提供了一台带有音频播放的文本动画设备(“声文播放器50”)。本专利技术映射器10和播放器50,克服了过去技术上存在的缺陷。以前的技术阻碍了语音和文本表示的同步实现。通过克服这些不足之处,映射器10和播放器50为更好和更新颖地应用语音加文本表示形式,开辟了一条新的途径。
技术介绍
在基于语言方面的第一次技术进步是简单发声法的开发,当时这些发声法只能在时间上孤立地进行意思传达。后来,人们按时间相位和相继次序对这些最初的发声法进行组合,形成了语音流(streams of speech)。再后来,人们专利技术了在洞壁或其他合适表面上绘制简单符号或图像,但它们只是在空间上孤立进行意思传达。后人及时将这些符号或图像与口语联系了起来。后来,人们把这些独立的与语言有关的图形在空间相位上按相继次序组合形成了书面语言或“文本”。具体地说,我们具有创新精神的祖先,开始对象形、表意或者有音素特征的字符进行顺序空间排序,这些字符对应并且部分表示实际言语中按时间顺序排列、用来传达意思的发声序列。这些二维空间字符既传达意思又与发声有关, ...
【技术保护点】
文本映射到音频的设备及方法,其中,包括至少一台计算机可读取多媒体,该多媒体包含着创建文本到音频记录时序映射的计算机程序指令,所述计算机程序指令执行:馈送步骤,作为文本到音频的映射设备及方法的输入,包括至少一台计算机,文本为计算机可读取格式的文本,相应音频记录为计算机可读取格式的音频记录;赋值步骤,将起始和终止时间赋值给对应此音频记录的文本单元,所述文本单元可以为文本粒度。
【技术特征摘要】
US 2006-7-28 11/495,8361.文本映射到音频的设备及方法,其中,包括至少一台计算机可读取多媒体,该多媒体包含着创建文本到音频记录时序映射的计算机程序指令,所述计算机程序指令执行馈送步骤,作为文本到音频的映射设备及方法的输入,包括至少一台计算机,文本为计算机可读取格式的文本,相应音频记录为计算机可读取格式的音频记录;赋值步骤,将起始和终止时间赋值给对应此音频记录的文本单元,所述文本单元可以为文本粒度。2.根据权利要求1所述的至少一台文本映射到音频的多媒体,其特征在于,所述文本粒度包括固定时间段音频、字母、音素、音节、单词、短语、句子和段落。3.根据权利要求1中所述的至少一台文本映射到音频的多媒体,其特征在于,包括生成多个音频记录的步骤,通过对输入的音频记录在起始和终止时间边界上的差分,使得音频记录同对应的文本单元保持粒度上的一致。4.根据权利要求3所述的至少一台文本映射到音频的多媒体,其特征在于,包括以下步骤在不用基础流协议的情况下,利用所述多个音频记录实现音频流。5.根据权利要求1所述的至少一台文本映射到音频的多媒体,其特征在于,上述文本的格式是以下格式之一美国标准信息码ASCII、统一码Unicode、数字化乐器接口MIDI及在数字计算装置或者电子设备之间或之中发送数字编码音乐信息的格式。6.根据权利要求1所述的至少一台文本映射到音频的多媒体,其特征在于,包括将注释赋值到上述单元的赋值步骤,其中注释的格式来自于一个格式组,该格式组包括文本、音频、图像、影像剪辑、统一资源定位器URL的格式和媒体格式;注释可以是内容组中的内容,所述内容组由定义、翻译、脚注实例、参考、读音和用户对相应内容测验组成。7.根据权利要求1所述的至少一台文本映射到音频的多媒体,其特征在于,包括将所述开始和结束时间以及所述单元以计算机可读取格式保存的步骤。8.一种计算机实现的创建从文本到音频记录的时序映射方法,其特征在于,上述方法包括如下步骤馈送步骤,作为计算机实现映射模板的输入,文本为计算机可读取格式的文本,相应音频记录为计算机可读取格式的音频记录;赋值步骤,将起始和终止时间赋值给对应此音频记录的文本单元,所述文本单元可以为文本粒度;生成结构文本步骤,基于单元并进一步基于单元的开始和结束时间生成结构文本。9.根据权利要求8所述的计算机实现的方法,其特征在于,其中的结构文本来自于超文本标记语言HTML、可扩展标记语言XML和简单分界符文本;并且结构文本指出的结构包括至少一个单元边界、不同粒度的单元层次、以及单元与单元的起始和终止时间之间的对应关系。10.创建从文本同步映射到音频记录的设备,其特征在于,所述设备包括计算机上的映射模块,该模块将计算机可读取格式的文本以及对应于该文本的计算机可读取格式的音频记录作为输入;赋值方法,将起始和终止时间赋值给对应此音频记录的文本单元,上述文本单元可以为文本粒度;及交互选择方法,选择至少一个单元以及单元的颗粒值。11.根据权利要求10所述的设备,其中,选择方法允许交互性改变、扩大和/或缩小颗粒值。12.与音频记录同步动画animating文本并显示所述动画文本的设备,所述设备包括计算机实现的播放器模块,该模块将文本、对应于所述文本的音频记录以及文本与音频记录之间的时序映射作为输入,其中所述播放器模块动画文本,显...
【专利技术属性】
技术研发人员:埃里克路易斯汉森,
申请(专利权)人:埃里克路易斯汉森,
类型:发明
国别省市:CA[加拿大]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。