一种计算机实现的创建从文本到音频记录的时序映射方法技术

技术编号:3051983 阅读:205 留言:0更新日期:2012-04-11 18:40
本发明专利技术介绍了创建文本到音频时序映射的装置、方法和计算机可读取媒体。本发明专利技术还介绍了音频文本动画播放的装置、方法和计算机可读取媒体。映射器(10)将文本(12)以及与之对应的音频记录(11)作为输入,在用户帮助下将开始和结束时间(14)赋值到文本单元(15)中。播放器(50)将文本(15)、音频(17)和映射(16)作为输入,随着音频(17)的播放,同步制作文本动画(animate)并显示文本(15)。本发明专利技术可以用于在音频记录播放过程中给文本赋予生气;代替传统的重放控制器来控制音频播放;播放并显示语音记录的注释;在不用基础流协议的情况下实现流动音频的特征。

【技术实现步骤摘要】

本专利技术涉及音频分析领域,特别是诸如演讲等包含文本说明的音频。更具体地讲,涉及创建文本到音频映射的设备及相应处理过程,以及与播放音频信息同步的文字动画设备。与音频同步的文本动画方式来表示文本到音频的映射,所传达的信息量远远多于音频或者文本自身所表达出来的信息量,也多于音频和静态文字合在一起所表达出来的信息量。以本专利技术首套实施方案为依据,我们提供一台设备(“声文映射器10”)以及一套文本到音频映射的创建方法。以本专利技术第二套实施方案为依据,我们提供了一台带有音频播放的文本动画设备(“声文播放器50”)。本专利技术映射器10和播放器50,克服了过去技术上存在的缺陷。以前的技术阻碍了语音和文本表示的同步实现。通过克服这些不足之处,映射器10和播放器50为更好和更新颖地应用语音加文本表示形式,开辟了一条新的途径。
技术介绍
在基于语言方面的第一次技术进步是简单发声法的开发,当时这些发声法只能在时间上孤立地进行意思传达。后来,人们按时间相位和相继次序对这些最初的发声法进行组合,形成了语音流(streams of speech)。再后来,人们专利技术了在洞壁或其他合适表面上绘制简单符号或图像,但它们只是在空间上孤立进行意思传达。后人及时将这些符号或图像与口语联系了起来。后来,人们把这些独立的与语言有关的图形在空间相位上按相继次序组合形成了书面语言或“文本”。具体地说,我们具有创新精神的祖先,开始对象形、表意或者有音素特征的字符进行顺序空间排序,这些字符对应并且部分表示实际言语中按时间顺序排列、用来传达意思的发声序列。这些二维空间字符既传达意思又与发声有关,用这些字符表示的相继次序是一项非常关键的创新,它使得我们能够将瞬时动态语音流的部分表示“凝固”成静态可储存文本。模拟语音处理的专利技术,进一步提高了人们通过说话和文本进行交流的能力。这项技术专利技术使得我们能够凝固并存储动态语音流的声音,而不在满足于把语音部分等效存储为文本。近年来,通过以下方式,人们通过语言进行交流的能力得到了进一步延伸一是通过对语音和文字进行数字编码,存储,处理,然后对其进行解码处理;二是电脑化文本搜索技术的开发;三是通过交互式文本包括交互式文本注释和超文本的开发。最后,因特网分布语音录音和文本技术的开发,使得人们通过语言进行交流的能力大大提高。这项技术是通过因特网,将语音录音和文本分布到越来越盛行的可编程或专用数字计算装置上。概括地说,两个相继次序的出现,使得口语和书面语言的交流成为可能一是用来传达意思的说话发声的时间相继次序,二是表示说话发声的象形、表意或者有音素特征的字符的空间相继次序。虽然上述两个相继次序都分别是一种有力的语言沟通形式,但是,语音和文本的局部等同,使得我们利用其中一个来表示或替代另一个成为可能。已经有多种途径证明这个局部等同非常有用,这些途径包括人们对两种妨碍人际交流的残疾—耳聋和失明的征服。具体地说,听不见口语但可以看见并学过阅读的人,通过读出抄写的口语单词,至少可以理解讲话的部分意思。其次,那些看不见书面语言的人,可以通过倾听把书写下来的文字转换成的发声,或者通过聆听原始讲话录音,理解书面上写的是什么。对于具有视力和听力者,在同时进行语音和文本表示时,语音和文本表示的配合可以创造出一种有力的混合式语言交流形式。具体地说,语音和文本的同时传达,使得听/读者在同一时间内同时通过两条语言交流途径,即听和看,来得到信息。语音加文本表示中的讲话部分,会支持并强化书面信息,而语音加文本表示中的文本部分,则支持并强化讲话信息。简而言之,语言加文本表示的效果,好于其各部分表示的总和。例如,在熟悉的国歌响起时,看到同步显示“星条旗”歌词,可能会让人在一个全新角度上油然而生感激之情。同样,在聆听马丁路德金演讲录音的同时,阅读他著名的“我有一个梦想”的原文,会让人沉浸在语言加文本的全新体验中,这种体验,性质上决不同于简单的阅读原文或聆听讲演。语音加文本表示,在教育领域也有广阔的应用。例如,学习阅读某个人的本国语言,涉及到书写字符与相应口语单词的联想。通过语音加文本的同步表示,可以使得这种联想学习法变得更加容易。语音加文本表示在教育领域的另一项应用,是外语或“第二”语言的学习—也就是学习至少在开始以口头或书写形式不能理解的语言。例如,一位学习德语的学生,可以玩语音加文本版的卡夫卡的“变形”,在阅读文本的同时,可以聆听口语版的故事。在这种第二语言学习应用中,诸如书面译文等文本注释可以帮助学生以口语和书面语两种形式理解第二语言,并帮助学生获得口语和书面表达能力。口语翻译形式的文本注释可以增强外语资料的语音加文本表示效果,这些文本注释可以是清晰的发音,或是个别单词的读音,也可以是弹出式测验题。这种语音加文本表示在工业教育领域的一项应用,是增加书面技术资料的音频版本。音像版企业培训手册或者航空机师指南,可以这样制作在文本显示的同时播放音频,以便让人们更透彻地理解其中的术语。有多种原因导致难以理解一篇讲话,除了外语之外,还有例如,讲话录音中语音部分因本底噪声影响而模糊不清,讲话带有陌生口音,因与音乐伴奏混杂或节奏变化而导致的歌曲歌词难以听懂,或者在声乐中常见的因歌词或音节持续时间变化而导致的歌曲歌词难以听懂。所有这些问题,都可以通过将语音成分用书面和发声两种方式结合表示来解决。对现存在的一些讲话以语音加文本形式进行记录,在保护濒危语言并存档保存这些语言方面,也可以起到建设性的作用。一般地说,语音加文本的混合表示方式,借助于基于机器的文本搜索技术,机器搜索这些表示中的语音成分的再现成为了可能。我们首先提出从前的技术相对于本专利技术映射器10的不足之处,然后提出其相对于播放器50的不足之处。现行的音频分析或者声音编辑程序,可以用来在用户选定位置录音时设置标记。然后可以输出这些标记,创建一个时间编码表。成对的时间编码可以按时间间隔译码。然而,用这样的方式创建的时间编码或时间编码间隔,并没有映射到文本信息中。该方法在录音和诸如讲话等可以以录音形式存在的文本表示之间形成一个映射。这就是以前的技术达不到本专利技术中映射器10的功能的原因。现在,我们看看涉及到本专利技术播放器50以前的旧技术。在播放录音讲话的同时呈现该讲话的书面记录(或者在呈现文本的同时播放其发声转换版本)时,正在聆听的读者(或者是正在阅读的听众)会遇到几个问题第一个问题是,对应于正在讲述的内容,怎样掌握文本中的文字进展到了何处?以前的技术有两种方法应对这个问题,在下文中我们会分析其不足之处。第二个问题是,在语音加文本表示中,组成文本的书写单词个体可以做成机器可搜索、可注释和交互式的,而音频部分的口语单词个体则不能。从前的技术尽管知道文本和音频之间的对应关系,但是未能使包含语音的音频做到机器可搜索、可注释和交互式。第三个问题是,音频成分的交互式传输需要制定一个流协议。从前的技术并没有涉及使用音频成分传送流协议的而引起的限制问题。从前的技术曾试图以两种方法解决上述第一个问题,即“如何掌握文本中的文字进展”。第一个方法是使语音加文本的分段保持简短。如果一段讲话比较简短,其相应的文本因此也会较短,因此播放的音频和显示的文本之间的关系可能会相对清晰—条件是正在聆听的读者明白语音加文本表示的语音和书面成分。同时显示本文档来自技高网...

【技术保护点】
文本映射到音频的设备及方法,其中,包括至少一台计算机可读取多媒体,该多媒体包含着创建文本到音频记录时序映射的计算机程序指令,所述计算机程序指令执行:馈送步骤,作为文本到音频的映射设备及方法的输入,包括至少一台计算机,文本为计算机可读取格式的文本,相应音频记录为计算机可读取格式的音频记录;赋值步骤,将起始和终止时间赋值给对应此音频记录的文本单元,所述文本单元可以为文本粒度。

【技术特征摘要】
US 2006-7-28 11/495,8361.文本映射到音频的设备及方法,其中,包括至少一台计算机可读取多媒体,该多媒体包含着创建文本到音频记录时序映射的计算机程序指令,所述计算机程序指令执行馈送步骤,作为文本到音频的映射设备及方法的输入,包括至少一台计算机,文本为计算机可读取格式的文本,相应音频记录为计算机可读取格式的音频记录;赋值步骤,将起始和终止时间赋值给对应此音频记录的文本单元,所述文本单元可以为文本粒度。2.根据权利要求1所述的至少一台文本映射到音频的多媒体,其特征在于,所述文本粒度包括固定时间段音频、字母、音素、音节、单词、短语、句子和段落。3.根据权利要求1中所述的至少一台文本映射到音频的多媒体,其特征在于,包括生成多个音频记录的步骤,通过对输入的音频记录在起始和终止时间边界上的差分,使得音频记录同对应的文本单元保持粒度上的一致。4.根据权利要求3所述的至少一台文本映射到音频的多媒体,其特征在于,包括以下步骤在不用基础流协议的情况下,利用所述多个音频记录实现音频流。5.根据权利要求1所述的至少一台文本映射到音频的多媒体,其特征在于,上述文本的格式是以下格式之一美国标准信息码ASCII、统一码Unicode、数字化乐器接口MIDI及在数字计算装置或者电子设备之间或之中发送数字编码音乐信息的格式。6.根据权利要求1所述的至少一台文本映射到音频的多媒体,其特征在于,包括将注释赋值到上述单元的赋值步骤,其中注释的格式来自于一个格式组,该格式组包括文本、音频、图像、影像剪辑、统一资源定位器URL的格式和媒体格式;注释可以是内容组中的内容,所述内容组由定义、翻译、脚注实例、参考、读音和用户对相应内容测验组成。7.根据权利要求1所述的至少一台文本映射到音频的多媒体,其特征在于,包括将所述开始和结束时间以及所述单元以计算机可读取格式保存的步骤。8.一种计算机实现的创建从文本到音频记录的时序映射方法,其特征在于,上述方法包括如下步骤馈送步骤,作为计算机实现映射模板的输入,文本为计算机可读取格式的文本,相应音频记录为计算机可读取格式的音频记录;赋值步骤,将起始和终止时间赋值给对应此音频记录的文本单元,所述文本单元可以为文本粒度;生成结构文本步骤,基于单元并进一步基于单元的开始和结束时间生成结构文本。9.根据权利要求8所述的计算机实现的方法,其特征在于,其中的结构文本来自于超文本标记语言HTML、可扩展标记语言XML和简单分界符文本;并且结构文本指出的结构包括至少一个单元边界、不同粒度的单元层次、以及单元与单元的起始和终止时间之间的对应关系。10.创建从文本同步映射到音频记录的设备,其特征在于,所述设备包括计算机上的映射模块,该模块将计算机可读取格式的文本以及对应于该文本的计算机可读取格式的音频记录作为输入;赋值方法,将起始和终止时间赋值给对应此音频记录的文本单元,上述文本单元可以为文本粒度;及交互选择方法,选择至少一个单元以及单元的颗粒值。11.根据权利要求10所述的设备,其中,选择方法允许交互性改变、扩大和/或缩小颗粒值。12.与音频记录同步动画animating文本并显示所述动画文本的设备,所述设备包括计算机实现的播放器模块,该模块将文本、对应于所述文本的音频记录以及文本与音频记录之间的时序映射作为输入,其中所述播放器模块动画文本,显...

【专利技术属性】
技术研发人员:埃里克路易斯汉森
申请(专利权)人:埃里克路易斯汉森
类型:发明
国别省市:CA[加拿大]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利