语音编辑装置、语音编辑方法和语音编辑程序制造方法及图纸

技术编号:3044727 阅读:132 留言:0更新日期:2012-04-11 18:40
可以方便地丰富登记在语音识别装置中的标准模式并且有效地扩充可以以语音识别的词的数量。通过部分地变更现存标准模式而有效地生成新标准模式,而不是从零开始来生成新标准模式。变更部分指定单元(14)中的模式匹配单元(16)执行匹配处理来标识将要变更的现存标准模式中的一部分。标准模式生成单元(18)通过剪切掉将要变更的标准模式的该部分上的语音数据、删除它以及用另一语音数据置换它或者将其与另一语音数据组合来生成新标准模式。标准模式数据库更新单元(20)添加新标准模式到标准模式数据库(24)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音编辑装置、语音编辑方法和语音编辑程序
技术介绍
—般来说,当编辑者编辑已记录语音数据时,该编辑者在聆听所播放的语音的同时指定并剪切编辑点(editing point)'在专利文献5中,当编辑者生成语音卡(这是通过将语音记录在卡并将 图片贴在卡上来生成的)时,编辑者利用高级语音编辑程序将语音表示在计 算机屏幕上的编辑窗口中,并使用诸如鼠标之类的工具来删除、剪切或组合 语音的组成部分。此外,语音识别装置将语音标准模式(以下称为标准模式)用作语 音识别词典(voice recognition dictionary )以识另'J语音。然而,标准才莫式需二昏 进行扩充以增加可以以语音识另'J ( voice-recognize )的词(word)的数量。在 这种情况下,可以删除或剪切现存标准模式的组成部分。现在描述在语音识别装置中作为语音识别词典的标准模式的编辑., 语音识别装置将目标语音分割为预定时间间隔(帧),提取指示每一帧 的语音波形的特征的多维特征参数(倒谱(cepstmm)),将特征参数的时间 序列模式与在语音识別装置中累积的标准模式(作为语音识别的基本单元的将具有最高相似度的词输出作为识别结果。通过将语音信号以约20到40毫秒的时间帧分开以获得倒谱(特征参数), 其使用与该时间帧对应的语音信号的快速傅立叶变换(FFT),获得幅度谱 的对数,并使用该对数的频谱的离散傅立叶逆变换(IDFT)。由FFT获得的该语音的频语包括该语音的近似结构信息(指示音位性质 的包络信息)以及微振荡分量的信息(指示声音的音调的微结构信息)。在 语音识别的情况下,提取语音的音素(即估计语音的声音)很重要,而微结构信息不是很重要。因此,通过使用对数的频谙的IDFT将包络信息和微结构信息彼此:分开。当使用IDFT时,包络信息被集中在类频率(qiiefrency)轴(水平轴) 的左边,而微结构信息被集中在类频率轴的右边。因此,包络信息和l^结构 信息可以有效地彼此分开。这就是倒谱。对于语音分析,可以用.LPC (线性 预测编码)代替FFT。Mel暗示根据人类听觉性能将类频率轴转换为对数函数。在该专利技术中,倒语包括Mel倒谱,其主要被表示为特征参数。 倒谱或特征参数可以被表示为语音数据。上位概念(super ordinate concept)语音数据除了语音的特征参数外(倒谱)外,还包括被转换 为文本的语音和语音数据(波形数据)。语音识别装置具有多个标准模式(即关于作为识別单元的每一个词的倒 t普指示该词的声音的特征的特征参数)作为识別词典。该语音识別装—E需 要具有许多标准模式以增加可以识別的词的数量.专利文献2提出了将音素词典用来代替标准模式。专利文献2公开了这 样的音频识别技术为了生成用于非特定个人的识别词典,将少量人发音的比较结果生成音素词典并用于音频识别。专利文献3公开了用以控制配备有语音识别装置的移动终端(移动终端 等)的操作的识別语音的技术。专利文献4公开了在配备有语音识别装置和文本转换装置的移动终端 (移动终端、PDA等)中将输入语音自动转换为文本数据的技术。由于移动终端需要d 、巧和廉价,因此实际上移动终端配备具有简单识别 词典(标准模式)的相对廉价的语音识别装置。在这种情况下,用户根据其情形更新移动终端的识别词典(即用户定制识别词典)。当用户定制安装在移动终端上的识别词典时,如果其过程或操作太复杂, 则会给移动终端用户造成不便。因此,需要不给用户使用造成困难并允许用 户轻松地扩充识别词典(标准模式)的技术。此外,例如,当编辑大量语音词的利普通标准模式进行比较,以便根据数据的组成部分时,由于从其开头输入大量语音数据的操作会导致非常低的 效率,因此需要方便地编辑语音数据的技术。专利文献1: JP-A-11-190997专利文献2: JP-A-5-188988专利文献3: .!P-A-2004-i 53306专利文献4: JP-A-2003 -188948专利文献5: JP-A-2000-27618
技术实现思路
在专利文献所描述的生成标准模式(语音数据)的方法中,被登记为 标准模式的所有词都需要以文本形式输入,这不方便。具体地说,因为移动 终端的输入4菱小,所以在移动终端中输入文本很困难。在专利文献2所描述的生成标准模式(语音数据)的方法中,要添加的 词应该精确地发音。因此,不容易精确地发音大量词。在专利文献5所描述的语音编辑方法中,使用高级语音编辑程序编辑语 音数据。然后,配备有高级语音编辑程序的移动终端很贵。此外.以高级语 音编辑程.序编揭语音数掘的操作需要复杂的鼠标操作,这会花很长时间,本专利技术提供方便廉价地在移动终端上编辑语音数据的技术。本专利技术还提 供可以通过增加登记在语音识别装置中的标准模式来有效地增加可以以语音 识别的词的数量的语音识别装置、标准模式生成方法和标准模式生成程序。根据本专利技术的一方面,提供使用现存语音数据生成另 一语音数据的语音 编辑装置,包括变更部分指定单元,其在现存语音数据之中的使用源 (usage-source )语音数据和用于指定该使用源语音数据的变更部分的变更部 分语音数据之间执行匹配处理,并且将该使用源语音数据的至少一部分指定 为变更部分;以及语音数据生成单元,其将该变更部分指定单元所指定的变 更部分语音数据用于生成另 一语音数据。该语音数据生成单元可以生成通过用不同语音数据置换由变更部分指定 单元指定的使用源语音数据的变更部分语音数据而获得的语音数据,作为另该语音数据生成单元可以生成通过将由变更部分指定单元指定的变更部 分语音数据与不同语音数据组合而获得的语音数据,作为另 一语音数据。结果,通过编辑现存语音数据生成新语音数据,通过使用模式匹配处理 自动指定变更部分编辑语音数据简单(即语音识别装置的语音识别功能也用 于编辑语音数据)。也就是说,容易通过将一部分语音插入现存语音来剪切或组合语音。例如,假设在移动终端中存储了现存语音数据I entered the'A, company on April 1, 2005。编l專该王见存i吾音凄史才居的方法^口下。首先,当i吾句 请发音要剪切的部分显示在移动终端的显示单元上时,用户发音on April 1,2005。用户的语音被输入移动终端。然后,在现存语音数据和新输入的 语音之间执行模式匹配处理,并剪切匹配的部分。结果,获得f entered the 'A, company,,此外,本专利技术可以用于将现存语音数据分割成多个语句u例如, 假设在移动终端中存储了语音数据the meeting will take place at J 0 o'clock, in the first conference room。当语句请发音要分割的语音部分显示在移动 终端的显示单元上时,用户发音in。然后,语音in;汰输入移动终端, 并通过在其与现存语音数据之间执行模式匹配处理来将其与现存语音数据比 较。纟*果,将现存语晋数振the meeting will take place at 10 o'clock in the first conference room/泉r丙个i吾-f凄ti居,民卩 the meeting will tak本文档来自技高网
...

【技术保护点】
一种使用现存语音数据生成另一语音数据的语音编辑装置,该装置包括:    变更部分指定单元,其在该现存语音数据之中的使用源语音数据和用于指定该使用源语音数据的变更部分的变更部分语音数据之间执行匹配处理,并且将该使用源语音数据的至少一部分指定为变更部分;以及    语音数据生成单元,其将该变更部分指定单元所指定的该变更部分语音数据用于生成另一语音数据。

【技术特征摘要】
【国外来华专利技术】JP 2005-5-27 156205/20051.一种使用现存语音数据生成另一语音数据的语音编辑装置,该装置包括变更部分指定单元,其在该现存语音数据之中的使用源语音数据和用于指定该使用源语音数据的变更部分的变更部分语音数据之间执行匹配处理,并且将该使用源语音数据的至少一部分指定为变更部分;以及语音数据生成单元,其将该变更部分指定单元所指定的该变更部分语音数据用于生成另一语音数据。2. 如权利要求1所述的语音编辑装置,其中,该语音数据生成单元生成 通过用不同语音数据置换由该变更部分指定单元指定的该使用源语音数据的 该变更部分语音数据而获得的语音数据,作为另 一语音数据。3. 如权利要求1所述的语音编辑装置,其中,该语音数据生成单元生成 通过将由该变更部分指定单元指定的该变更部分语音数据与不同语音数据组i语音数据,作为另一语音数据。-来仝4.如权利要求2或3所述的语音编辑装置,其中,用以生成另一S同语音数据^部输入到该语音编辑装置的语音数据、从该现-数据中被剪切出的语音数据或者该现存语音it据.5. —种使用现存标准模式来借助如权利要求1至4之一所述的该语音编 辑装置生成另一标准模式的语音识别装置,该语音识别装置包括变更部分指定单元,其在该现存标准模式之中的使用源标准模式和用于 指定该使用源标准模式的变更部分的变更部分语音数据之间执行匹配处理, 并且将该使用源标准模式的至少一部分指定为变更部分;以及语音数据生成单元,其将该变更部分指定单元所指定的该变更部分语音 数据用于生成另一语音数据。6. 如权利要求5所述的语音识别装置,还包...

【专利技术属性】
技术研发人员:寺西利之幡野浩司
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利