语音合成系统及方法技术方案

技术编号:3046175 阅读:148 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及用于识别语音信号的语音识别系统和方法,根据语音识别进行合成语音信号的语音合成系统和方法以及在其中使用的程序产品。本发明专利技术的语音识别系统包括被配置用来获取声音信号并且根据获取的声音信号计算声音信号参数的声音信号处理器;配置用来获取对象表面的潜在改变以作为肌电图信号,并且根据获取的肌电图信号计算肌电图信号参数的肌电图信号处理器;配置用来通过取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数的图像信息处理器;配置用来根据声音信号参数、肌电图信号参数以及图像信息参数,识别由对象发出的语音信号的语音识别器;以及配置用来提供语音识别器识别的结果的识别结果提供器。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及用于识别语音信号的语音识别系统和方法,根据语音识别进行合成语音信号的语音合成系统和方法以及在其中使用的程序产品。
技术介绍
本申请是申请号为P2002-057818,申请日期为2002年3月4日提出的日本在先专利申请的优先权基础上提出的,该申请的全部内容在此被引入作为参考。传统的语音探测装置采用语音识别技术通过对发声声音信号中的频率进行分析来对语音信号进行识别和处理。语音识别技术通过使用谱带包络或类似技术获取。然而,对于传统的语音探测装置来讲,不可能在没有向常规语音探测装置中输入发声的声音信号的条件下来探测语音信号。此外,为了通过使用语音识别技术来获取好的语音探测结果,要求声音信号以一定的音量发出声音。因此,传统的语音探测装置不能够在需要无声的条件下使用,这些情况例如,在办公室、在图书馆以及在公共机构等地方,当说话者可能会对周围的他/她带来不便时。传统的语音探测装置具有的问题就是在高噪音的条件下,会带来交叉说话的问题并且语音探测功能的性能会降低。另一方面,已出现了对从除声音信号外的信息获取语音信号的技术的研究。从除声音信号外的信息获取语音信号的技术使得在没有发声的声音信号的条件下获取语音信号成为可能,因此可以解决上述的问题。根据视频相机输入的图像信息进行图像处理的方法是一种根据嘴唇的视觉信息进行识别语音信号的方法。此外,还进行了通过处理随着嘴周围(附近)的肌肉运动产生的肌电图(下面称之为EMG)信号来识别发出的元音类型的技术研究。该研究在”NoboruSugie等’的A speech Employing a Speech Syntghesizer Vowel Discriminationfrom Perioral Muscles Activities and Vowel Production,’IEEE tansactions onBiomedical Engineering,卷32,第7期,485-490页”中公开,其中公开了通过将EMG信号通过通带过滤器并统计通过的EMG信号穿过阈值的次数来区别五个元音字母“a,i,u,e,o”的技术。众所周知,存在通过使用神经系统网络处理EMG信号来探测说话者的元音和辅音的方法。此外,使用不只是一个输入渠道而是多个输入渠道输入的信息的多模式接口被提出并已经获取。在另一方面,传统的语音合成系统存储用于表征说话者的语音信号的数据,并且使用当说话者发声时的数据来合成语音信号。然而,存在的一个问题是传统的语音探测方法使用从信息而不是从声音信号获取语音信号的技术,因此与使用从声音信号获取语音信号的语音探测方法相比,该技术在识别上具有低的成功率。特别是,很难从嘴内肌肉的运动来识别所发出的辅音。此外,传统的语音合成系统存在的一个问题在于语音信号是根据表征说话者的语音信号的数据合成的,因此合成的语音信号听起来很生硬,表达不自然,并且不可能确切地表达说话者的感情。
技术实现思路
终上所述,本专利技术的一个目的是提供一种语音识别系统和方法,其在没有噪音影响的条件下,识别较低音量的声音信号时具有高的识别率。本专利技术的另一个目的是提供一种语音合成系统和方法,其使用识别的语音信号来合成语音信号,从而使得合成的语音信号更自然和清晰,并且能够确切地表达说话者的感情。本专利技术的第一个方面可归纳为一种语音识别系统,其包括声音信号处理器、肌电图(EMG)信号处理器、图像信息处理器、语音识别器以及识别结果提供器。声音信号处理器被配置用来从一个对象获取声音信号,并且根据获取的声音信号计算声音信号参数。EMG信号处理器被配置用来获取对象表面的潜在改变以作为EMG信号,并且根据获取的EMG信号计算EMG信号参数。图像信息处理器被配置用来通过取得对象的图像来获取图像信息,并且根据获取的图像信息来计算图像信息参数。语音识别器被配置用来根据声音信号参数、EMG信号参数以及图像信息参数,识别由对象发出的语音信号。识别结果提供器被配置用来提供语音识别器识别的结果。在本专利技术的第一个方面,语音识别器可以根据声音信号参数、EMG信号参数以及图像信息参数中的每一个来识别语音信号,对比识别的每一个语音信号以及根据对比结果识别语音信号。在本专利技术的第一个方面,语音识别器可以同时使用声音信号参数、EMG信号参数以及图像信息参数来识别语音信号。在本专利技术的第一个方面,语音识别器可以包括一个分层网络,在该网络中含有输入单元和输出单元的多个非线性组件被从上到下分层定位。上层的非线性组件的输出单元连接到邻近的非线性组件中的下层的非线性组件的输入单元。加权值被指定给该连接或连接的组合。每一个非线性组件根据输入到输入单元的数据以及指定给连接或者连接的组合的加权值来计算从输出单元输出的数据并且确定计算的数据所输出到的连接。声音信号参数、EMG信号参数以及图像信息参数被作为输入数据输入到分层网络中的最上层的非线性组件中。识别的语音信号被作为输出数据从分层网络中的最下层的非线性组件中输出。语音识别器根据输出的数据识别语音信号。在本专利技术的第一个方面,语音识别器可以包括学习功能,其被配置用来根据输入的从下层向上层传送的样品数据来改变指定给非线性组件的加权值。在本专利技术的第一个方面,声音信号处理器可以包括麦克风,其被配置用来从声音源获取声音信号。麦克风被配置用来与通信装置进行通信。EMG信号处理器可以包括电极,其被配置用来获取声音源周围面上的潜在改变,以作为EMG信号。该电极被安装在通信装置的表面。图像信息处理器可以包括照相机,其被配置用来通过拍摄声音源移动的图像来获取图像信息。该照相机被安装在与通信装置分离的终端上。通信装置使用该终端发送和接收数据。在本专利技术的第一个方面,终端可包括一个装有照相机的主体,以及固定主体的带子。识别结果提供器可以为用于显示结果的显示器,该显示器被安装在主体的表面。在本专利技术的第一个方面,系统可以包括一个定位设备以及支撑设备。声音信号处理器可以包括麦克风,其被配置用来从声音源获取声音信号。EMG信号处理器可以包括电极,其被配置用来获取声音源周围面上的潜在改变以作为EMG信号。图像信息处理器可以包括照相机,其被配置用来通过拍摄声音源移动的图像来获取图像信息。定位设备可以固定与声音源接近的麦克风以及电极。支撑设备可以支撑照相机以及定位设备。在本专利技术的第一个方面,识别结果提供器可以在半透明的显示设备中显示结果。识别结果提供器被安装在支撑设备中。本专利技术的第二个方面可归纳为一种语音合成系统,其包括语音识别器、声音信号获取器、第一谱带获取器、第二谱带产生器、调节谱带产生器以及输出器。语音识别器被配置用来识别语音信号。声音信号获取器被配置用来获取声音信号。第一谱带获取器被配置用来取得获取的声音信号的谱带来作为第一谱带。第二谱带产生器被配置用来根据语音识别器识别的语音信号来产生声音信号的二次配置谱带,并将其作为第二谱带。调节谱带产生器被配置用来根据第一谱带和第二谱带来产生调节后的谱带。输出器被配置用来根据调节后的谱带来输出合成的语音信号。在本专利技术的第二个方面,输出器可以包括通信装置,其被配置用来发送作为数据的合成的语音信号。本专利技术的第三个方面可归纳为一种语音识别方法,包括以下步骤(A)从对象获取声音信号,并且根据获取的声音信号计算声本文档来自技高网
...

【技术保护点】
一种语音合成系统包括:配置用来识别语音信号的语音识别器;配置用来获取声音信号的声音信号获取器;配置用来取得获取的声音信号的谱带作为第一谱带的第一谱带获取器; 配置用来根据语音识别器识别的语音信号产生声音信号的二次配置谱带,并将其作为第二谱带的第二谱带产生器;配置用来根据第一谱带和第二谱带产生调节后的谱带的调节谱带产生器;以及配置用来根据调节后的谱带输出合成的语音信号的输出器。

【技术特征摘要】
JP 2002-3-4 2002-0578181.一种语音合成系统包括配置用来识别语音信号的语音识别器;配置用来获取声音信号的声音信号获取器;配置用来取得获取的声音信号的谱带作为第一谱带的第一谱带获取器;配置用来根据语音识别器识别的语音信号产生声音信号的二次配置谱带,并将其作为第二谱带的第二谱带产生器;配置用来根据第一谱带和第二谱带产生调节后的谱带的调节谱带产生器;以及配置用来根据调节后的谱带输出合成的语音信号的输出器。2.根据权利要求1所述的语音合成系统,其中,输出器包括通信装置,其被配置用来传送合成的语音信号作为数据。3.一种语音合成方法,包括以...

【专利技术属性】
技术研发人员:真锅宏幸平岩明杉村利明
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利