语音交互过程中的多音字播报方法及系统技术方案

技术编号:15439034 阅读:48 留言:0更新日期:2017-05-26 04:48
本发明专利技术提供了一种语音交互过程中的多音字播报方法及系统,所述播报方法包括:获取语音信息,识别所述语音信息;形成反馈信息;对所述反馈信息进行注音;播报所述反馈信息;释放先验信息。本发明专利技术通过将获取的语音信息通过识别存储为文本信息和音素信息,利用所述音素信息对反馈信息进行注音再进行播报,能有效提高专有名词中的多音字播报准确率,改善多音字播报效果。

In the process of Chinese broadcast voice interaction method and system

The invention provides a voice interaction in the process of Chinese broadcast method and system, including the broadcast method: obtaining voice information identifying the voice information; feedback information; carry on the phonetic information feedback; broadcast the feedback information; release prior information. The acquisition of voice information via identification stored as text information and phoneme information, using the phoneme information to conduct reporting on the feedback information method, can effectively improve the terminology of broadcast polyphone accuracy, improve the effect of Chinese broadcast.

【技术实现步骤摘要】
语音交互过程中的多音字播报方法及系统
本专利技术涉及语音交互
,具体来说涉及语音交互过程中的多音字播报方法及系统。
技术介绍
语音合成,又称文语转换(TextToSpeech)技术,是一种能够将文字信息转化为语音并进行朗读的技术,其涉及声学、语言学、数字信号处理、计算机科学等多个学科基础,是中文信息处理领域的一项前沿技术,解决的主要问题是如何将文字信息转化为可听的声音信息。在语音合成系统中,将文本信息转换为声音信息的过程为:首先需要对输入的文本进行处理,包括预处理、分词、词性标注、多音字预测、韵律层级预测等,然后再通过声学模型,预测各个单元对应的声学特征,最后利用声学参数直接通过声码器合成声音,或者从录音词库中挑选单元进行拼接,以生成与文本对应的声音信息。其中多音字预测是整个语音合成系统的基础之一,多音字朗读的正确与否,极大地影响了听者对合成声音语义的理解情况,如果多音字预测准确率高,可以大大改善用户体验,使合成出来的语音易于理解,听起来也更佳自然流畅。现有的多音字发音策略多采用如下方法:若多音字可以和上下文组成词语,则按照固定搭配中的多音字来进行播报,例如重点、重新;若多音字以单字形式出现,则基于大量数据训练模型的方法来决定发音,例如为人民服务、结果为零。在语音合成技术中,常用的大量训练数据模型的方法包括但不限于:CRF(条件随机场)方法,HMM(隐马尔科夫模型)方法,决策树方法等等。这些方法的特点是需要大量多音字的标注信息来进行训练。优点是可以仅凭文本信息来预测多音字的发音,且对于出现在常见上下文语境中的多音字预测准确率较高;缺点是对于训练数据中不包含的多音字或者是上下文语境中没有包含过的多音字的处理能力很差。但上述方法对于专有名词比如人名、地名、公司名称中的多音字播报效果较差。这是由于在语音交互过程中,用户的提问或指令信息中通常包含有多音字的发音,特别是对于人名、地名和公司名称的发音,但是在语音交互系统中,却将语音识别和语音合成分离开来,即语音识别中获得的对应文本信息的音素信息未被语音合成模块利用,而语音合成信息在播报该专有名词中的多音字时,根据自身事先设定的策略进行发音的选择。
技术实现思路
鉴于上述情况,本专利技术提供一种语音交互过程中的多音字播报方法及系统,解决了现有的多音字发音策略对专有名词(人名、地名、公司名称)中的多音字播报效果较差的技术问题,提高了专有名词中的多音字播报准确率。为实现上述目的,本专利技术采取的技术方案是:一种语音交互过程中的多音字播报方法,包括如下步骤:a.获取语音信息;b.识别所述语音信息,通过语音识别得出所述语音信息对应的文本信息和音素信息;c.执行所述文本信息的指令并形成相应的反馈信息;d.对反馈信息进行注音:首先查找所述反馈信息中是否包括多音字,若查找到多音字,首先将反馈信息与所述文本信息进行比对,若比对成功,从所述音素信息中获取发音并对反馈信息中的多音字进行注音;若比对不成功,则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音;e.对所述反馈信息进行播报。本专利技术的进一步改进在于,在所述步骤b中,还包括将所述文本信息和音素信息作为先验信息进行存储。本专利技术的进一步改进在于,所述反馈信息播报结束后,释放预先存储的先验信息。本专利技术的进一步改进在于,在所述步骤c中,所述反馈信息为文本形式的信息。本专利技术的进一步改进在于,在所述步骤d中,还包括对所述反馈信息中的单音字进行注音。本专利技术的更进一步改进在于,在所述步骤d中,若在所述反馈信息中未查找到多音字,则直接对反馈信息进行注音。此外,本专利技术还提供一种用于实施以上所述多音字播报方法的播报系统,所述系统包括录音模块、语音识别模块、处理及控制模块、语音合成模块以及语音播报模块:所述录音模块,与所述语音识别模块以及所述处理及控制模块连接,用于获取语音信息并将所述语音信息传送给所述语音识别模块;语音识别模块,与所述处理及控制模块连接,用于识别所述语音信息并得出与所述语音信息对应的文本信息和音素信息,将所述文本信息和音素信息传送给所述处理及控制模块;所述处理及控制模块,与所述语音合成模块及语音播报模块连接,用于执行所述文本信息的指令并形成相应的反馈信息,将所述反馈信息传送给所述语音合成模块;所述语音合成模块,与所述语音播报模块连接,用于查找所述反馈信息中是否包含多音字并对所述反馈信息进行注音,并将已注音的反馈信息传送给所述语音播报模块;所述语音播报模块,用于播报所述已注音的反馈信息。所述系统的更进一步改进在于,所述反馈信息是文本形式的信息;所述系统还包括临时存储模块,所述临时存储模块与所述处理及控制模块连接,所述语音识别模块通过所述处理及控制模块将所述文本信息和音素信息作为先验信息存储到所述临时存储模块中;所述处理及控制模块将所述先验信息从所述临时存储模块中释放。本专利技术的有益效果在于,本专利技术通过将获取的语音信息通过识别存储为文本信息和音素信息,利用所述音素信息对反馈信息进行注音再进行播报,能有效提高专有名词中的多音字播报准确率,改善多音字播报效果。附图说明图1是本专利技术语音交互过程中的多音字播报方法的示意性流程图。图2是本专利技术语音交互过程中的多音字播报系统的结构示意图。附图标记与部件的对应关系如下:S1-语音信息,S2-先验信息,S21-文本信息,S22-音素信息,S3-反馈信息,S4-已注音的反馈信息。具体实施方式为利于对本专利技术的了解,以下结合附图及实施例进行说明。请参阅图1,本专利技术提供一种语音交互过程中的多音字播报方法,以提高专有名词中的多音字播报准确率,可广泛适用于车载、导航、电话、短信等场景,还可以适用于智能设备中的语音助手、智能机器人等任何语音交互的场景。所述多音字播报方法包括如下步骤:a.获取语音信息;b.识别所述语音信息,通过识别得出所述语音信息对应的文本信息和音素信息,并将所述文本信息和音素信息作为先验信息予以存储;c.执行所述文本信息的指令并形成相应的反馈信息;d.对反馈信息进行注音:首先查找所述反馈信息中是否包括多音字,若查找到多音字,首先将反馈信息与所述先验信息进行比对,若比对成功,从所述音素信息中获取发音并对反馈信息中的多音字进行注音;若比对不成功,则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音;e.对所述反馈信息进行播报;在上述步骤中,所述反馈信息为文本形式的信息,即TTS文本;在步骤d中,若未查找到多音字,则直接对反馈信息进行注音;步骤d中在所述反馈信息中的多音字进行注音的同时还包括对单音字的注音。反馈信息的播报结束后,则释放预先存储的先验信息。此外,请参阅图2,本专利技术还提供一种用于实施上述多音字播报方法的系统,所述系统包括录音模块、语音识别模块、处理及控制模块、语音合成模块以及语音播报模块:所述录音模块,与所述语音识别模块以及所述处理及控制模块连接,用于获取语音信息S1并将所述语音信息S1传送给所述语音识别模块;语音识别模块,与所述处理及控制模块连接,用于识别所述语音信息S1并得出与所述语音信息对应的文本信息S21和音素信息S22,将所述文本信息S21和音素信息S22传送给所述处理及控制模块;所述处理及控制模块,与所述语音合成模块及语音播报模块连接,用于执行所述文本信息S21的指令本文档来自技高网
...
语音交互过程中的多音字播报方法及系统

【技术保护点】
一种语音交互过程中的多音字播报方法,其特征在于,包括如下步骤:a.获取语音信息;b.识别所述语音信息,通过识别得出所述语音信息对应的文本信息和音素信息;c.执行所述文本信息的指令并形成相应的反馈信息;d.对所述反馈信息进行注音:查找所述反馈信息中是否包括多音字,若查找到多音字,将反馈信息与所述文本信息进行比对,若比对成功,从所述音素信息中获取发音并对反馈信息中的多音字进行注音;若比对不成功,则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音;e.对所述反馈信息进行播报。

【技术特征摘要】
1.一种语音交互过程中的多音字播报方法,其特征在于,包括如下步骤:a.获取语音信息;b.识别所述语音信息,通过识别得出所述语音信息对应的文本信息和音素信息;c.执行所述文本信息的指令并形成相应的反馈信息;d.对所述反馈信息进行注音:查找所述反馈信息中是否包括多音字,若查找到多音字,将反馈信息与所述文本信息进行比对,若比对成功,从所述音素信息中获取发音并对反馈信息中的多音字进行注音;若比对不成功,则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音;e.对所述反馈信息进行播报。2.根据权利要求1所述的语音交互过程中的多音字播报方法,其特征在于:在所述步骤b中,还包括将所述文本信息和音素信息作为先验信息进行存储。3.根据权利要求2所述的语音交互过程中的多音字播报方法,其特征在于:所述反馈信息播报结束后,释放预先存储的先验信息。4.根据权利要求1所述的语音交互过程中的多音字播报方法,其特征在于:在所述步骤c中,所述反馈信息是文本形式的信息。5.根据权利要求1所述的语音交互过程中的多音字播报方法,其特征在于:在所述步骤d中,还包括对所述反馈信息中的单音字进行注音。6.根据权利要求1所述的语音交互过程中的多音字播报方法,其特征在于:在所述步骤d中,若在所述反馈信息中未查找到多音字,则直接对反馈信息进行注音。7.一种实施如权利要求1至6中任一项所述的语音交互过程中的多音字播...

【专利技术属性】
技术研发人员:王鸣
申请(专利权)人:上海语知义信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1