语音交互过程中的多音字播报方法及系统技术方案

技术编号：15439034 阅读：48 留言：0更新日期：2017-05-26 04:48

本发明专利技术提供了一种语音交互过程中的多音字播报方法及系统，所述播报方法包括：获取语音信息，识别所述语音信息；形成反馈信息；对所述反馈信息进行注音；播报所述反馈信息；释放先验信息。本发明专利技术通过将获取的语音信息通过识别存储为文本信息和音素信息，利用所述音素信息对反馈信息进行注音再进行播报，能有效提高专有名词中的多音字播报准确率，改善多音字播报效果。

In the process of Chinese broadcast voice interaction method and system

The invention provides a voice interaction in the process of Chinese broadcast method and system, including the broadcast method: obtaining voice information identifying the voice information; feedback information; carry on the phonetic information feedback; broadcast the feedback information; release prior information. The acquisition of voice information via identification stored as text information and phoneme information, using the phoneme information to conduct reporting on the feedback information method, can effectively improve the terminology of broadcast polyphone accuracy, improve the effect of Chinese broadcast.

全部详细技术资料下载

【技术实现步骤摘要】
语音交互过程中的多音字播报方法及系统
本专利技术涉及语音交互
，具体来说涉及语音交互过程中的多音字播报方法及系统。
技术介绍
语音合成，又称文语转换(TextToSpeech)技术，是一种能够将文字信息转化为语音并进行朗读的技术，其涉及声学、语言学、数字信号处理、计算机科学等多个学科基础，是中文信息处理领域的一项前沿技术，解决的主要问题是如何将文字信息转化为可听的声音信息。在语音合成系统中，将文本信息转换为声音信息的过程为：首先需要对输入的文本进行处理，包括预处理、分词、词性标注、多音字预测、韵律层级预测等，然后再通过声学模型，预测各个单元对应的声学特征，最后利用声学参数直接通过声码器合成声音，或者从录音词库中挑选单元进行拼接，以生成与文本对应的声音信息。其中多音字预测是整个语音合成系统的基础之一，多音字朗读的正确与否，极大地影响了听者对合成声音语义的理解情况，如果多音字预测准确率高，可以大大改善用户体验，使合成出来的语音易于理解，听起来也更佳自然流畅。现有的多音字发音策略多采用如下方法：若多音字可以和上下文组成词语，则按照固定搭配中的多音字来进行播报，例如重点、重新；若多音字以单字形式出现，则基于大量数据训练模型的方法来决定发音，例如为人民服务、结果为零。在语音合成技术中，常用的大量训练数据模型的方法包括但不限于：CRF(条件随机场)方法，HMM(隐马尔科夫模型)方法，决策树方法等等。这些方法的特点是需要大量多音字的标注信息来进行训练。优点是可以仅凭文本信息来预测多音字的发音，且对于出现在常见上下文语境中的多音字预测准确率较高；缺点是对于训练数据中...
语音交互过程中的多音字播报方法及系统

【技术保护点】
一种语音交互过程中的多音字播报方法，其特征在于，包括如下步骤：a.获取语音信息；b.识别所述语音信息，通过识别得出所述语音信息对应的文本信息和音素信息；c.执行所述文本信息的指令并形成相应的反馈信息；d.对所述反馈信息进行注音：查找所述反馈信息中是否包括多音字，若查找到多音字，将反馈信息与所述文本信息进行比对，若比对成功，从所述音素信息中获取发音并对反馈信息中的多音字进行注音；若比对不成功，则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音；e.对所述反馈信息进行播报。

【技术特征摘要】
1.一种语音交互过程中的多音字播报方法，其特征在于，包括如下步骤：a.获取语音信息；b.识别所述语音信息，通过识别得出所述语音信息对应的文本信息和音素信息；c.执行所述文本信息的指令并形成相应的反馈信息；d.对所述反馈信息进行注音：查找所述反馈信息中是否包括多音字，若查找到多音字，将反馈信息与所述文本信息进行比对，若比对成功，从所述音素信息中获取发音并对反馈信息中的多音字进行注音；若比对不成功，则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音；e.对所述反馈信息进行播报。2.根据权利要求1所述的语音交互过程中的多音字播报方法，其特征在于：在所述步骤b中，还包括将所述文本信息和音素信息作为先验信息进行存储。3.根据权利要求2所述的语音交互过程中的多音字播报方法，其特征在于：所述反馈信息播报结束后，释放预先存储的先验信息。4.根据权利要求1所述的语音交互过程中的多音字播报方法，其特征在于：在所述步骤c中，所述反馈信息是文本形式的信息。5.根据权利要求1所述的语音交互过程中的多音字播报方法，其特征在于：在所述步骤d中，还包括对所述反馈信息中的单音字进行注音。6.根据权利要求1所述的语音交互过程中的多音字播报方法，其特征在于：在所述步骤d中，若在所述反馈信息中未查找到多音字，则直接对反馈信息进行注音。7.一种实施如权利要求1至6中任一项所述的语音交互过程中的多音字播...

【专利技术属性】
技术研发人员：王鸣，
申请(专利权)人：上海语知义信息技术有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人