一种文本语音的前端转换方法、装置、设备和存储介质制造方法及图纸

技术编号:24689907 阅读:30 留言:0更新日期:2020-06-27 09:48
本发明专利技术实例公开了一种文本语音的前端转换方法、装置、设备和存储介质。其中,该方法包括:根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征;借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。本发明专利技术实施例提供的技术方案,实现文本到携带语音播放标准的拼音序列之间端到端的转换,无需通过串联合并后的各个文本处理模块依次流式处理该待转换文本,避免串联后的流式文本语音的前端转换时导致的误差累积,同时降低语音合成过程中前端文本处理的难度,提高文本语音在前端转换时的准确性和稳定性。

A method, device, device and storage medium of text to speech front-end conversion

【技术实现步骤摘要】
一种文本语音的前端转换方法、装置、设备和存储介质
本专利技术实施例涉及语音合成
,尤其涉及一种文本语音的前端转换方法、装置、设备和存储介质。
技术介绍
随着智能语音技术的迅猛发展,语音交互已经成为众多智能设备中人机交互的必选方案,而实现人机交互过程中必不可少的一环就是语音合成技术,也就是将设备内产生的或外部输入的特定文字信息转换为相应的语音信号进行播放;此时,语音合成过程主要分为前端文本处理、声学模型和声码器三部分,其中伴随着声学模型和声码器中部分技术壁垒的不断减少,前端文本处理成为阻碍语音合成技术发展以及影响合成语音质量的关键,因此对于前端文本处理技术需要进行不断优化。目前,语音合成技术的前端文本处理过程包括文本正则化、文字分割、词性标注、韵律预测、汉字转拼音和多音字消歧等步骤,针对每一步骤分别设置对应的文本处理模块,进而顺序执行对应的文本处理操作,此时每个文本处理模块往往分别单独处理,同时按照执行顺序依次将训练完成后的各个文本处理模块串联合并,得到最终的前端文本处理系统,此时文字分割、词性标注和韵律预测模块,虽有众多机器学习和深度学习方法被提出,但每个文本处理模块之间相互独立且均需要使用较为复杂的网络来实现,使得每一文本处理模块对相关背景知识要求甚高,而且容易耗费大量人力,而且文本处理模块之间的串联合并也会导致各个步骤中文本处理产生的误差累积,使得前端文本处理存在一定缺陷,从而影响最终合成的语音质量。
技术实现思路
本专利技术实施例提供了一种文本语音的前端转换方法、装置、设备和存储介质,避免串联后的流式文本语音的前端转换时导致的误差累积,提高文本语音在前端转换时的准确性。第一方面,本专利技术实施例提供了一种文本语音的前端转换方法,该方法包括:根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征;借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。第二方面,本专利技术实施例提供了一种文本语音的前端转换装置,该装置包括:辅助特征提取模块,用于根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征;文本语音转化模块,用于借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。第三方面,本专利技术实施例提供了一种设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的文本语音的前端转换方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的文本语音的前端转换方法。本专利技术实施例提供的一种文本语音的前端转换方法、装置、设备和存储介质,首先根据待转换文本的正则文本特征对该待转换文本进行初步的语音辅助转换,从而提取出该待转换文本的辅助文本特征,后续直接借助该辅助文本特征对该待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列,实现文本到携带语音播放标准的拼音序列之间端到端的转换,无需通过串联合并后的各个文本处理模块依次流式处理该待转换文本,避免串联后的流式文本语音的前端转换时导致的误差累积,同时降低语音合成过程中前端文本处理的难度,提高文本语音在前端转换时的准确性和稳定性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1A为本专利技术实施例一提供的一种文本语音的前端转换方法的流程图;图1B为本专利技术实施例一提供的文本语音的前端转换过程的原理示意图;图2A为本专利技术实施例二提供的一种文本语音的前端转换方法的流程图;图2B为本专利技术实施例二提供的方法中对待转换文本进行语音辅助处理的原理示意图;图3A为本专利技术实施例三提供的文本语音的前端转换方法中各功能模块的训练方法的流程图;图3B为本专利技术实施例三提供的方法中训练辅助处理模块和文本解码模块的原理示意图;图4为本专利技术实施例四提供的一种文本语音的前端转换装置的结构示意图;图5为本专利技术实施例五提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。实施例一图1A为本专利技术实施例一提供的一种文本语音的前端转换方法的流程图,本实施例可适用于任一语音合成技术的前端文本处理阶段内。本实施例提供的一种文本语音的前端转换方法可以由本专利技术实施例提供的文本语音的前端转换装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中。具体的,参考图1A,该方法可以包括如下步骤:S110,根据待转换文本的正则文本特征对待转换文本进行语音辅助处理,提取待转换文本的辅助文本特征。具体的,目前实现人机交互过程中必不可少的一环是语音合成技术(TextToSpeech,TTS),也就是将设备自身产生的或者外部输入的文字信息转换为可以听懂的流畅的汉语口语进行输出,语音合成过程中可以包括前端文本处理、声学模型和声码器三部分,其中前端文本处理主要负责对文本信息进行初步的前端语音处理,以得到转换后基本的语音序列,声学模型主要负责对转换后的语音序列中包含的语言学特征进行分析和后端语音处理,声码器主要负责将声学模型处理后的语音序列转换为相应的语音波形,从而进行语音播放。由于现有的声学模型和声码器均已经实现端到端的方案,从而保证后端语音合成具备甚佳的合成效果,因此本实施例主要针对前端文本处理的方案进行优化,以进一步提高语音合成的质量。示例性的,本实施例中的待转换文本可以是指人机交互时设备针对用户发起的输入语音进行回复时,自身产生的或者外部输入的需要转换为语音形式播放给该用户的文本信息;同时,由于待转换文本中可能存在某类形式复杂且难于归纳的无法实现语音合成的字母、符号或者公式等非汉字字符串,因此为了保证待转换文本中文字信息的准确转换,本实施例会预先对该待转换文本内的文字信息进行正则化处理,以得到该待转换文本的正则文本特征,该正则文本特征能够将待转换文本中的各类非汉字字符串转换为相应含义的汉字字符串。可选的,在确定本次语音合成的待转换文本后,首先通过对该待转换文本中的各类文字进行正则化处理,从而得到该待转换文本的正则文本特征,此时为了避免现有技术中串联后的流式文本语音的前端转换时导致的误差累积,本实施例首先会根据该待转换文本的正则文本特征对该待转换文本进行初步的语音辅助处理,本次语音辅助处理可以是指对待转换文本文档来自技高网...

【技术保护点】
1.一种文本语音的前端转换方法,其特征在于,包括:/n根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征;/n借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。/n

【技术特征摘要】
1.一种文本语音的前端转换方法,其特征在于,包括:
根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,提取所述待转换文本的辅助文本特征;
借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,得到携带语音播放标准的拼音序列。


2.根据权利要求1所述的方法,其特征在于,所述根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理,包括:
将待转换文本的正则文本特征输入预先构建的辅助处理模块中,对所述待转换文本进行文字分割和词性标注,所述辅助文本特征包括所述待转换文本的分词结果和各分词的词性信息。


3.根据权利要求1所述的方法,其特征在于,借助所述辅助文本特征对所述待转换文本的正则文本特征进行前端解码,包括:
将所述正则文本特征和所述辅助文本特征同时输入预先构建的文本解码模块中,得到携带语音播放标准的拼音序列。


4.根据权利要求1所述的方法,其特征在于,在根据待转换文本的正则文本特征对所述待转换文本进行语音辅助处理之前,还包括:
提取历史文本的历史正则文本特征,并确定所述历史文本的辅助标签和解码标签;
将所述历史正则文本特征输入预设的辅助处理模块中,提取所述历史文本的历史辅助文本特征,并根据所述辅助标签和所述历史辅助文本特征确定对应的辅助损失;
将所述历史正则文本特征和所述历史辅助文本特征同时输入预设的文本解码模块中,得到携带语音播放标准的历史拼音序列,并根据所述解码标签和所述历史拼音序列确定对应的解码损失;
确定所述辅助损失和所述解码损失整合后的联合约束损失,并根据所述联合约束损失同时训练所述辅助处理模块和所述文本解码模块。


5.根据权利要求4所述的方法,其特征在于,所述辅助损失包括分词损失和词性损失。

【专利技术属性】
技术研发人员:崔智语
申请(专利权)人:广州市百果园信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1