本公开实施例提供了一种文本到语音的转换处理方法、装置及电子设备,属于计算机应用技术领域。其中方法包括:获取待转换的目标文本;将目标文本输入端对端从文本到语音系统,获得初始合成音频;利用预设的纠错模型,查找初始合成音频中的错误字段;对初始合成音频中的错误字段进行修复,得到可用合成音频;将可用合成音频作为目标文本转换得到的音频输出。通过本公开的方案,在音频合成模型后新增一个纠错过程,对合成音频进行评估、定位和纠错,将错误句子中的错误字替换为新的备选字,并在语音数据库中找到替换字的波形信息与原句拼接,从而得到新的、完整的无错漏字的语音合成语句,有效提高了文本到语音的转换处理效率和准确度。
Text to speech conversion processing method, device and electronic equipment
【技术实现步骤摘要】
文本到语音的转换处理方法、装置及电子设备
本公开涉及计算机
,尤其涉及一种文本到语音的转换处理方法、装置及电子设备。
技术介绍
语音合成的发展历程主要分为三个阶段,分别为波形拼接法、参数合成法和端到端语音合成法。针对参数法的各项问题,基于端到端模型的从文本到语音系统(TextToSpeech,简称TTS)合成法成为新的主流合成方法。这种方法摒弃了参数合成中的多个复杂模块结合的方法,直接从文本生成音频。这种端到端的方式,减少了特征工程,只需要输入文本,其他的特征模型均可以通过端到端模型隐式建模。避免了多个子模型的误差传递和积累,各种条件添加方便,如语种、说话人、情感信息等。同时这种模型生成的语音细节丰富,能够大幅度还原人声。这种模型的缺点,同时也是本专利需要解决的问题,即模型性能不稳定,实验证明,这种模型经常会出现错字和漏字的情况,如漏字问题,或者多音字读错的问题,前者属于前端问题,而后者则属于难以定位的后端模型问题,两者都会或多或少不可避免的发生。对于参数合成法我们能够精准定位问题出现在哪个模块,可以直接修改,但对于端到端模型就变得非常困难,由于模型是一个黑盒,因此很难定位问题位置,排错需要重新准备数据、再次训练,且再次训练也不一定能克服那些问题,代价很大,需要多次实验不断训练,不仅难定位,训练周期长,还可能依然无法解决当前漏字错字的问题。对于语音合成来说,有两个基本标准,其一是准确度,其二是自然度。对于语音合成的音频来说,首要任务是要读准,其次才是要求它读的自然流畅。Tacotron、Tacotron2等端到端TTS模型相对参数合成法在自然度上有很大提升,但是错漏字问题直接影响了语音合成中的准确度问题。对于语音交互系统来说,如果准确度出现问题,再自然流畅也没有意义。因此,针对此类问题,本文专利技术了一种端到端TTS系统的纠错模型,旨在解决该系统的错漏字问题,促使整体语音交互过程更加准确流畅。对于这种问题,现有的解决方案之一是改善源数据。对于现在有的端到端TTS系统,所需数据相对语音识别等数据较少,总共十几个小时就可以得到比较好的音色。所用数据的数量和质量对合成效果起到了决定性作用。碰到这种问题时候,可以通过增加数据集的数量,或者提高数据集的质量,来使得端到端模型收敛的结果质量更好。高质量数据的获取成本极高,同时更换数据集需要与源数据集有相同的音色,这可能直接造成数据获取阶段的成本累加。其次,这种方法并未从模型层面解决问题,同样的模型针对其他数据无法再次投入使用,不具有通用性。可见,现有的文本到语音的转换方案存在通用性及准确性较差的技术问题。
技术实现思路
有鉴于此,本公开实施例提供一种文本到语音的转换处理方法、装置及电子设备,至少部分解决现有的文本到语音的转换方案中存在通用性及准确性较差的技术问题。第一方面,本公开实施例提供了一种文本到语音的转换处理方法,包括:获取待转换的目标文本;将所述目标文本输入端对端从文本到语音系统,获得初始合成音频;利用预设的纠错模型,查找所述初始合成音频中的错误字段;对所述初始合成音频中的错误字段进行修复,得到可用合成音频;将所述可用合成音频作为所述目标文本转换得到的音频输出。根据本公开实施例的一种具体实现方式,所述利用预设的纠错模型,查找所述初始合成音频中的错误字段的步骤,包括:对所述初始合成音频进行语音识别,获得对应的可读文本;利用所述纠错模型,查找所述可读文本中的错误字段,其中,所述错误字段包括错别字字段和漏字字段。根据本公开实施例的一种具体实现方式,所述利用所述纠错模型,查找所述可读文本中的错误字段的步骤,包括:将所述可读文本进行前期处理,得到预设格式语句;计算所述预设格式语句的流畅度分数;若所述预设格式语句的流畅度分数小于或者等于第一预设阈值,则执行查找所述可读文本中的错误字段的操作;若所述预设格式语句的流畅度分数大于所述第一预设阈值,则直接将所述初期合成音频作为所述可用合成音频。根据本公开实施例的一种具体实现方式,所述计算所述预设格式语句的流畅度分数的步骤,包括:计算所述预设格式语句中每个分词出现的概率;将所述预设格式的语句中全部分词出现的概率相乘后取对数值,作为所述预设格式语句的流畅度分数。根据本公开实施例的一种具体实现方式,所述查找所述可读文本中的错误字段的步骤,包括:确定流畅度分数小于或者等于第一预设阈值的异常语句;依据预设的词汇邻接概率表,计算所述异常语句中每个分词与邻接词汇的邻接概率;将邻接概率小于或者等于第二预设阈值的分词作为所述异常语句中的错误字段。根据本公开实施例的一种具体实现方式,所述利用所述纠错模型,查找所述可读文本中的错误字段的步骤之前,所述方法还包括:采集预设数量的样本语句;为每个所述样本语句匹配对应的错别字语句和漏字语句;将每个所述样本语句及对应的错别字语句和漏字语句均输入到深度神经网络,得到所述纠错模型。根据本公开实施例的一种具体实现方式,所述将每个所述样本语句及对应的错别字语句和漏字语句均输入到深度神经网络,得到所述纠错模型的步骤,包括:将每个错别字语句中的错别字位置进行错别字标注,以及,将每个漏字语句中的漏字位置进行漏字标注;将标注后的错别字语句和漏字语句输入到双向GRU模型中,进行向量化;训练深度学习网络学习所述错别字语句中的错别字特征和漏字语句中的漏字特征,得到所述纠错模型。根据本公开实施例的一种具体实现方式,所述对所述初始合成音频中的错误字段进行修复,得到可用合成音频的步骤,包括:获取所述初始合成音频中的错误字段的前向字段;查找与所述错误字段的前向字段匹配的备选字段;利用所述备选字段替换所述初始合成音频中的所述错误字段,得到所述可用合成音频。根据本公开实施例的一种具体实现方式,所述查找与所述错误字段的前向字段匹配的备选字段的步骤,包括:在预设词汇库中查找与所述错误字段的前向字段匹配的多个第一目标字段;计算每个第一目标字段与所述错误字段的前向字段的匹配分数;从全部第一目标字段中筛选出匹配分数大于或者等于第二预设阈值的第二目标字段,作为所述备选字段。根据本公开实施例的一种具体实现方式,所述从全部第一目标字段中筛选出匹配分数大于或者等于第二预设阈值的第二目标字段,作为所述备选字段的步骤,包括:将每个所述第二目标字段代替异常语句中的错误字段,获得所在异常语句的备用流畅度分数;将备用流畅度分数大于或者等于第三预设阈值的异常语句对应的第二目标字段作为所述备选字段。第二方面,本公开实施例提供了一种文本到语音的转换处理装置,包括:获取模块,用于获取待转换的目标文本;合成模块,用于将所述目标文本输入端对端从文本到语音系统,获得初始合成音频;纠错模块,用于利用预设的纠错模型,查找所述初始合成音频中的本文档来自技高网...
【技术保护点】
1.一种文本到语音的转换处理方法,其特征在于,包括:/n获取待转换的目标文本;/n将所述目标文本输入至语译系统,获得初始合成音频;/n利用预设的纠错模型,查找所述初始合成音频中的错误字段;/n对所述初始合成音频中的错误字段进行修复,得到可用合成音频;/n将所述可用合成音频作为所述目标文本转换得到的音频输出。/n
【技术特征摘要】
1.一种文本到语音的转换处理方法,其特征在于,包括:
获取待转换的目标文本;
将所述目标文本输入至语译系统,获得初始合成音频;
利用预设的纠错模型,查找所述初始合成音频中的错误字段;
对所述初始合成音频中的错误字段进行修复,得到可用合成音频;
将所述可用合成音频作为所述目标文本转换得到的音频输出。
2.根据权利要求1所述的方法,其特征在于,所述利用预设的纠错模型,查找所述初始合成音频中的错误字段的步骤,包括:
对所述初始合成音频进行语音识别,获得对应的可读文本;
利用所述纠错模型,查找所述可读文本中的错误字段,其中,所述错误字段包括错别字字段和漏字字段。
3.根据权利要求2所述的方法,其特征在于,所述利用所述纠错模型,查找所述可读文本中的错误字段的步骤,包括:
将所述可读文本进行前期处理,得到预设格式语句;
计算所述预设格式语句的流畅度分数;
若所述预设格式语句的流畅度分数小于或者等于第一预设阈值,则执行查找所述可读文本中的错误字段的操作;
若所述预设格式语句的流畅度分数大于所述第一预设阈值,则直接将所述初期合成音频作为所述可用合成音频。
4.根据权利要求3所述的方法,其特征在于,所述计算所述预设格式语句的流畅度分数的步骤,包括:
计算所述预设格式语句中每个分词出现的概率;
将所述预设格式的语句中全部分词出现的概率相乘后取对数值,作为所述预设格式语句的流畅度分数。
5.根据权利要求4所述的方法,其特征在于,所述查找所述可读文本中的错误字段的步骤,包括:
确定流畅度分数小于或者等于第一预设阈值的异常语句;
依据预设的词汇邻接概率表,计算所述异常语句中每个分词与邻接词汇的邻接概率;
将邻接概率小于或者等于第二预设阈值的分词作为所述异常语句中的错误字段。
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述利用所述纠错模型,查找所述可读文本中的错误字段的步骤之前,所述方法还包括:
采集预设数量的样本语句;
为每个所述样本语句匹配对应的错别字语句和漏字语句;
将每个所述样本语句及对应的错别字语句和漏字语句均输入到深度神经网络,得到所述纠错模型。
7.根据权利要求6所述的方法,其特征在于,所述将每个所述样本语句及对应的错别字语句和漏字语句均输入到深度神经网络,得到所述纠错模型的步骤,包括:
将每个错别字语句中的错别字位置进行错别字标注,以及,...
【专利技术属性】
技术研发人员:杜慷,陈孝良,冯大航,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。