一种文本的韵律识别方法、装置及应用制造方法及图纸

技术编号:37793604 阅读:9 留言:0更新日期:2023-06-09 09:23
本申请提供了一种文本的韵律识别方法、装置及应用,使得录制音频的韵律和标注文本中的韵律标签精确匹配。方法包括:获取第一说话人根据第一文本录制的第一音频;根据第一音频和第一文本,确定第一文本中与音频的停顿时间段对应的第一位置;将第一文本输入第一神经网络模型以预测第一中间韵律标签,获取第二文本,第二文本包括第一中间韵律标签和第一文本;确定第一中间韵律标签在第二文本中的第二位置;根据第一位置和第二位置,确定候选位置;根据候选位置、第一音频和第一文本,确定训练数据集以训练第二神经网络模型,使得第二神经网络模型学习韵律标签对应候选位置的特征;使用训练好的第二神经网络模型识别目标文本的韵律标签。标签。标签。

【技术实现步骤摘要】
一种文本的韵律识别方法、装置及应用


[0001]本申请涉及自然语言处理
,尤其涉及一种文本的韵律识别方法、装置及应用。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,可使机器具有感知、推理与决策的功能。随着人工智能技术的快速发展,自然语言处理技术也越来越成熟,在自然语言处理技术中,文本的韵律识别功能所占比重越来越大。
[0003]按照停顿的长短和位置,通常使用韵律标签#1、#2、#3和#4表示不同的停顿,其中,#1为韵律词的边界,表示短暂停顿;#2为韵律短语的边界,表示拉长音或者短暂停顿;#3表示语义完整的较明显停顿和语调下降;#4表示句末,是每个编号对应的句子结尾的标注。
[0004]目前,文本的韵律识别方案通常使用经过韵律标签标注的文本训练神经网络模型,使用训练好的神经网络模型来进行文本的韵律识别。但是,该方法仅基于文本的语义特征来识别文本的韵律,其文本的韵律识别结果在语音合成技术中并不适用。由于在制作训练语音合成模型所需的训练数据时,音频录制者无法完全按照根据文本的语义划分的韵律进行朗读,导致录制的音频文件中的韵律和基于文本的语义特征识别到的文本的韵律并不匹配,用这种韵律不匹配的语音音频和标注文本对语音合成模型进行训练,使得该模型无法学习到韵律的特征,从而造成合成的语音不能明显的体现出上述各个韵律标签表示的停顿。
[0005]因此,如何识别到和录制语音音频的韵律相匹配的文本的韵律成为亟待解决的问题。

技术实现思路

[0006]本申请提供了一种文本的韵律识别方法、装置及应用,能够使得录制的音频的韵律和标注的文本中的韵律标签精确匹配。
[0007]第一方面,提供了一种文本的韵律识别方法,包括:
[0008]获取第一说话人根据第一文本录制的第一音频;
[0009]根据第一音频和第一文本,确定第一文本的第一位置,第一位置为第一音频中第一说话人停顿的时间段对应的文字与文字之间,或者文字与标点符号之间的位置;
[0010]将第一文本输入到第一神经网络模型以预测第一中间韵律标签,获取第二文本,第二文本包括第一中间韵律标签和第一文本;
[0011]确定第一中间韵律标签在第二文本中的第二位置;
[0012]根据第一位置和第二位置,确定候选位置;
[0013]根据候选位置、第一音频和第一文本,确定训练数据集,训练数据集包括候选位置对应的韵律标签;
[0014]根据训练数据集训练第二神经网络模型,使得第二神经网络模型学习韵律标签对应的候选位置的特征;
[0015]使用训练好的第二神经网络模型识别目标文本的韵律标签。
[0016]在一个示例中,根据候选位置、第一音频和第一文本,确定训练数据集,包括:
[0017]根据候选位置,确定第一文本的至少一个片段和第一音频的至少一个片段,第一文本的至少一个片段与第一音频的至少一个片段一一对应,第一文本的至少一个片段中每一片段包括候选位置的标记;
[0018]获取第一文本的至少一个片段中每一片段的候选位置对应的韵律标签;
[0019]根据第一文本的至少一个片段、每一片段的候选位置对应的韵律标签和第一音频的至少一个片段,确定训练数据集。
[0020]在一个示例中,第二神经网络模型包括第一编码器、第二编码器、多模态融合器和韵律标签分类器,根据训练数据集训练第二神经网络模型,包括:
[0021]使用第一编码器对第一文本片段进行编码,获取第一文本片段的第一文本向量表征,第一文本片段包含于第一文本的至少一个片段;
[0022]使用第二编码器对第一音频片段进行编码,获取第一音频片段的第一音频向量表征,第一音频片段包含于第一音频的至少一个片段,第一文本片段与第一音频片段对应;
[0023]使用多模态融合器,对第一文本向量表征和第一音频向量表征进行特征融合,获取多模态向量表征;
[0024]使用韵律标签分类器对多模态向量表征进行计算,获取第一文本片段的候选位置对应的预测韵律标签;
[0025]根据预测韵律标签和第一文本片段的候选位置对应的韵律标签,更新第二神经网络模型的参数。
[0026]在一个示例中,根据第一音频和第一文本,确定第一文本的第一位置,包括:
[0027]基于蒙特利尔强制对准器MFA算法,根据第一文本和第一音频,获取第一音频中的停顿;
[0028]根据停顿,确定第一文本的第一位置。
[0029]在一个示例中,使用训练好的第二神经网络模型识别目标文本的韵律标签,包括:
[0030]获取第二说话人根据目标文本录制的目标音频;
[0031]根据目标音频和目标文本,确定目标文本的第三位置,第三位置为目标音频中第二说话人停顿的时间段对应的文字与文字之间,或者文字与标点符号之间的位置;
[0032]将目标文本输入到第一神经网络模型以预测第二中间韵律标签,获取中间目标文本,中间目标文本为包括第二中间韵律标签的目标文本;
[0033]确定第二中间韵律标签在中间目标文本中的第四位置;
[0034]根据第三位置和第四位置,确定目标文本的候选位置;
[0035]根据目标文本的候选位置更新目标文本,更新后的目标文本包括目标文本的候选位置的标记;
[0036]使用训练好的第二神经网络模型,识别更新后的目标文本的韵律标签。
[0037]在一个示例中,使用训练好的第二神经网络模型,识别更新后的目标文本的韵律标签,包括:
[0038]根据目标文本的候选位置,确定更新后的目标文本的至少一个片段和目标音频的至少一个片段,更新后的目标文本的至少一个片段与目标音频的至少一个片段一一对应,更新后的目标文本的至少一个片段中每一片段包括目标文本的候选位置的标记;
[0039]使用训练好的第二神经网络模型,识别更新后的目标文本的至少一个片段中每一片段的候选位置对应的韵律标签;
[0040]根据更新后的目标文本的至少一个片段中每一片段的候选位置对应的韵律标签,确定更新后的目标文本的韵律标签。
[0041]在一个示例中,第一神经网络模型为双向长短期记忆

条件随机场模型,或者基于跨度的韵律结构预测模型。
[0042]在一个示例中,根据第一位置和第二位置,确定候选位置,包括:
[0043]根据第一位置和第二位置,确定第二位置中与第一位置不同的位置;
[0044]根据第一位置和第二位置中与第一位置不同的位置,确定候选位置。
[0045]第二方面,本申请提供了一种文本的韵律识别装置,包括:
[0046]数据获取模块,用于获取第一说话人根据第一文本录制的第一音频;
[0047]第一位置确定模块,用于根据第一音频和第一文本,确定第一文本的第一位置,第一位置为第一音频中第一说话人停顿的时间段对应的文字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的韵律识别方法,其特征在于,包括:获取第一说话人根据第一文本录制的第一音频;根据所述第一音频和所述第一文本,确定所述第一文本的第一位置,所述第一位置为所述第一音频中所述第一说话人停顿的时间段对应的文字与文字之间,或者文字与标点符号之间的位置;将所述第一文本输入到第一神经网络模型以预测第一中间韵律标签,获取第二文本,所述第二文本包括所述第一中间韵律标签和所述第一文本;确定所述第一中间韵律标签在所述第二文本中的第二位置;根据所述第一位置和所述第二位置,确定候选位置;根据所述候选位置、所述第一音频和所述第一文本,确定训练数据集,所述训练数据集包括所述候选位置对应的韵律标签;根据所述训练数据集训练第二神经网络模型,使得所述第二神经网络模型学习所述韵律标签对应的所述候选位置的特征;使用训练好的所述第二神经网络模型识别目标文本的所述韵律标签。2.根据权利要求1所述的方法,其特征在于,所述根据所述候选位置、所述第一音频和所述第一文本,确定训练数据集,包括:根据所述候选位置,确定所述第一文本的至少一个片段和所述第一音频的至少一个片段,所述第一文本的至少一个片段与所述第一音频的至少一个片段一一对应,所述第一文本的至少一个片段中每一片段包括所述候选位置的标记;获取所述第一文本的至少一个片段中每一片段的所述候选位置对应的韵律标签;根据所述第一文本的至少一个片段、所述每一片段的所述候选位置对应的韵律标签和所述第一音频的至少一个片段,确定训练数据集。3.根据权利要求2所述的方法,其特征在于,所述第二神经网络模型包括第一编码器、第二编码器、多模态融合器和韵律标签分类器,所述根据所述训练数据集训练第二神经网络模型,包括:使用所述第一编码器对第一文本片段进行编码,获取所述第一文本片段的第一文本向量表征,所述第一文本片段包含于所述第一文本的至少一个片段;使用所述第二编码器对第一音频片段进行编码,获取所述第一音频片段的第一音频向量表征,所述第一音频片段包含于所述第一音频的至少一个片段,所述第一文本片段与所述第一音频片段对应;使用所述多模态融合器,对所述第一文本向量表征和所述第一音频向量表征进行特征融合,获取多模态向量表征;使用所述韵律标签分类器对所述多模态向量表征进行计算,获取所述第一文本片段的候选位置对应的预测韵律标签;根据所述预测韵律标签和所述第一文本片段的候选位置对应的韵律标签,更新所述第二神经网络模型的参数。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述根据所述第一音频和所述第一文本,确定所述第一文本的第一位置,包括:基于蒙特利尔强制对准器MFA算法,根据所述第一文本和所述第一音频,获取所述第一
音频中的停顿;根据所述停顿,确定所述第一文本的第一位置。5.根据权利要求1

3中任一项所述的方法,其特征在于,所述使用训练好的所述第二神经网络模型识别目标文本的所述韵律标签,包括:获取第二说话人根据所述目标文本录制的目标音频;根据所述目标音频和所述目标文本,确定所述目标文本的第三位置,所述第三位置为所述目标音频中所述第二说话人停顿的时间段对应的文字与文字之间,或者文字与标点符号之间的位置;将所述目标文本输入到所述第一神经网络模型以预测第二中间韵律标签,获取中间目标文本,所述中间目标文本为...

【专利技术属性】
技术研发人员:姚树杰赵言
申请(专利权)人:鼎富新动力北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1