一种基于人工智能的语音韵律处理方法及装置制造方法及图纸

技术编号:23316771 阅读:40 留言:0更新日期:2020-02-11 18:24
本发明专利技术提供了一种基于人工智能的语音韵律处理方法、装置、电子设备及存储介质;方法包括:接收待测语音数据、以及所述待测语音数据对应的文本数据;将所述待测语音数据与所述文本数据进行对齐处理,得到对齐结果;基于所述对齐结果,通过二语者树模型对所述待测语音数据进行韵律检测,得到第一检测结果,以及通过母语者树模型对所述待测语音数据进行韵律检测,得到第二检测结果;将所述第一检测结果和所述第二检测结果进行融合处理,并将融合后的检测结果确定为所述待测语音数据最终的韵律检测结果。通过本发明专利技术,能够准确检测出待测语音数据的发音韵律。

A method and device of speech prosody processing based on Artificial Intelligence

【技术实现步骤摘要】
一种基于人工智能的语音韵律处理方法及装置
本专利技术涉及人工智能的语音处理技术,尤其涉及一种基于人工智能的语音韵律处理方法、装置、电子设备及存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。其中,语音韵律检测是人工智能技术的一个重要应用领域,其主要用于对用户的语音数据进行韵律检测,通过检测出语音数据中出现的错误韵律,从而给用户提供实时的反馈与纠正,以帮助用户提高语言水平。然而,相关技术中缺乏能够准确检测出用户发音韵律的方案。
技术实现思路
本专利技术实施例提供一种基于人工智能的语音韵律处理方法、装置、电子设备及存储介质,能够准确检测出待测语音数据的发音韵律。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的语音韵律处理方法,包括:接收待测语音数据、以及所述待测语音数据对应的文本数据;将所述待测语音数据与所述文本数据进行对齐处理,得到对齐结果;基于所述对齐结果,通过二语者树模型对所述待测语音数据进行韵律检测,得到第一检测结果,以及通过母语者树模型对所述待测语音数据进行韵律检测,得到第二检测结果;将所述第一检测结果和所述第二检测结果进行融合处理,并将融合后的检测结果确定为所述待测语音数据最终的韵律检测结果。本专利技术实施例提供一种基于人工智能的语音韵律处理装置,所述装置包括:接收模块,用于接收待测语音数据、以及所述待测语音数据对应的文本数据;对齐模块,用于将所述待测语音数据与所述文本数据进行对齐处理,得到对齐结果;第一检测模块,用于基于所述对齐结果,通过二语者树模型对所述待测语音数据进行韵律检测,得到第一检测结果;第二检测模块,用于基于所述对齐结果,通过母语者树模型对所述待测语音数据进行韵律检测,得到第二检测结果;融合模块,用于将所述第一检测结果和所述第二检测结果进行融合处理,并将融合后的检测结果确定为所述待测语音数据最终的韵律检测结果。上述方案中,所述对齐模块,还用于将所述待测语音数据划分成N帧,提取每帧待测语音数据的音高和音强,并对所提取的音高和音强进行平滑处理,其中,N为正整数;对所述每帧待测语音数据的每个音素进行语音识别,得到所述每个音素对应的发音起止时间,以及通过帧数与时间的对应关系,得到所述每个音素对应的音高、音强、以及发音时长。上述方案中,所述第一检测模块包括:第一重音检测子模块、第一停顿检测子模块和第一边界调检测子模块;所述第一重音检测子模块,用于通过重音二语者树模型对所述待测语音数据的重读位置进行检测,得到第一重读位置;所述第一停顿检测子模块,用于通过停顿二语者树模型对所述待测语音数据的停顿位置进行检测,得到第一停顿位置;所述第一边界调检测子模块,用于通过边界调二语者树模型对所述待测语音数据的边界调类型进行检测,得到第一边界调类型。上述方案中,所述第一重音检测子模块,还用于获取二语者语音数据样本、以及对应的重读位置,对所述二语者语音数据样本进行韵律检测处理,得到音节音高、音强特征、归一化音高和音强、以及音节音高、音强变化趋势特征;从所述音节音高、音强特征、归一化音高和音强、以及音节音高、音强变化趋势特征中,选择具有分类能力的特征作为节点构造初始的重音二语者树模型;对所构造的初始的重音二语者树模型进行剪枝处理,得到用于检测所述第一重读位置的重音二语者树模型。上述方案中,所述第一停顿检测子模块,还用于获取二语者语音数据样本、以及对应的停顿位置,对所述二语者语音数据样本进行韵律检测处理,得到单词音高、音强特征、归一化静音时长、以及音高、音强变化趋势特征;从所述单词音高、音强特征、归一化静音时长、以及音高、音强变化趋势特征中,选择具有分类能力的特征作为节点构造初始的停顿二语者树模型;对所构造的初始的停顿二语者树模型进行剪枝处理,得到用于检测所述第一停顿位置的停顿二语者树模型。上述方案中,所述第一边界调检测子模块,还用于获取二语者语音数据样本、以及对应的边界调类型,对所述二语者语音数据样本进行韵律检测处理,得到不同粒度的发音特征、以及不同粒度的发音变化趋势特征;从所述不同粒度的发音特征以及不同粒度的发音变化趋势特征中,选择具有分类能力的特征作为节点构造初始的边界调二语者树模型;对所构造的初始的边界调二语者树模型进行剪枝处理,得到用于检测所述第一边界调类型的边界调二语者树模型。上述方案中,所述第二检测模块包括:第二重音检测子模块、第二停顿检测子模块和第二边界调检测子模块;所述第二重音检测子模块,用于通过重音母语者树模型对所述待测语音数据的重读位置进行检测,得到第二重读位置;所述第二停顿检测子模块,用于通过停顿母语者树模型对所述待测语音数据的停顿位置进行检测,得到第二停顿位置;所述第二边界调检测子模块,用于通过边界调母语者树模型对所述待测语音数据的边界调类型进行检测,得到第二边界调类型。上述方案中,所述第二重音检测子模块,还用于获取母语者语音数据样本、以及对应的重读位置,对所述母语者语音数据样本进行韵律检测处理,得到音节音高、音强特征、归一化音高和音强、以及音节音高、音强变化趋势特征;从所述音节音高、音强特征、归一化音高和音强、以及音节音高、音强变化趋势特征中,选择具有分类能力的特征作为节点构造初始的重音母语者树模型;对所构造的初始的重音母语者树模型进行剪枝处理,得到用于检测所述第二重读位置的重音母语者树模型。上述方案中,所述第二停顿检测子模块,还用于获取母语者语音数据样本、以及对应的停顿位置,对所述母语者语音数据样本进行韵律检测处理,得到单词音高、音强特征、归一化静音时长、以及音高、音强变化趋势特征;从所述单词音高、音强特征、归一化静音时长、以及音高、音强变化趋势特征中,选择具有分类能力的特征作为节点构造初始的停顿母语者树模型;对所构造的初始的停顿母语者树模型进行剪枝处理,得到用于检测所述第二停顿位置的停顿母语者树模型。上述方案中,所述第二边界调检测子模块,还用于获取母语者语音数据样本、以及对应的边界调类型,对所述母语者语音数据样本进行韵律检测处理,得到不同粒度的发音特征、以及不同粒度的发音变化趋势特征;从所述不同粒度的发音特征以及不同粒度的发音变化趋势特征中,选择具有分类能力的特征作为节点构造初始的边界调母语者树模型;对所构造的初始的边界调母语者树模型进行剪枝处理,得到用于检测所述第二边界调类型的边界调母语者树模型。上述方案中,所述融合模块,还用于对所述第一检测结果和所述第二本文档来自技高网...

【技术保护点】
1.一种基于人工智能的语音韵律处理方法,其特征在于,所述方法包括:/n接收待测语音数据、以及所述待测语音数据对应的文本数据;/n将所述待测语音数据与所述文本数据进行对齐处理,得到对齐结果;/n基于所述对齐结果,通过二语者树模型对所述待测语音数据进行韵律检测,得到第一检测结果,以及/n通过母语者树模型对所述待测语音数据进行韵律检测,得到第二检测结果;/n将所述第一检测结果和所述第二检测结果进行融合处理,并将融合后的检测结果确定为所述待测语音数据最终的韵律检测结果。/n

【技术特征摘要】
1.一种基于人工智能的语音韵律处理方法,其特征在于,所述方法包括:
接收待测语音数据、以及所述待测语音数据对应的文本数据;
将所述待测语音数据与所述文本数据进行对齐处理,得到对齐结果;
基于所述对齐结果,通过二语者树模型对所述待测语音数据进行韵律检测,得到第一检测结果,以及
通过母语者树模型对所述待测语音数据进行韵律检测,得到第二检测结果;
将所述第一检测结果和所述第二检测结果进行融合处理,并将融合后的检测结果确定为所述待测语音数据最终的韵律检测结果。


2.根据权利要求1所述的方法,其特征在于,所述将所述待测语音数据与所述文本数据进行对齐处理,得到对齐结果,包括:
将所述待测语音数据划分成N帧,提取每帧待测语音数据的音高和音强,并对所提取的音高和音强进行平滑处理,其中,N为正整数;
对所述每帧待测语音数据的每个音素进行语音识别,得到所述每个音素对应的发音起止时间,以及
通过帧数与时间的对应关系,得到所述每个音素对应的音高、音强、以及发音时长。


3.根据权利要求1所述的方法,其特征在于,
所述二语者树模型包括:重音二语者树模型、停顿二语者树模型和边界调二语者树模型;
所述通过二语者树模型对所述待测语音数据进行韵律检测,得到第一检测结果,包括:
通过所述重音二语者树模型对所述待测语音数据的重读位置进行检测,得到第一重读位置;
通过所述停顿二语者树模型对所述待测语音数据的停顿位置进行检测,得到第一停顿位置;
通过所述边界调二语者树模型对所述待测语音数据的边界调类型进行检测,得到第一边界调类型。


4.根据权利要求3所述的方法,其特征在于,通过所述重音二语者树模型对所述待测语音数据的重读位置进行检测之前,所述方法还包括:
获取二语者语音数据样本、以及对应的重读位置,对所述二语者语音数据样本进行韵律检测处理,得到音节音高、音强特征、归一化音高和音强、以及音节音高、音强变化趋势特征;
从所述音节音高、音强特征、归一化音高和音强、以及音节音高、音强变化趋势特征中,选择具有分类能力的特征作为节点构造初始的重音二语者树模型;
对所构造的初始的重音二语者树模型进行剪枝处理,得到用于检测所述第一重读位置的重音二语者树模型。


5.根据权利要求3所述的方法,其特征在于,通过所述停顿二语者树模型对所述待测语音数据的停顿位置进行检测之前,所述方法还包括:
获取二语者语音数据样本、以及对应的停顿位置,对所述二语者语音数据样本进行韵律检测处理,得到单词音高、音强特征、归一化静音时长、以及音高、音强变化趋势特征;
从所述单词音高、音强特征、归...

【专利技术属性】
技术研发人员:林炳怀王丽园
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1