一种语音数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:35100004 阅读:25 留言:0更新日期:2022-10-01 17:06
本申请实施例公开了一种语音数据处理方法、装置、计算机设备及存储介质,该语音数据处理方法包括:对目标语音数据进行语音识别处理,得到目标语音数据的语音识别结果,语音识别结果包括文本信息和发音信息;对文本信息进行后验纠错处理,得到目标语音数据对应的参考文本;根据参考文本的参考发音信息和目标语音数据的发音信息,确定目标语音数据的发音标准度。采用本申请实施例,无需预先提供参考文本,可以通过后验纠错处理获取参考文本,从而能够准确识别任意语音数据的发音标准度,提高场景通用性。通用性。通用性。

【技术实现步骤摘要】
一种语音数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种语音数据处理方法、一种语音数据处理装置、一种计算机设备以及一种计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的发展,语音识别技术取得了显著的进步并且已经广泛地应用在各种语音交互的场景下,譬如口语考试、普通话评审、人机交流等场景,从而为人们带来了诸多便利。
[0003]在一些需要判断说话人的发音标准度的场景下,通常采用的处理方式是给定一段特定的测试文本,通过处理朗读该测试文本的语音判断说话人相应的发音水平和等级。然而,在此方式下,由于测试文本的局限性,对于说话人的任意一段语音可能会存在不能判断出发音水平的情况,想要获取发音人自然状态下的发音标准度是比较困难的,因此,有必要探究一种新的处理机制解决此类问题。

技术实现思路

[0004]本申请实施例提供一种语音数据处理方法、装置、计算机设备及存储介质,无需预先提供参考文本,可以通过后验纠错处理获取参考文本,从而能够准确识别任意语音数据的发音标准度,提高场景通用性。
[0005]一方面,本申请实施例提供了一种语音数据处理方法,包括:
[0006]对目标语音数据进行语音识别处理,得到目标语音数据的语音识别结果,语音识别结果包括文本信息和发音信息;
[0007]对文本信息进行后验纠错处理,得到目标语音数据对应的参考文本;
[0008]根据参考文本的参考发音信息和目标语音数据的发音信息,确定目标语音数据的发音标准度
[0009]一方面,本申请实施例提供了一种语音数据处理装置,包括:
[0010]处理模块,用于对目标语音数据进行语音识别处理,得到目标语音数据的语音识别结果,语音识别结果包括文本信息和发音信息;
[0011]处理模块,用于对文本信息进行后验纠错处理,得到目标语音数据对应的参考文本;
[0012]确定模块,用于根据参考文本的参考发音信息和目标语音数据的发音信息,确定目标语音数据的发音标准度。
[0013]相应地,本申请实施例提供了一种计算机设备,包括:处理器、存储器以及网络接口;处理器与存储器、网络接口相连,其中,网络接口用于提供网络通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行本申请实施例中语音数据处理方法。
[0014]相应地,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施
例中语音数据处理方法。
[0015]相应地,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序或计算机指令,计算机程序或计算机指令被处理器执行时实现本申请实施例的语音数据处理方法。
[0016]在本申请实施例中,支持对任意语音数据进行语音识别处理,得到包含文本信息和发音信息的语音识别结果,基于对文本信息的后验纠错处理可确定参考文本,该参考文本可作为评测目标语音数据的发音标准的参考数据,具体可以通过参考文本的参考发音信息和识别得到的发音信息来确定目标语音数据的发音标准度。可见,在此过程中,并不需要预先给定参考文本,而是通过后验纠错处理模拟人脑获取到文本后可自动对文本进行纠错得到正确文本的方式,来获取目标语音数据对应的参考文本。由于任意的语音数据可在处理过程中获取到对应的参考文本,不会由于参考文本预先给定的内容限制而不能准确地识别一段语音的发音标准程度,从而能够适用于发音人在任意自然状态下的语音的发音标准度的准确评测,提高在各种场景下的通用性。
附图说明
[0017]图1是本申请实施例提供的一种语音数据处理系统的架构图;
[0018]图2是本申请实施例提供的一种语音数据处理方法的流程示意图一;
[0019]图3是本申请实施例提供的一种语音数据处理方法的流程示意图二;
[0020]图4是本申请实施例提供的一种语音数据处理方法的流程示意图三;
[0021]图5是本申请实施例提供的一种输出提示的效果示意图;
[0022]图6是本申请实施例提供的一种评测发音标准度并输出提示的流程图;
[0023]图7是本申请实施例提供的一种语音数据处理装置的结构示意图;
[0024]图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0025]为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
[0026]自动语音识别技术:Automatic Speech Recognition,简称ASR。由机器自动将语音内容转换为文本的技术。
[0027]CTC:Connectionist Temporal Classification,准则及其变形。一种常用在语音识别、文本识别等领域的算法,用来解决输入和输出序列长度不一、无法对齐的问题。
[0028]MFCC:Mel Frequency Cepstrum Coefficient,Mel频率倒谱系数。基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度,通常作为语音识别中常用的语音特征。
[0029]Levenshtein距离:又称为莱文斯坦距离,是一种编辑距离。指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换为另一个字符,插入一个字符,删除一个字符。
[0030]音素:根据语音的自然属性划分出来的最小语音单位。音素可以根据发音动作来描写,例如[ma]包含[m]和[a]两个发音动作,是两个音素。其中发音动作是指发出语音所需
的动作,例如发音动作为上唇和下唇闭拢,声带振动,气流从鼻腔流出发音。
[0031]基于上述术语及概念,下面将结合附图,对本申请实施例提供的语音数据处理系统的架构进行介绍。
[0032]请参见图1,图1是本申请实施例提供的一种语音数据处理系统的架构图。如图1所示,该语音数据处理系统包括终端设备100和服务器101,终端设备可以和服务器101之间通过有线或无线的方式建立通信连接。
[0033]终端设备100用于采集目标语音数据,该目标语音数据可以是发音人在任意状态下的任一句话或者是一段话的语音数据。终端设备100可以将采集到的目标语音数据发送给服务器101,由服务器101处理该目标语音数据。在一种实现方式中,终端设备100可以接收服务器101返回的数据处理结果(例如语音识别结果、发音标准度)并输出以提示发音人语音数据的评测情况等。例如在终端设备100中输出识别出来的文本和拼音,以及目标语音数据的发音标准度,以给出评价和提示信息供发音人查看。需要说明的是,上述终端设备包括但不限于:手机、电脑、智能语音互动设备、智能家电、车载终端、飞行器等等设备,本申请对此不作限制。对于终端设备的数量,本申请不做限制。
[0034]服务器101用于对目标语音数据进行处理。该处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,所述方法包括:对目标语音数据进行语音识别处理,得到所述目标语音数据的语音识别结果,所述语音识别结果包括文本信息和发音信息;对所述文本信息进行后验纠错处理,得到所述目标语音数据对应的参考文本;根据所述参考文本的参考发音信息和所述目标语音数据的发音信息,确定所述目标语音数据的发音标准度。2.如权利要求1所述的方法,其特征在于,所述文本信息包括至少一个文本片段,所述至少一个文本片段基于对所述文本信息进行文本断句得到;所述对所述文本信息进行后验纠错处理,得到所述目标语音数据对应的参考文本,包括:对所述目标语音数据的文本信息包括的每个文本片段进行语意识别处理,得到所述每个文本片段的语意完整度;根据所述每个文本片段的语意完整度确定所述目标语音数据的至少一个参考文本片段;根据所述至少一个参考文本片段生成所述目标语音数据对应的参考文本。3.如权利要求2所述的方法,其特征在于,所述根据所述每个文本片段的语意完整度确定所述目标语音数据的至少一个参考文本片段,包括:针对所述目标语音数据的文本信息包括的目标文本片段,若所述目标文本片段的语意完整度指示所述目标文本片段的语意完整,则将所述目标文本片段确定为参考文本片段,所述目标文本片段为所述文本信息包括的至少一个文本片段中的任意一个;若所述目标文本片段的语意完整度指示所述目标文本片段的语意不完整,则对所述目标文本片段进行调整,并基于调整后的目标文本片段确定所述目标文本片段对应的参考文本片段。4.如权利要求3所述的方法,其特征在于,所述对所述目标文本片段进行调整,包括:对所述目标文本片段中的任一个原始处理对象进行掩码处理,得到处理后的目标文本片段;调用语言表征模型对所述处理后的目标文本片段进行预测处理,得到所述目标文本片段中的掩码位置处的至少一个候选对象;根据所述至少一个候选对象调整所述目标文本片段。5.如权利要求4所述的方法,其特征在于,所述根据所述至少一个候选对象调整所述目标文本片段,包括:获取所述至少一个候选对象各自对应的预测概率,所述预测概率用于反映所述掩码位置处的内容为候选对象的可能性;将所述至少一个候选对象中预测概率最大的候选对象作为第一候选对象,判断所述第一候选对象是否为所述掩码位置处的原始处理对象;若所述第一候选对象不为所述掩码位置处的原始处理对象,则计算所述第一候选对象的发音信息与所述掩码位置处的发音信息之间的相似度;若所述相似度小于预设相似度阈值,则将所述至少一个候选对象中的第二候选对象作为所述第一候选对象,...

【专利技术属性】
技术研发人员:张欢韵
申请(专利权)人:深圳华策辉弘科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1