错误音素识别方法及装置制造方法及图纸

技术编号:26847585 阅读:33 留言:0更新日期:2020-12-25 13:12
本说明书提供错误音素识别方法及装置,其中错误音素识别方法包括:确定针对目标文本的至少一个待识别音素序列,并统计至少一个待识别音素序列中参考音素序列出现的初始频次,其中,参考音素序列为对至少一个待识别音素序列分类得到;根据目标文本的标准音素序列,确定参考音素序列中目标文字对应的错误音素范围;根据参考音素序列出现的初始频次以及错误音素范围中预估错误音素出现的概率,确定并反馈参考音素序列中的错误音素。本说明书中可以基于大量真实场景下的语音数据,将语音数据识别出的音素序列与正确的音素序列进行对比,统计发音错误的音素,进而得到常见的错误发音,避免了人工介入,使得错误发音识别的结论更加可靠准确。

【技术实现步骤摘要】
错误音素识别方法及装置
本说明书涉及计算机
,特别涉及错误音素识别方法及装置。
技术介绍
在儿童的普通话发音中,存在一些常见的错误发音情况,此类错误发音不符合既定的语言学规则,但是会对普通口语评测、语音识别等任务带来影响,并且,具有一定的共性和规律性。然而,目前绝大多数错误发音识别的方法都是针对成人的发音,通过语言学规则识别可能存在的错误发音,主要倾向于发现方言、口音等问题导致的发音错误现象。但是这些错误发音对于幼儿和儿童来说是不完全适应的,因为除了方言、口音等问题,儿童的错误发音还主要来源于声道发育不成熟等生理学原因,所包含的错误发音类型相比于成人更加复杂多样,仅从语言学规则难以全面挖掘可能存在的错误发音。现有技术中,需要语言学专家的人工分析和干预,每种错误发音情况都需要语言学专家的分析与鉴定,才能加入到错误发音中,不仅成本高,还缺乏足够的灵活性。同时,语言学专家本身在判断错误发音时,具有一定的主观性。此外,语言学专家给出的结果通常局限于理论层面的分析,可能与真实的错误发音之间存在一定差异。进而需要更简单更准确的方法针对本文档来自技高网...

【技术保护点】
1.一种错误音素识别方法,其特征在于,所述方法包括:/n确定针对目标文本的至少一个待识别音素序列,并统计所述至少一个待识别音素序列中参考音素序列出现的初始频次,其中,所述参考音素序列为对所述至少一个待识别音素序列分类得到;/n根据所述目标文本的标准音素序列,确定所述参考音素序列中目标文字对应的错误音素范围;/n根据所述参考音素序列出现的初始频次以及所述错误音素范围中预估错误音素出现的概率,确定并反馈所述参考音素序列中的错误音素。/n

【技术特征摘要】
1.一种错误音素识别方法,其特征在于,所述方法包括:
确定针对目标文本的至少一个待识别音素序列,并统计所述至少一个待识别音素序列中参考音素序列出现的初始频次,其中,所述参考音素序列为对所述至少一个待识别音素序列分类得到;
根据所述目标文本的标准音素序列,确定所述参考音素序列中目标文字对应的错误音素范围;
根据所述参考音素序列出现的初始频次以及所述错误音素范围中预估错误音素出现的概率,确定并反馈所述参考音素序列中的错误音素。


2.根据权利要求1所述的错误音素识别方法,其特征在于,所述确定针对目标文本的至少一个待识别音素序列,包括:
获取针对所述目标文本录制的至少一个待识别语音;
对所述至少一个待识别语音进行音素识别,得到所述至少一个待识别音素序列。


3.根据权利要求2所述的错误音素识别方法,其特征在于,所述对所述至少一个待识别语音进行音素识别,得到所述至少一个待识别音素序列,包括:
针对所述至少一个待识别语音中的每个所述待识别语音,通过声学模型预测所述待识别语音的声学特征对应的预测音素;
通过语言模型获得所述待识别语音对应预测音素序列的概率;
根据所述待识别语音对应预测音素序列的概率,将所述预测音素构成的音素序列中概率最大的目标音素序列确定为所述待识别语音对应的待识别音素序列。


4.根据权利要求1所述的错误音素识别方法,其特征在于,所述统计所述至少一个待识别音素序列中参考音素序列出现的初始频次,包括:
对所述至少一个待识别音素序列进行分类,得到至少一类所述参考音素序列;
统计所述至少一类参考音素序列中每一类参考音素序列出现的初始频次。


5.根据权利要求1所述的错误音素识别方法,其特征在于,所述统计所述至少一个待识别音素序列中参考音素序列出现的初始频次,包括:
将所述目标文本的汉字序列依次和所述至少一个待识别音素序列进行组合,得到至少一组文本音素数据对;
对所述至少一组文本音素数据对进行分类,得到至少一类参考文本音素数据对;
统计所述至少一类参考文本音素数据对中每一类参考文本音素数据对出现的初始频次;
将所述参考文本音素数据对出现的初始频次,确定为所述参考音素序列出现的初始频次。


6.根据权利要求1所述的错误音素识别方法,其特征在于,所述根据所述目标文本的标准音素序列,确定所述参考音素序列中目标文字对应的错误音素范围之前,还包括:
获取所述目标文本的标准音素序列;或者,
获取所述目标文本对应的标准语音,对所述标准语音进行音素识别,获得所述标准音素序列。


7.根据权利要求1所述的错误音素识别方法,其特征在于,所述根据所述目标文本的标准音素序列,确定所述参考音素序列中目标文字对应的错误音素范围,包括:
确定所述参考音素序列与所述标准音素序列的最大公共子序列;
基于所述最大公共子序列,对所述参考音素序列进行划分,确定出所述目标文字对应的错误音素范围。


8.根据权利要求1所述的错误音素识别方法,其特征在于,所述根据所述参考音素序列出现的初始频次以及所述错误音素范围中预估错误音素出现的概率,确定并反馈所述参考音素序列中的错误音素,包括:
根据所述参考音素序列出现的初始频次,确定所述错误音素范围中预估错误音素出现的初始频次;
根据所述预估错误音素出现的概率,对所述预估错误音素出现的初始频次进行更新,获得所述预估错误音素的更新频次;
根据所述预估错误音素的更新频次,确定并反馈所述待识别音素序列中的错误音素。


9.根据权利要求8所述的错误音素识别方法,其特征在于,所述根据所述预估错误音素出现的概率,对所述预估错误音素出现的初始频次进行更新,获得所述预估错误音素的更新频次,包括:
设置所述预估错误音素出现的概率;
根据所述概率和所述预估错误音素出现的...

【专利技术属性】
技术研发人员:刘前高强夏龙吴凡卓邦声王宏伟郭常圳
申请(专利权)人:北京猿力未来科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1