数据分类和语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33886443 阅读:33 留言:0更新日期:2022-06-22 17:19
本发明专利技术提供一种数据分类和语音识别方法、装置、电子设备及存储介质,其中方法包括,确定待分类数据,待分类数据包括原始语音、识别文本和修改文本;确定待分类数据在预设特征下的特征值,预设特征用于表征识别文本和修改文本之间的差异信息和用户的用户信息;基于特征值,确定待分类数据的有效性分类结果。本发明专利技术提供的方法、装置、电子设备及存储介质,能够通过获取样本数据的候选特征中各个特征值,并根据候选特征中各个特征值对应的有效标注样本数和无效标注样本数,从候选特征中选取预设特征,实现了从候选特征中去除无效特征,在不影响有效性判断准确率的情况下,能够提高判断的执行效率。执行效率。执行效率。

【技术实现步骤摘要】
数据分类和语音识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种数据分类和语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,深度神经网络在数据使用方面,有监督学习依然在效果方面优于无监督学习,但是在语音识别方面,语音数据很容易获取,而大量语音数据的人工标注却很难获取,因此,在语音识别方面常使用弱监督标注的方式进行学习。
[0003]但现有的弱监督语音数据挑选方案,是通过比对识别文本与修改文本在音素层面的音素编辑距离,并将音素编辑距离作为弱监督标注质量好坏的判断依据,挑选方案过于单一,无法覆盖所有的情况,导致判断出错的可能性很大,进而影响语音识别模型的训练效果。

技术实现思路

[0004]本专利技术提供一种数据分类和语音识别方法、装置、电子设备及存储介质,用以解决现有技术中弱监督语音数据挑选方案中判断条件单一导致判断出错的缺陷。
[0005]本专利技术提供一种数据分类方法,包括:
[0006]确定待分类数据,所述待分类数据包括原始语音、识别文本和本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:确定待分类数据,所述待分类数据包括原始语音、识别文本和修改文本,所述识别文本是对所述原始语音进行语音识别得到的,所述修改文本是响应于用户的修改输入,对所述识别文本进行修改得到的;确定所述待分类数据在预设特征下的特征值,所述预设特征用于表征所述识别文本和所述修改文本之间的差异信息和所述用户的用户信息;基于所述特征值,确定所述待分类数据的有效性分类结果。2.根据权利要求1所述的数据分类方法,其特征在于,所述预设特征基于如下步骤确定:确定候选特征;基于样本数据在所述候选特征下的特征值,以及所述样本数据的有效性标注,确定所述候选特征的各个特征值分别对应的有效标注样本数和无效标注样本数;基于所述候选特征的各个特征值分别对应的有效标注样本数和无效标注样本数,判断是否将所述候选特征作为所述预设特征。3.根据权利要求2所述的数据分类方法,其特征在于,所述基于所述候选特征的各个特征值分别对应的有效标注样本数和无效标注样本数,判断是否将所述候选特征作为所述预设特征,包括:基于所述候选特征的各个特征值分别对应的有效标注样本数和无效标注样本数,确定所述候选特征与所述样本数据的有效性标注之间的相关度;若所述相关度大于预设阈值,则将所述候选特征作为所述预设特征。4.根据权利要求3所述的数据分类方法,其特征在于,所述基于所述候选特征的各个特征值分别对应的有效标注样本数和无效标注样本数,确定所述候选特征与所述样本数据的有效性标注之间的相关度,包括:基于所述候选特征中的任一特征值对应的有效标注样本数和无效标注样本数,确定所述任一特征值对应的有效标注样本数和无效标注样本数的离散程度;基于所述任一特征值对应的样本总数、所述样本数据的样本总数、以及所述任一特征值对应的有效标注样本数和无效标注样本数的离散程度,确定所述任一特征值与所述样本数据的有效性标注之间的相关度;基于所述候选特征的各特征值分别与所述样本数据的有效性标注之间的相关度,确定所述候选特征与所述样本数据的有效性标注之间的相关度。5.根据权利要求2至4中任一项所述的数据分类方法,其特征在于,所述候选特征包括:所述样本数据中的样本识别文本和样本修改文本之间的文本编辑距离和音素编辑距离、所述样本识别文本和样本修改文本的句法、所述样本识别文本和所述样本修改文本中修改点的词性、修改点处在所述样本识别文本和所述样本修改文本的位置、所述样本识别文本和所述样本修改文本中修改点的字数、用户...

【专利技术属性】
技术研发人员:喻涛吴国兵许丽胡郁
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1