语音文本错误处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33968424 阅读：43 留言：0更新日期：2022-06-30 01:55

本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质，涉及数据处理技术领域。通过获取标准语料和用户语料；分别对标准语料和用户语料进行分词，得到标准语料对应的第一字符串和用户语料对应的第二字符串，其中，第一字符串和第二字符串均包括由分词得到的多个词汇；基于第一字符串和第二字符串的差异，获取第二字符串中的词汇的错误类型；根据错误类型对第二字符串中的词汇进行合并，基于合并结果显示错误提示信息，其中，错误提示信息用于对用户语料进行错误标注，从而可以提高标注错误词汇的准确率，改善由于分词导致的对词汇的错误类型标注不准确的问题。致的对词汇的错误类型标注不准确的问题。致的对词汇的错误类型标注不准确的问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音文本错误处理方法、装置、电子设备及存储介质

[0001]本申请实施例涉及数据处理
，特别地，涉及一种语音文本错误处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前，例如Word这样及其类似的软件通常具备拼写错误纠正的提示功能。对于英文等非汉字体系的语言而言，此类错误纠正的提示功能带给用户的体验感较好。以英文为例，每个独立的词汇通过空格间隔开来，使得在词汇错误提示上会将整个英文词汇进行错误标记。然而，中文词汇通常包括至少两个汉字，而汉字与汉字之间不存在任何间隔符，导致不能准确对中文词汇进行划分，从而导致难以对中文词汇进行错误提示。

技术实现思路

[0003]本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质，以改善上述问题。
[0004]第一方面，本申请实施例提供一种语音文本错误处理方法。该方法主要包括：获取标准语料和用户语料；分别对标准语料和用户语料进行分词，得到标准语料对应的第一字符串和用户语料对应的第二字符串，其中，第一字符串和第二字符串均包括由分词得到的多...

【技术保护点】

【技术特征摘要】
1.一种语音文本错误处理方法，其特征在于，包括：获取标准语料和用户语料；分别对所述标准语料和所述用户语料进行分词，得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串，其中，所述第一字符串和所述第二字符串均包括由分词得到的多个词汇；基于所述第一字符串和所述第二字符串的差异，获取所述第二字符串中的词汇的错误类型；根据所述错误类型对所述第二字符串中的词汇进行合并，基于合并结果显示错误提示信息，其中，所述错误提示信息用于对所述用户语料进行错误标注。2.根据权利要求1所述的方法，其特征在于，所述根据所述错误类型对所述第二字符串中的词汇进行合并，包括：获取每个错误类型对应的词汇在所述第二字符串中的位置信息；根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并。3.根据权利要求2所述的方法，其特征在于，所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并，包括：获取第二字符串中错误类型相同且位置连续的词汇，作为第一词汇；将所述第一词汇进行合并，合并所述第一词汇之后得到的词汇对应的错误类型不变。4.根据权利要求3所述的方法，其特征在于，所述错误类型至少包括替换错误和插入错误，所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并，包括：获取所述第二字符串中的错误类型为所述替换错误的词汇和错误类型为所述插入错误的词汇，作为第二词汇，其中，所述第二词汇中的错误类型为所述替换错误的词汇位于错误类型为所述插入错误的词汇之前；若所述第二词汇满足预设条件，对所述第二词汇进行合并，合并所述第二词汇之后得到的词汇对应的错误类型为所述替换错误。5.根据权利要求4所述的方法，其特征在于，所述预设条件包括错误类型为所述替换错误的词汇与错误类型为所述插入错误的词汇相邻。6.根据权利要求4所述的方法，其特征在于，所述预设条件包括错误类型为所述替换错误的词汇与错误类型为所述插入错误的词汇之间仅包括正确词汇，所述对所述第二词汇进行合并，包括：计算错误类型为所述替换错误的词汇与所述第一字符串中的与错误类型为所述替换错误的词汇对应的词汇的相似度，得到第一相似度；合并所述第二词汇和所述正确词汇，得到第三词汇；计算所述第三词汇与所述第一字符串中与错误类型为所述替换错误的词汇对应的词汇的相似度，得到第二相似度；若所述第二相似度高于所述第一相似度，将所述第三词汇作为合并所述第二词汇之...

【专利技术属性】
技术研发人员：李亚桐，彭子娇，
申请(专利权)人：深圳市声扬科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人