语音文本错误处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33968424 阅读:31 留言:0更新日期:2022-06-30 01:55
本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质,涉及数据处理技术领域。通过获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注,从而可以提高标注错误词汇的准确率,改善由于分词导致的对词汇的错误类型标注不准确的问题。致的对词汇的错误类型标注不准确的问题。致的对词汇的错误类型标注不准确的问题。

【技术实现步骤摘要】
语音文本错误处理方法、装置、电子设备及存储介质


[0001]本申请实施例涉及数据处理
,特别地,涉及一种语音文本错误处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,例如Word这样及其类似的软件通常具备拼写错误纠正的提示功能。对于英文等非汉字体系的语言而言,此类错误纠正的提示功能带给用户的体验感较好。以英文为例,每个独立的词汇通过空格间隔开来,使得在词汇错误提示上会将整个英文词汇进行错误标记。然而,中文词汇通常包括至少两个汉字,而汉字与汉字之间不存在任何间隔符,导致不能准确对中文词汇进行划分,从而导致难以对中文词汇进行错误提示。

技术实现思路

[0003]本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质,以改善上述问题。
[0004]第一方面,本申请实施例提供一种语音文本错误处理方法。该方法主要包括:获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注。
[0005]第二方面,本申请实施例提供一种语音文本错误处理装置。该装置主要包括第一获取模块、分词模块、第二获取模块以及合并模块。其中,第一获取模块用于获取标准语料和用户语料。分词模块用于分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇。第二获取模块用于基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型。合并模块用于根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注。
[0006]第三方面,本申请实施例提供一种电子设备。该电子设备主要包括存储器、一个或多个处理器以及一个或多个应用程序。其中,一个或多个应用程序被存储在存储器中,并被配置为当被一个或多个处理器调用时执行本申请实施例提供的语音文本错误处理方法。
[0007]第四方面,本申请实施例提供一种计算机可读取存储介质。该计算机可读取存储介质中存储有程序代码,该程序代码被配置为当被处理器调用时执行本申请实施例提供的语音文本错误处理方法。
[0008]本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质。该方法主要通过获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包
括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注,从而可以在分词之后,根据错误类型对分词之后的词汇进行合并,从而提高标注错误词汇的准确率,改善由于分词导致的对词汇的错误类型标注不准确的问题。
附图说明
[0009]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0010]图1是本申请实施例提供的语音文本错误处理方法的应用环境的示意图。
[0011]图2是本申请一实施例提供的语音文本错误处理方法的流程示意图。
[0012]图3是本申请一示例性实施例提供的分词过程的原理示意图。
[0013]图4是本申请另一实施例提供的语音文本错误处理方法的流程示意图。
[0014]图5是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S220的流程示意图。
[0015]图6是本申请一示例性实施例提供的关于字符串中的词汇与位置的对应关系的示意图。
[0016]图7是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S250的一流程示意图。
[0017]图8是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S250的另一流程示意图。
[0018]图9是本申请实施例提供的语音文本错误处理装置的结构框图。
[0019]图10是本申请实施例提供的电子设备的结构框图。
[0020]图11是本申请实施例提供的计算机可读取存储介质的结构框图。
具体实施方式
[0021]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0022]在一些业务场景下,为检测话术的合规性,通常需要检查说话人的说话内容与标准模板之间的差异,并根据这些差异来进行业务合规性检查。在以上这种需要进行合规性检查的场景下,对语音文本中的错误内容的标注需要上升到词级别。如前所述,单独地对单个中文进行标注,一来无法体现错误词汇信息,二来相较于词级别带给用户的体验感较差。因此,对于有标准话术做对比的场景,往往需要对词级别的错误进行标注。
[0023]本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质,通过对词汇进行分词,标注全部错误及其错误类型,并基于错误类型对分词结果进行有条件的合并,从而可以精确地对文本的错误内容进行词级别的标注,进而改善由于分词导致的对词汇的错误标注不准确的问题。接下来将对本申请实施例提供的语音文本错误处理方法的
应用环境进行简单地介绍。
[0024]请参阅图1,图1是本申请实施例提供的语音文本错误处理方法的应用环境示意图。语音文本错误处理系统10至少包括用户11、语音录入设备12、处理设备13。语音录入设备12与处理设备13通信连接。其中,语音录入设备12可以对用户11所说的话进行录制,将录入的语音模拟信号转化为数字信号,将数字信号发送给处理设备12,以使得处理设备12可以根据标准话术对用户发出的语音中的错误内容进行标注。其中,语音录入设备12可以是能够录制语音的任何电子设备,例如,智能手机、平板电脑、智能手表、笔记本电脑以及智能控制面板,本申请实施例在此不做具体限制。处理设备13可以是一个或多个处理器,其可以设置于语音录制设备12中,也可以独立设置于语音录制设备12的外部,或者还可以设置于其他电子设备中,本申请实施例在此不做具体限制。
[0025]请参阅图2,图2是本申请一实施例提供的语音文本错误处理方法的流程示意图。该语音文本错误处理方法可以应用于语音文本错误处理系统10,具体地,可以应用于处理设备13。该语音文本错误处理方法可以包括以下步骤S110~S140。
[0026]步骤S110,获取标准语料和用户语料。
[0027]其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音文本错误处理方法,其特征在于,包括:获取标准语料和用户语料;分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串,其中,所述第一字符串和所述第二字符串均包括由分词得到的多个词汇;基于所述第一字符串和所述第二字符串的差异,获取所述第二字符串中的词汇的错误类型;根据所述错误类型对所述第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,所述错误提示信息用于对所述用户语料进行错误标注。2.根据权利要求1所述的方法,其特征在于,所述根据所述错误类型对所述第二字符串中的词汇进行合并,包括:获取每个错误类型对应的词汇在所述第二字符串中的位置信息;根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并。3.根据权利要求2所述的方法,其特征在于,所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并,包括:获取第二字符串中错误类型相同且位置连续的词汇,作为第一词汇;将所述第一词汇进行合并,合并所述第一词汇之后得到的词汇对应的错误类型不变。4.根据权利要求3所述的方法,其特征在于,所述错误类型至少包括替换错误和插入错误,所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并,包括:获取所述第二字符串中的错误类型为所述替换错误的词汇和错误类型为所述插入错误的词汇,作为第二词汇,其中,所述第二词汇中的错误类型为所述替换错误的词汇位于错误类型为所述插入错误的词汇之前;若所述第二词汇满足预设条件,对所述第二词汇进行合并,合并所述第二词汇之后得到的词汇对应的错误类型为所述替换错误。5.根据权利要求4所述的方法,其特征在于,所述预设条件包括错误类型为所述替换错误的词汇与错误类型为所述插入错误的词汇相邻。6.根据权利要求4所述的方法,其特征在于,所述预设条件包括错误类型为所述替换错误的词汇与错误类型为所述插入错误的词汇之间仅包括正确词汇,所述对所述第二词汇进行合并,包括:计算错误类型为所述替换错误的词汇与所述第一字符串中的与错误类型为所述替换错误的词汇对应的词汇的相似度,得到第一相似度;合并所述第二词汇和所述正确词汇,得到第三词汇;计算所述第三词汇与所述第一字符串中与错误类型为所述替换错误的词汇对应的词汇的相似度,得到第二相似度;若所述第二相似度高于所述第一相似度,将所述第三词汇作为合并所述第二词汇之...

【专利技术属性】
技术研发人员:李亚桐彭子娇
申请(专利权)人:深圳市声扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1