基于服务场景识别的语音数据处理方法及相关装置制造方法及图纸

技术编号:35708065 阅读:11 留言:0更新日期:2022-11-23 15:05
本发明专利技术公开了一种基于服务场景识别的语音数据处理方法及相关装置,应用于语音互动系统,该方法包括:接收来自电子设备的用户在当前次对话事件中所录入的语音信息,通过人机互动引擎执行如下操作:将语音信息转换为原始文本;根据当前次对话事件的对话内容和/或事件关联信息确定当前次对话事件所属的目标服务场景,事件关联信息包括以下至少一种:电子设备在当前次对话事件中提供的服务或应用的类型、电子设备的设备类型;获取目标服务场景的基准词语集合;根据基准词语集合对原始文本进行分词,得到原始文本的适配目标服务场景的至少一个文本句式;根据至少一个文本句式对原始文本进行语义分析,得到语义分析结果。提高了语义识别的准确率。语义识别的准确率。语义识别的准确率。

【技术实现步骤摘要】
基于服务场景识别的语音数据处理方法及相关装置


[0001]本专利技术涉及语音数据的一般数据处理领域,尤其涉及一种基于服务场景识别的语音数据处理方法及相关装置。

技术介绍

[0002]语音互动系统在与用户进行互动时需要将用户的语音信息转换为文字信息,然后对文字进行分词分析来推测用户的语义,在对外部输入的语句进行语义分析时,需要穷举所有的分词方式,得到多个文本句式,然后在对得到的多个文本句式进行分析,才能确定出最终用于进行语义分析的目标文本。这样在用户一次输入的语句过长,且该句中存在多个有歧义的词时,计算量就会增大。

技术实现思路

[0003]针对上述问题,本申请实例提供了一种基于服务场景识别的语音数据处理方法及相关装置,根据用户的目标服务场景来确定用户语音信息的基准词语,根据基准词语对用户的语音信息进行分词可以减少语音互动系统的计算量,提高分析的准确率。
[0004]为实现上述目的,第一方面,本申请实施例提供了一种基于服务场景识别的语音数据处理方法,应用于语音互动系统的服务器,服务器设置有人机互动引擎,语音互动系统还包括与服务器通信连接的电子设备,该方法包括:接收来自电子设备的用户在当前次对话事件中所录入的语音信息,通过人机互动引擎执行如下操作:将语音信息转换为原始文本;根据当前次对话事件的对话内容和/或事件关联信息确定当前次对话事件所属的目标服务场景,事件关联信息包括以下至少一种:电子设备在当前次对话事件中提供的服务或应用的类型、电子设备的设备类型;获取目标服务场景的基准词语集合;根据基准词语集合对原始文本进行分词,得到原始文本的适配目标服务场景的至少一个文本句式;根据至少一个文本句式对原始文本进行语义分析,得到语义分析结果。
[0005]可以看出在本申请实施例中,通过确定用户在使用人机互动系统时的目标服务场景,可以得到目标服务场景下的基准词语集合,已确认根据用户的语音信息得到的原始文本的目标服务场景下的基准词语。根据基准词语可以得到最符合逻辑的分词文本句式,从而提高了语音互动模型的语义分析正确率,降低了语音互动系统的计算量进而提高了系统的分析效率。
[0006]结合第一方面,在一种可能的实施例中,该至少一个文本句式包括多个,根据至少一个文本句式对原始文本进行语义分析之前,该方法还包括:确定每个文本句式包括的词语中存在单字的文本句式为目标文本句式;确定目标文本句式中包括的单字的可实现性;从多个文本句式中删除可实现性低于预设值的文本句式。
[0007]可以看出在本申请实施例中,通过计算存在单字分词的文本句式下单字的可实现性,在对文本句式进行逻辑检测前,初步排除了一部分单字的可实现性过低的文本句式,从而减少了语音互动系统的计算量进而提高了系统的分析效率。
[0008]结合第一方面,在一种可能的实施例中,至少一个文本句式包括多个,根据至少一个文本句式对原始文本进行语义分析,包括:以每个文本句式中包括的基准词语为基础,对每个文本句式进行逻辑检测,得到每个文本句式的逻辑得分;对逻辑得分最高的文本句式进行语义分析,得到语义分析结果。
[0009]结合第一方面,在一种可能的实施例中,以每个文本句式中包括的基准词语为基础,对每个文本句式进行逻辑检测,得到每个文本句式的逻辑得分,包括:确定每个文本句式中与基准词语相邻的词语为校验词语;确定基准词语与校验词语组合成一个短语的可能性评分;根据可能性评分确定每个文本句式的逻辑得分。
[0010]可以看出在本申请实施例中,根据文本句式中的与基准词语相邻的词语与基准词语组合的可能性评分来判断该文本句式的逻辑得分,将得分最高的文本句式作为原始文本对应的文本句式,从而保证最终确认的文本句式最符合逻辑,提高了语音互动模型的语义分析正确率。
[0011]结合第一方面,在一种可能的实施例中,根据可能性评分确定每个文本句式的逻辑得分,包括:确定每个文本句式包括的所有词语中每个词语在目标服务场景的出现概率;确定每个文本句式中每个词语的系数值,文本句式中距离基准词语越远的词语,系数值越低;根据每个词语的出现概率和系数值确定概率评分;根据可能性评分和概率评分确定每个文本句式的逻辑得分。
[0012]可以看出在本申请实施例中,根据每个词语在目标服务场景的出现概率,以及根据文本句式中距离基准词语的距离计算每个词语的系数值,科学地评价了文本句式中每个词语在目标服务场景中出现的可能性,以及文本句式整体的逻辑得分,从而保证最终确认的文本句式最符合逻辑,进一步提高了语音互动模型的语义分析正确率。
[0013]结合第一方面,在一种可能的实施例中,根据基准词语集合对原始文本进行分词,包括:根据原始文本中包括的基准词语集合确定预设文本库中是否包括与原始文本相似度高于预设值的目标文本;若存在,则根据目标文本的分词结果对原始文本进行分词。
[0014]结合第一方面,在一种可能的实施例中,该方法还包括:获取用户的历史文本,历史文本为根据用户的历史语音记录转换后的文本,历史文本对应的文本句式为用于语义分析的文本句式;将历史文本和历史文本对应的文本句式添加到预设文本库。
[0015]可以看出在本申请实施例中,将原始文本与历史文本比较,若原始文本与历史文本的相似度大于预设值则将历史文本的分词文本句式作为目标原始文本的分词文本句式,从而提高了语音互动系统的语义分析正确率,并且减少了计算量,进而提高了分析计算效率。
[0016]第二方面本申请实施例提供了基于服务场景识别的语音数据处理装置,其特征在于,应用于语音互动系统的服务器,服务器设置有人机互动引擎,语音互动系统还包括与服务器通信连接的电子设备,包括:接收单元:用于接收来自电子设备的用户在当前次对话事件中所录入的语音信息,通过人机互动引擎执行如下操作:将语音信息转换为原始文本;确定单元:用于根据当前次对话事件的对话内容和/或事件关联信息确定当前次对话事件所属的目标服务场景,事件关联信息包括以下至少一种:电子设备在当前次对话事件中提供的服务或应用的类型、电子设备的设备类型;
分析单元:用于获取目标服务场景的基准词语集合;根据基准词语集合对原始文本进行分词,得到原始文本的适配目标服务场景的至少一个文本句式;根据至少一个文本句式对原始文本进行语义分析,得到语义分析结果。
[0017]第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,一个或多个程序被存储在存储器中,并且被配置由处理器执行,一条或多条指令适于由处理器加载并执行如第一方面的方法的部分或者全部。
[0018]第四方面,本申请实施例提供了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,计算机程序使得计算机执行如第一方面的方法的部分或者全部。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于服务场景识别的语音数据处理方法,其特征在于,应用于语音互动系统的服务器,所述服务器设置有人机互动引擎,所述语音互动系统还包括与所述服务器通信连接的电子设备,所述方法包括:接收来自所述电子设备的用户在当前次对话事件中所录入的语音信息,通过所述人机互动引擎执行如下操作:将所述语音信息转换为原始文本;根据所述当前次对话事件的对话内容和/或事件关联信息确定所述当前次对话事件所属的目标服务场景,所述事件关联信息包括以下至少一种:所述电子设备在所述当前次对话事件中提供的服务或应用的类型、所述电子设备的设备类型;获取所述目标服务场景的基准词语集合;根据所述基准词语集合对所述原始文本进行分词,得到所述原始文本的适配所述目标服务场景的至少一个文本句式;根据所述至少一个文本句式对所述原始文本进行语义分析,得到语义分析结果。2.根据权利要求1所述的方法,其特征在于,所述至少一个文本句式包括多个,所述根据所述至少一个文本句式对所述原始文本进行语义分析之前,所述方法还包括:确定每个文本句式包括的词语中存在单字的文本句式为目标文本句式;确定所述目标文本句式中包括的单字的可实现性;从多个文本句式中删除所述可实现性低于预设值的文本句式。3.根据权利要求2所述的方法,其特征在于,所述至少一个文本句式包括多个,所述根据所述至少一个文本句式对所述原始文本进行语义分析,包括:以每个文本句式中包括的基准词语为基础,对所述每个文本句式进行逻辑检测,得到所述每个文本句式的逻辑得分;对所述逻辑得分最高的文本句式进行语义分析,得到语义分析结果。4.根据权利要求3所述的方法,其特征在于,所述以每个文本句式中包括的基准词语为基础,对所述每个文本句式进行逻辑检测,得到所述每个文本句式的逻辑得分,包括:确定所述每个文本句式中与所述基准词语相邻的词语为校验词语;确定所述基准词语与所述校验词语组合成一个短语的可能性评分;根据所述可能性评分确定所述每个文本句式的逻辑得分。5.根据权利要求4所述的方法,其特征在于,所述根据所述可能性评分确定所述每个文本句式的逻辑得分,包括:确定所述每个文本句式包括的所有词语中每个词语在所述目标服务场景的出现概率;确定所述每个文本句式中每个词语的系数值,文本句式中距离所述基准词语越远的词语...

【专利技术属性】
技术研发人员:顾蓝笛韩婧
申请(专利权)人:深圳市人马互动科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1