一种语音处理方法、装置、可读存储介质和电子设备制造方法及图纸

技术编号：28041921 阅读：16 留言：0更新日期：2021-04-09 23:25

本发明专利技术实施例公开了一种语音处理方法、装置、存储介质和电子设备。本发明专利技术实施例的技术方案通过获取语音数据，对所述语音数据进行语音识别以确定对应的第一文本，将第一文本输入预先训练的文本处理模型确定对应的第二文本，第二文本是对第一文本的标识或替换，第二文本中不包含不文明用语，将第二文本处理生成第一音频，所述第一音频中不包含被替换的不文明用语。输出第一音频，由此，本发明专利技术实施例的第一音频中不包含不文明用语，净化了网络环境。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音处理方法、装置、可读存储介质和电子设备
本专利技术涉及通信领域，具体涉及一种语音处理方法、装置、可读存储介质和电子设备。
技术介绍
在网络交互场景中，有的用户会说出不文明用语，为了净化网络交互环境，需要对不文明用语进行处理。现有技术中，对不文明用语处理的方法通常是基于一定的屏蔽规则对关键词或敏感词进行屏蔽。但是，现有技术的方法处理精度不高。
技术实现思路
有鉴于此,为了在网络交互场景中提高对于不文明用语的屏蔽精度，本专利技术实施例提供一种语音处理方法、装置、存储介质和电子设备。第一方面，本专利技术实施例提供一种语音处理方法，包括：获取语音数据；对所述语音数据进行语音识别确定对应的第一文本；将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换；根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。优选地，所述第二文本将所述第一文本中的不文明用语替换为目标文本；所述根据所述第二文本处理生成第一音频包括：根据所述目标文本生成第二音频；根据所述不文明用语在所述第一文本中的位置将所述第二音频和所述语音数据合成为第一音频；根据所述不文明用语在所述第一文本的位置获取所述不文明用语对应的不文明语音片段在所述语音数据中的开始时间戳和结束时间戳；以及按所述开始时间戳和所述结束时间戳将所述第二音频与所述语音数据合成为第一音频。r>优选地，所述将所述目标文本生成第二音频包括：获取所述语音数据的基频特征；按所述基频特征将所述目标文本生成第二音频；其中，所述基频特征是通过预先训练的语音特征模型获得的。优选地，所述将所述目标文本生成第二音频包括：将所述目标文本对应的第二音频处理为背景噪声。优选地，所述第二文本对于所述第一文本中的不文明用语进行了替换包括：响应于所述第一文本全部为不文明用语，将所述第一文本替换为所述第二文本；所述根据所述第二文本处理生成第一音频包括：将所述第二文本按基频特征合成第一音频，其中，所述基频特征是通过预先训练的语音特征模型获得的；或者将所述背景噪声合成为所述第一音频。优选地，所述将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换之前包括：将语料训练集和语料验证集输入神经网络进行训练获得文本处理模型；其中，所述语料训练集和所述语料验证集是预先对语料集合中的不文明用语标注获得的。第二方面，本专利技术实施例提供一种语音处理装置，包括：语音获取模块，获取语音数据；语音识别模块，对所述语音数据进行语音识别确定对应的第一文本；语义处理模块，将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换；语音生成模块，根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。第三方面，本专利技术实施例提供一种可读存储介质，包括：一种计算机可读存储介质，用于存储计算机程序指令，所述计算机程序指令在被处理器执行时实现上述中任一项所述的方法。第四方面，本专利技术实施例提供一共电子设备，包括：一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如上述任一项所述的方法。本专利技术实施例的技术方案通过获取语音数据，对所述语音数据进行语音识别确定对应的第一文本，将第一文本输入预先训练的文本处理模型，所述文本处理模型根据语义确定对应的第二文本，第二文本是对第一文本的标注或替换，第二文本中不包含不文明用语，将第二文本处理生成第一音频，由此，所述第一音频中不包含被替换的不文明用语。进而净化了网络环境。附图说明通过以下参照附图对本专利技术实施例的描述，本专利技术的上述以及其它目的、特征和优点将更为清楚，在附图中：图1是本专利技术实施例网络交互场景的示意图；图2是是本专利技术实施例语音处理方法的流程图；图3是本专利技术实施例根据第二文本处理生成第一音频的流程图；图4是本专利技术实施例按基频特征生成第二音频的流程图；图5是本专利技术实施例合成第一音频的流程图；图6是本专利技术实施例合成第一音频的示意图；图7是本专利技术实施例的语音处理装置的示意图；图8是本专利技术实施例语音处理系统的流程图；图9是本专利技术实施例的电子设备的示意图。具体实施方式以下基于实施例对本专利技术进行描述，但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。在本专利技术的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本专利技术的描述中，除非另有说明，“多个”的含义是两个或两个以上。图1是本专利技术实施例网络交互场景的示意图。参照图1，本专利技术实施的网络交互场景包括第一终端10、服务器30和第二终端20。第一终端10和第二终端20可以是手机、平板电脑、多媒体播放器、可穿戴设备、个人计算机等电子设备。服务器30可以是一台服务器、也可以是服务器集群，还可以是云服务器。第一终端10和第二终端20通过网络能够与服务器30通信连接。第一终端10通过音频输入装置收集用户A的语音，将其处理为语音数据。第一终端10通过网络将语音数据发送到服务器30。服务器30将语音数据处理为第一音频后通过网络发送到第二终端20，第二终端20通过音频输出装置播放第一音频，由此，用户B能够听到第一音频。在社交网络环境下，许多网络交互场景下的用户都通过语音直接沟通。例如游戏平台、社交平台、教学平台、直播平台等。用户在通过语音交流的过程中有时会有不文明用语，给其他用户造成不好的用户体验和消极的影响。例如，某些情况下，用户A情绪激动，用户A的语音中会出现不文明用语。为了净化社交网络环境，现有技术是收集关键词或敏感词，基于一定的屏蔽或过滤规则将关键词或敏感词对应的部分从语音中去除。但是，这种基于关键词的处理方式精度较低，常常出现误处理，也即，屏蔽了并非不文明用于的音频片段，或，遗漏了不文明用语。为此，本专利技术实施例提供一种语音处理方法。具体地，第一终端10通过音频输入装置收集用户A的本文档来自技高网...

【技术保护点】
1.一种语音处理方法，其特征在于，所述方法包括：/n获取语音数据；/n对所述语音数据进行语音识别确定对应的第一文本；/n将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换；/n根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。/n

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：
获取语音数据；
对所述语音数据进行语音识别确定对应的第一文本；
将第一文本输入预先训练的文本处理模型确定对应的第二文本，所述第二文本对于所述第一文本中的不文明用语进行了标识或替换；
根据所述第二文本处理生成第一音频，所述第一音频中不包含被标识或替换的不文明用语。

2.根据权利要求1所述的方法，其特征在于，所述第二文本将所述第一文本中的不文明用语标识或替换为目标文本；
所述根据所述第二文本处理生成第一音频包括：
根据所述目标文本生成第二音频；
根据所述不文明用语在所述第一文本中的位置将所述第二音频和所述语音数据合成为第一音频。

3.根据权利要求2所述的方法，其特征在于，所述根据所述不文明用语在所述第一文本中的位置将所述第二音频和所述语音数据合成为第一音频包括：
根据所述不文明用语在所述第一文本的位置获取所述不文明用语对应的不文明语音片段在所述语音数据中的开始时间戳和结束时间戳；以及
按所述开始时间戳和所述结束时间戳将所述第二音频与所述语音数据合成为第一音频。

4.根据权利要求2所述的方法，其特征在于，所述将所述目标文本生成第二音频包括：
获取所述语音数据的基频特征；
按所述基频特征将所述目标文本生成第二音频；
其中，所述基频特征是通过预先训练的语音特征模型获得的。

5.根据权利要求2所述的方法，其特征在于，所述将所述目标文本生成第二音频包括：
将所述目标文本对应的第二音频处理为背景噪声。

6.根据权利要求1所述的方法，其...

【专利技术属性】
技术研发人员：陈昌儒，徐培来，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人