应用于机器人的语音处理方法及装置制造方法及图纸

技术编号:36200968 阅读:10 留言:0更新日期:2023-01-04 11:54
本发明专利技术涉及一种应用于机器人的语音处理方法及装置,在获取机器人采集的场景音,并基于语音端点检测,分离出场景音中的语音部分。通过预先建立声学模型,并基于声学模型识别语音部分,获得第一识别结果;并通过预先建立语言模型,并基于语言模型识别语音部分,获得第二识别结果。基于此,降低机器人采集的场景音在前端中受到的干扰,提高语音识别的准确率和稳定性。稳定性。稳定性。

【技术实现步骤摘要】
应用于机器人的语音处理方法及装置


[0001]本专利技术涉及语音处理
,特别是涉及一种应用于机器人的语音处理方法及装置。

技术介绍

[0002]语音处理,通常是指对语音进行识别和应用等处理方式。经典的语音处理方法一般都建立在线性平稳系统的理论基础之上,这是以短时语音具有相对平稳性为前提条件的。但是,语音信号是一种典型的非线性、非平稳随机过程,这就使得采用经典的处理方法难以进一步提升语音处理系统的性能,如语音识别系统的识别率等。随着机器人技术的不断发展,以机器人智能语音交互为代表的语音新应用迫切要求发展新的语音处理技术与手段,以提高语音处理系统的性能水平。在这个过程中,伴随着智能技术如人工智能或机器学习的发展,智能语音处理逐步被应用至机器人中。智能语音处理,通常泛指在语音处理算法或系统实现中全部或部分采用智能化的处理技术或手段。
[0003]在机器人使用中,大量的使用场景是为了应付前端的使用场景,存在诸多的干扰因素,例如环境音干扰、说话人语言发音水平或语言差异等,会严重影响语音处理,降低语音识别的准确率和稳定性。

技术实现思路

[0004]基于此,有必要针对语音处理在机器人使用中,大量的使用场景是为了应付前端的使用场景,存在诸多的干扰因素这一问题,提供一种应用于机器人的语音处理方法及装置。
[0005]一种应用于机器人的语音处理方法,包括步骤:
[0006]获取机器人采集的场景音,并基于语音端点检测,分离出所述场景音中的语音部分;
[0007]预先建立声学模型,并基于所述声学模型识别所述语音部分,获得第一识别结果;
[0008]预先建立语言模型,并基于所述语言模型识别所述语音部分,获得第二识别结果;
[0009]根据所述第一识别结果和所述第二识别结果,获得语音处理结果。
[0010]上述的应用于机器人的语音处理方法,在获取机器人采集的场景音,并基于语音端点检测,分离出场景音中的语音部分。通过预先建立声学模型,并基于声学模型识别语音部分,获得第一识别结果;并通过预先建立语言模型,并基于语言模型识别语音部分,获得第二识别结果。基于此,降低机器人采集的场景音在前端中受到的干扰,提高语音识别的准确率和稳定性。
[0011]在其中一个实施例中,获取机器人采集的场景音,并基于语音端点检测,分离出所述场景音中的语音部分的过程,包括步骤:
[0012]收集各应用场景下的非语音数据,通过深度神经网络进行语音与非语音建模,实现语音端点检测。
[0013]在其中一个实施例中,获取机器人采集的场景音,并基于语音端点检测,分离出所述场景音中的语音部分的过程,包括步骤:
[0014]结合短时场景下的BIC距离以及长时声纹相似性评估中的PLDA,分离出所述场景音中的语音部分。
[0015]在其中一个实施例中,预先建立声学模型的过程,包括步骤:
[0016]收集各发音风格的训练语音,以提高所述声学模型对发音变化的覆盖性;其中,所述训练语音用于训练所述声学模型。
[0017]在其中一个实施例中,预先建立声学模型的过程,包括步骤:
[0018]基于模型域、特征域以及特殊音素,进行所述声学模型的建模。
[0019]在其中一个实施例中,预先建立声学模型的过程,还包括步骤:
[0020]采用具有时序建模能力的循环神网经络,结合对音素、说话人、环境的预测,优化所述声学模型的建模。
[0021]在其中一个实施例中,预先建立语言模型的过程,还包括步骤:
[0022]采用基于字与基于词结合的循环神经网络建模以及语义语言模型,训练所述语言模型。
[0023]在其中一个实施例中,预先建立语言模型的过程,还包括步骤:
[0024]采用基于N

Gram的篇章级语言模型以及基于循环神经网络的篇章级自适应,优化所述语言模型。
[0025]一种应用于机器人的语音处理装置,包括:
[0026]语音分离模块,用于获取机器人采集的场景音,并基于语音端点检测,分离出所述场景音中的语音部分;
[0027]第一建立模块,用于预先建立声学模型,并基于所述声学模型识别所述语音部分,获得第一识别结果;
[0028]第二建立模块,用于预先建立语言模型,并基于所述语言模型识别所述语音部分,获得第二识别结果;
[0029]语音处理模块,用于根据所述第一识别结果和所述第二识别结果,获得语音处理结果。
[0030]上述的应用于机器人的语音处理装置,在获取机器人采集的场景音,并基于语音端点检测,分离出场景音中的语音部分。通过预先建立声学模型,并基于声学模型识别语音部分,获得第一识别结果;并通过预先建立语言模型,并基于语言模型识别语音部分,获得第二识别结果。基于此,降低机器人采集的场景音在前端中受到的干扰,提高语音识别的准确率和稳定性。
[0031]一种计算机存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现上述任一实施例的应用于机器人的语音处理方法。
[0032]上述的计算机存储介质,在获取机器人采集的场景音,并基于语音端点检测,分离出场景音中的语音部分。通过预先建立声学模型,并基于声学模型识别语音部分,获得第一识别结果;并通过预先建立语言模型,并基于语言模型识别语音部分,获得第二识别结果。基于此,降低机器人采集的场景音在前端中受到的干扰,提高语音识别的准确率和稳定性。
[0033]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的
计算机程序,处理器执行程序时实现上述任一实施例的应用于机器人的语音处理方法。
[0034]上述的计算机设备,在获取机器人采集的场景音,并基于语音端点检测,分离出场景音中的语音部分。通过预先建立声学模型,并基于声学模型识别语音部分,获得第一识别结果;并通过预先建立语言模型,并基于语言模型识别语音部分,获得第二识别结果。基于此,降低机器人采集的场景音在前端中受到的干扰,提高语音识别的准确率和稳定性。
附图说明
[0035]图1为一实施方式的应用于机器人的语音处理方法流程图;
[0036]图2为另一实施方式的应用于机器人的语音处理方法流程图;
[0037]图3为一实施方式的应用于机器人的语音处理装置模块结构图;
[0038]图4为一实施方式的计算机内部构造示意图。
具体实施方式
[0039]为了更好地理解本专利技术的目的、技术方案以及技术效果,以下结合附图和实施例对本专利技术进行进一步的讲解说明。同时声明,以下所描述的实施例仅用于解释本专利技术,并不用于限定本专利技术。
[0040]本专利技术实施例提供了一种应用于机器人的语音处理方法。
[0041]图1为一实施方式的应用于机器人的语音处理方法流程图,如图1所示,一实施方式的应用于机器人的语音处理方法包括步骤S100至步骤S103:
[0042]S100,获取机器人采集的场景音,并基于语音端点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于机器人的语音处理方法,其特征在于,包括步骤:获取机器人采集的场景音,并基于语音端点检测,分离出所述场景音中的语音部分;预先建立声学模型,并基于所述声学模型识别所述语音部分,获得第一识别结果;预先建立语言模型,并基于所述语言模型识别所述语音部分,获得第二识别结果;根据所述第一识别结果和所述第二识别结果,获得语音处理结果。2.根据权利要求1所述的应用于机器人的语音处理方法,其特征在于,所述获取机器人采集的场景音,并基于语音端点检测,分离出所述场景音中的语音部分的过程,包括步骤:收集各应用场景下的非语音数据,通过深度神经网络进行语音与非语音建模,实现语音端点检测。3.根据权利要求1或2所述的应用于机器人的语音处理方法,其特征在于,所述获取机器人采集的场景音,并基于语音端点检测,分离出所述场景音中的语音部分的过程,包括步骤:结合短时场景下的BIC距离以及长时声纹相似性评估中的PLDA,分离出所述场景音中的语音部分。4.根据权利要求1所述的应用于机器人的语音处理方法,其特征在于,所述预先建立声学模型的过程,包括步骤:收集各发音风格的训练语音,以提高所述声学模型对发音变化的覆盖性;其中,所述训练语音用于训练所述声学模型。5.根据权利要求1或4所述的应用于机器人的语音处理方法,其特征在于,所述预先建立声学模型的过程,包括步骤:基于模型域、特征域以及特殊音素,进行所述声学模型的建模。6....

【专利技术属性】
技术研发人员:杜兰陈彬杜轶锋周国华叶国伟杨光武廖森平曾文君蒋仕坚
申请(专利权)人:科大讯飞华南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1