一种居家老人呼救设备制造技术

技术编号:29159911 阅读:18 留言:0更新日期:2021-07-06 23:00
本发明专利技术提供一种居家老人呼救设备,包括用于声纹、语音识别模型训练的服务器端、用于声纹、语音识别和拨打电话的客户端,客户端包括微处理器及与其连接的拾音设备、电话卡和扬声器,微处理器上部署维纳滤波器对语音信号进行降噪处理;服务器端训练完成的声纹、语音识别模型打包部署到客户端,采集目标用户语音信号,对客户端声纹识别模型进行参数微调,构成本地声纹、语音识别模型及运行环境;当语音信号输入本地声纹、语音识别模型,若声纹识别结果为目标用户,则进行语音识别,获取识别语音结果,微处理器执行对应的执行指令;否则不进行语音识别。本发明专利技术使用语音识别技术实现老人呼救,相比起传统的按键、打电话方法,更加便捷,人性化。

【技术实现步骤摘要】
一种居家老人呼救设备
本专利技术涉及中文语音识别技术,具体涉及一种居家老人呼救设备。
技术介绍
从现在到本世纪中叶是中国人口老龄化高速发展的时期,积极、科学、有效应对人口老龄化至关重要。到2022年左右,中国65岁以上人口将占到总人口的14%,由老龄化社会进入老龄社会。而居家养老是目前老人养老的主要模式,但对于高龄患病老人,在日常生活中往往会遇到突发的紧急情况,需要救助。目前的老人呼救设备多以按键或手机为主,需要手动操作,老人在遭遇紧急情况下,可能没有行动能力来手动操作,则亟需进行语音呼救。目前,语音识别技术已经深入到生活的方方面面,如语音助手、语音检索、智能穿戴设备等应用。而作为联合国六种工作语言之一,已有17亿人以上使用中文作为日常交流的语言,中文语音识别应用领域广泛,具有很大的实用价值。当前,虽然有大量深度学习方法应用于中文语音识别领域,但语音识别方法在识别速度和识别精度上有很大的局限性,且过分依赖于高性能处理器,为了克服上述问题,将语音识别模型的训练过程与识别过程分离,分别在云端和客户端进行。
技术实现思路
针对现有技术中的不足,本专利技术提供一种基于龙芯派的居家老人呼救设备,通过在服务器端对声纹识别模型和语音识别模型进行训练,再将服务器端训练完成的模型和环境下载部署到以龙芯2K1000处理器基础的客户端,在客户端完成声纹模型参数微调和语音识别以及拨打电话功能。为实现上述目的,本专利技术采用了以下技术方案:一种居家老人呼救设备,包括用于部署声纹识别模型、语音识别模型训练环境及训练的服务器端、用于声纹识别、语音识别和拨打电话的客户端,所述客户端包括微处理器、拾音设备、电话卡和扬声器,所述拾音设备与微处理器的音频输入接口连接,将捕捉到的语音输入微处理器,所述微处理器上部署维纳滤波器,对接收到的语音信号进行降噪处理;所述电话卡和扬声器与微处理器音频输出接口连接,用以执行电话功能;所述服务器端训练完成的声纹识别模型、语音识别模型和训练环境打包部署到客户端的微处理器,采集经降噪处理的目标用户语音信号,对客户端声纹识别模型进行参数微调,录入目标用户声纹,从而构成本地声纹识别模型、本地语音识别模型及运行环境;经降噪处理的语音信号输入本地声纹识别模型和语音识别模型,根据声纹识别结果进行目标用户的判断,当声纹识别结果为目标用户,则将语音信号输入本地语音识别模型,获取识别语音结果,根据语音识别结果,微处理器执行对应的执行指令;当声纹识别结果为非目标用户,则不进行语音识别,微处理器控制扬声器发出用户不匹配的指令。进一步地,所述客户端的微处理器为嵌入式龙芯2K1000处理器。再进一步地,所述服务器端的声纹识别模型为基于GMM(高斯混合模型)的声纹识别模型,是通过以下步骤获取的:步骤S1、语音提供者标注:将ST-CMDS数据中语音提供者的语音信号进行标注,对同一语音提供者的普通wav语音信号打上相同标签;步骤S2、特征提取:将普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;步骤S3、非目标用户声纹模型训练:将语音信号特征矩阵输入GMM(高斯混合模型)中,进行GMM模型的参数估计;步骤S4、模型参数固定:基于最大似然估计算法,通过EM算法进行迭代,得到GMM模型的最优参数,将不同语音提供者的语音特征分簇。更进一步地,所述客户端的本地声纹识别模型为基于GMM-UBM的声纹识别模型,是通过以下步骤获取的:步骤K1:客户端部署GMM模型:将在服务器端经过非目标用户训练的GMM模型和运行环境部署到客户端。步骤K2:目标用户语音信号录入:启动基于GMM的声纹识别模型,通过客户端拾音设备录入目标用户语音信号,存储为模型训练数据。步骤K3:声纹识别模型参数微调:通过背景模型UBM,使用目标用户训练数据,利用最大后验概率算法,经过自适应训练,得到本地声纹识别模型。步骤K4:本地声纹识别模型保存:在客户端保存训练完成的本地用户声纹模型。更进一步地,所述服务器端的语音识别模型为基于卷积神经网络的语音识别模型,是通过以下步骤获取:步骤Y1、特征提取:将ST-CMDS数据集中的普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;步骤Y2、基于卷积神经网络的语音识别模型的构建:使用卷积神经网络对MFCC处理后的语音信号特征矩阵进行提取,建立语音识别模型;步骤Y3、使用ST-CMDS数据集进行语音识别模型训练;随机将ST-CMDS数据集的80%划分为训练集,20%划分为测试集,重复五次,实验结果取五次实验平均值;经过验证,所述语音识别模型的准确率在0.95以上;步骤Y4、语音识别模型的保存:在服务器端保存训练完成的语音识别模型。更进一步地,所述ST-CMDS数据集中包含10万余条语音文件,语音文件数据内容为日常语音聊天和智能语音控制语句,语音提供者为855个。更进一步地,所述MFCC特征由静态MFCC系数、动态差分参数、帧能量共同构成。更进一步地,所述步骤Y2中的基于卷积神经网络的语音识别模型是由2层卷积层和5层全连接层组成,初始的输入尺寸为40*11*3,第二个卷积层的输入为第一个卷积层的输出,卷积核大小分别8*9*3、3*1*3,卷积核数分别为16、32,得到规格更小的语音信号特征矩阵;引入池化处理,简化卷积层的输出;经过全连接层,将最终语音信号特征与语料库匹配,得到语音的识别结果。更进一步地,所述微处理器执行对应的执行指令,其执行指令中至少包括启动或关闭语音识别程序、拨打报警及急救电话功能,当语音识别模型识别的语音为启动语音识别程序的口令时,默认等待10s,之后若接收不到其它口令,则关闭语音识别程序;当语音识别模型识别的语音为报警口令时,则由微处理器通过电话卡和扬声器拨打报警电话与语音交流;当语音识别模型识别的语音为拨打急救电话口令时,则由微处理器通过电话卡和扬声器拨打急救电话与语音交流。与现有技术相比,本专利技术具有以下有益效果:1、本专利技术使用语音识别技术实现老人呼救,相比起传统的按键、打电话方法,更加便捷,人性化。2、本专利技术使用声纹识别模型实现特定人员使用,防止无关人员操作,提高了安全性。3、本专利技术将声纹识别模型、语音识别模型的训练过程与识别过程分离,降低了客户端对算力的要求,大幅度减小了本地硬件的成本。3、本专利技术在通过客户端微调声纹识别模型参数,获取目标用户声纹,降低了客户端运算成本。4、本专利技术在语音识别之前,进行降噪处理,提升信噪比,有力提升了识别的准确度。5、本专利技术的客户端采用国产龙芯微处理器实现了语音识别的应用,具有很好的泛化能力。6、本专利技术语音识别模型,可以实现高于80%的中文语音识别准确率,且识别速度较快,应用前景广泛。附图说明图1为本专利技术的一种居家老人呼救设备的整体流程图。图2为本专利技术中本文档来自技高网...

【技术保护点】
1.一种居家老人呼救设备,其特征在于:包括用于部署声纹识别模型、语音识别模型训练环境及训练的服务器端、用于声纹识别、语音识别和拨打电话的客户端,所述客户端包括微处理器、拾音设备、电话卡和扬声器,所述拾音设备与微处理器的音频输入接口连接,将捕捉到的语音输入微处理器,所述微处理器上部署维纳滤波器,对接收到的语音信号进行降噪处理;所述电话卡和扬声器与微处理器音频输出接口连接,用以执行电话功能;所述服务器端训练完成的声纹识别模型、语音识别模型和训练环境打包部署到客户端的微处理器,采集经降噪处理的目标用户语音信号,对客户端声纹识别模型进行参数微调,录入目标用户声纹,从而构成本地声纹识别模型、本地语音识别模型及运行环境;经降噪处理的语音信号输入本地声纹识别模型和语音识别模型,根据声纹识别结果进行目标用户的判断,当声纹识别结果为目标用户,则将语音信号输入本地语音识别模型,获取识别语音结果,根据语音识别结果,微处理器执行对应的执行指令;当声纹识别结果为非目标用户,则不进行语音识别,微处理器控制扬声器发出用户不匹配的指令。/n

【技术特征摘要】
1.一种居家老人呼救设备,其特征在于:包括用于部署声纹识别模型、语音识别模型训练环境及训练的服务器端、用于声纹识别、语音识别和拨打电话的客户端,所述客户端包括微处理器、拾音设备、电话卡和扬声器,所述拾音设备与微处理器的音频输入接口连接,将捕捉到的语音输入微处理器,所述微处理器上部署维纳滤波器,对接收到的语音信号进行降噪处理;所述电话卡和扬声器与微处理器音频输出接口连接,用以执行电话功能;所述服务器端训练完成的声纹识别模型、语音识别模型和训练环境打包部署到客户端的微处理器,采集经降噪处理的目标用户语音信号,对客户端声纹识别模型进行参数微调,录入目标用户声纹,从而构成本地声纹识别模型、本地语音识别模型及运行环境;经降噪处理的语音信号输入本地声纹识别模型和语音识别模型,根据声纹识别结果进行目标用户的判断,当声纹识别结果为目标用户,则将语音信号输入本地语音识别模型,获取识别语音结果,根据语音识别结果,微处理器执行对应的执行指令;当声纹识别结果为非目标用户,则不进行语音识别,微处理器控制扬声器发出用户不匹配的指令。


2.根据权利要求1所述的一种居家老人呼救设备,其特征在于:所述客户端的微处理器为嵌入式龙芯2K1000处理器。


3.根据权利要求1所述的一种居家老人呼救设备,其特征在于:所述服务器端的声纹识别模型为基于GMM(高斯混合模型)的声纹识别模型,是通过以下步骤获取的:
步骤S1、语音提供者标注:将ST-CMDS数据中语音提供者的语音信号进行标注,对同一语音提供者的普通wav语音信号打上相同标签;
步骤S2、特征提取:将普通wav语音信号通过MFCC特征提取方法转换为卷积神经网络需要的二维频谱图像信号,即语音信号特征矩阵;
步骤S3、非目标用户声纹模型训练:将语音信号特征矩阵输入高斯混合模型GMM中,进行GMM模型的参数估计;
步骤S4、模型参数固定:基于最大似然估计算法,通过EM算法进行迭代,得到GMM模型的最优参数,将不同语音提供者的语音特征分簇。


4.根据权利要求3所述的一种居家老人呼救设备,其特征在于:所述客户端的本地声纹识别模型为基于GMM-UBM的声纹识别模型,是通过以下步骤获取的:
步骤K1、客户端部署GMM模型:将在服务器端经过非目标用户训练的基于GMM的声纹识别模型和运行环境部署到客户端;
步骤K2、目标用户语音信号录入:启动基于GMM的声纹识别模型,通过客户端拾音设备录入目标用户语音信号,存储为模型训练数据;
步骤K3、声纹识别模型参数微调:通过背景模型UBM,使用目标用户训练数据,利用最大后验概率算法,...

【专利技术属性】
技术研发人员:韩振华薛海涛
申请(专利权)人:山西云芯新一代信息技术研究院有限公司
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1