一种多词语音控制通断装置的方法及其系统制造方法及图纸

技术编号:20122434 阅读:29 留言:0更新日期:2019-01-16 12:53
本发明专利技术公开了一种多词语音控制通断装置的方法及其系统,其中方法的步骤包括:预先训练、存储多个唤醒词汇的特征值到系统硬件中;通过模拟麦克风实时采集语音并输入至对应的单片机引脚;单片机进行声学特征参数的提取以及似然概率的计算;若该语音匹配成功,则进行相应的控制,若不匹配则返回至模拟麦克风采集步骤;该系统包括单片机、模拟麦克风、Flash模块、A/D转换模块、外围电路,本发明专利技术在普通通断装置基础上增设了语音识别技术,实现了语音控制电器的开关,另外本发明专利技术也解决了现有脱机命令词识别和语音唤醒中,误唤醒的概率大,占用的CPU和RAM大,无法在单片机上运行,识别距离近,用户体验差的问题,整体设计造价成本低且使用方便。

A method and system of multi-word voice control on-off device

The invention discloses a method and system of a multi-word voice control on-off device, in which the steps of the method include: pre-training and storing the eigenvalues of multiple wake-up words into the hardware of the system; real-time acquisition of voice by analog microphone and input to the corresponding pins of single chip computer; extraction of acoustic characteristic parameters and calculation of likelihood probability by single chip computer; and if the voice matches. Successfully, the corresponding control is carried out, and if not matched, the system returns to the analog microphone acquisition step. The system includes a single chip computer, analog microphone, Flash module, A/D conversion module and peripheral circuit. The invention adds speech recognition technology on the basis of the common on-off device, realizes the switch of the voice control device, and also solves the existing off-line command word recognition and the peripheral circuit. In voice wake-up, the probability of false wake-up is high, the CPU and RAM occupied are large, it can not run on the single-chip computer, identify the problems of close distance and poor user experience, the overall design cost is low and easy to use.

【技术实现步骤摘要】
一种多词语音控制通断装置的方法及其系统
本专利技术涉及语音控制
,具体为一种多词语音控制通断装置的方法及其系统。
技术介绍
目前语音识别技术虽然取得了很大的进展但是目前应用还有很多局限性,语音识别一般分为云端的非特定人声大规模连续语音识别、可以不联网的命令词识别以及不联网的语音唤醒,各个语音识别都存在着自身的优点与缺点,其中:(1)云端识别,识别精度高,可以做语义理解(加TTS就可以实现对话),但是要求设备必须联网,成本高、响应时间慢、用户体验差。(2)命令词识别,就是通过某种触发如按键、语音唤醒使其工作,录3-5s的音然后识别,这种方式可行但是当控制时需要用户说二遍,如要打开电灯,需要先说唤醒词,如“hi,上海声瀚”等,等设备有反应后再说打开电灯,响应时间长,用户体验非常不好。(3)现有的不联网的语音识别模块,都是采用的ARM9及以上的cpu运行,需要多个麦克风,体积大,成本高,硬件模块尺寸无法放入小型的设备中,同时由于ARM9以上芯片都必须带操作系统如linux,系统的稳定性比单片机差很多,不适合用在长时间使用的设备中。(4)语音唤醒,为实时检测唤醒词,用户体验好,随时说一个词就能控制设备,但是当多词语音唤醒时,误唤醒的概率会增大,同时由于多词运行时占用的CPU和RAM会显著增大,所以对多词语音唤醒引擎算法要求很高,对软硬件的配合度也要求很高,目前市面上没有对应产品。
技术实现思路
针对
技术介绍
中存在的问题,本专利技术提供了一种多词语音控制通断装置的方法及其系统。为实现上述目的,本专利技术提供如下技术方案:一种多词语音控制通断装置的方法,包括以下步骤:S10:预先训练、存储多个唤醒词汇的特征值到系统硬件中单片机的flash模块内;S20:通过模拟麦克风实时采集语音并输入至对应的单片机引脚;S30:单片机通过实时运行预处理算法对采集的语音进行声学特征参数的提取以及似然概率的计算;S40:如果单片机实时提取的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值匹配,则进行对通断装置的对应控制;S50:如果单片机实时计算的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值都不匹配,则继续进行步骤S20。作为本专利技术一种优选的技术方案,在步骤S30中,单片机在对采集的语音进行声学特征参数的提取以及似然概率的计算之前进行降噪处理与前端处理,该前端处理的具体方式为:通过端点检测在语音信号中将语音和非语音信号时段区分开来,确定出语音信号的起始点,经过端点检测后,后续处理只需对语音信号进行即可。作为本专利技术一种优选的技术方案,在步骤S30中,提取声学特征参数的具体方式为:首先对语音信号进行短时傅里叶分析后,根据人的听感特点,把语音信号划分为若干个子频带,采用梅尔滤波器的特征频带分析方法,即在语音频段上划分若干个个子频带,把每个子频带的功率谱能量计算出来,最后将这这些子频带构成的特征矢量作为语音特征输入识别器。作为本专利技术一种优选的技术方案,在步骤S30中,计算似然概率的具体方式为:统计分析大量语音语料,训练得到从语音短时特征到音素的深度神经网络模型,当输入实时语音的短时特征值时,可得到当时各音素的声学相似度。作为本专利技术一种优选的技术方案,引入了区分性训练方法对深度神经网络声学模型进行训练。作为本专利技术一种优选的技术方案,在步骤S40中所述的通断装置包括继电器、插座以及开关。本专利技术还提供了一种多词语音控制通断装置的系统,其特征在于该系统包括:模拟麦克风:用于采集发出语音输入的控制指令;单片机:用于处理采集之后的语音输入;Flash模块:用于存储预先训练的多个唤醒词的特征值;A/D转换模块:用于将采集的到的语音模拟信号转成数字信号;外围电路:用于连接上述的各个模块,使其形成一个完整的电路结构。与现有技术相比,本专利技术的有益效果是:本专利技术在普通通断装置基础上增设了语音识别技术,实现了语音控制电器的开关,另外本专利技术也解决了现有脱机命令词识别和语音唤醒中,误唤醒的概率大,占用的CPU和RAM大,无法在单片机上运行,识别距离近,用户体验差的问题,整体设计造价成本低且使用方便。附图说明图1为本专利技术提供的一种多词语音控制通断装置的方法的流程示意图;图2为本专利技术提供的一种多词语音控制通断装置的系统的示意图;图3为现有技术中电路导通工作原理示意图;具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种多词语音控制通断装置的方法,包括以下步骤:S10:预先训练、存储多个唤醒词汇的特征值到系统硬件中单片机的flash模块内;S20:通过模拟麦克风实时采集语音并输入至对应的单片机引脚;S30:单片机通过实时运行预处理算法对采集的语音进行声学特征参数的提取以及似然概率的计算;S40:如果单片机实时提取的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值匹配,则进行对通断装置的对应控制;S50:如果单片机实时计算的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值都不匹配,则继续进行步骤S20。本专利技术首先在单片机的flash模块中预录多个唤醒词汇,如打开电灯与关闭电灯语音的特征值,该系统硬件是与通断装置中的单火取电电路连接,当用户需要将电灯点亮时,只需要对着通断装置说一句“打开电灯”,该语音通过模拟麦克风采集,然后通过单片机进行处理,将这句话的特征值输入单片机上的深度神经网络识别器进行似然度估计,如果通过似然度估计,发现输入的语音信号与“打开电灯”这条命令有很高的似然度,则判决该条命令被激活,此时单片机的GPIO引脚将会输出高电平给通断装置的单火取电电路,单火取电电路的工作原理为遇到高电平时电路导通,遇到低电平时电路断开,此时单火取电电路控制火线线路导通,整个电路导通,电灯点亮;如果用户说的是“关闭电灯”,则单片机将该语音的特征值输入单片机上的深度神经网络识别器进行似然度估计,发现输入的语音信号与“关闭电灯”这条命令有很高的似然度,判断这条指令被激活,单片机的GPIO引脚输出低电平给单火取电电路,此时火线断开,电灯熄灭,对于单片机匹配成功之后是输出高电平还是低电平,是根据语音意思提前设定好的,另外在匹配成功后,单片机会首先检查GPIO引脚的状态,看看是否要切换,比如原来是高电平状态,识别为打开电灯,此时就保持GPIO不变;如果识别出关闭电灯,就切换GPIO引脚到低电平的状态。在具体实施过程中,步骤S30中单片机在对采集的语音进行声学特征参数的提取以及似然概率的计算之前进行降噪处理与前端处理,该前端处理的具体方式为:通过端点检测在语音信号中将语音和非语音信号时段区分开来,确定出语音信号的起始点,经过端点检测后,后续处理只需对语音信号进行即可,通过噪音处理能够有效抑制噪声的干扰,提高识别率,通过前端处理能够准确地确定出语音信号的起始点,对提高模型的精确度和识别正确率有重要作用。在具体实施过程中,由于声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使语音本文档来自技高网...

【技术保护点】
1.一种多词语音控制通断装置的方法,其特征在于包括以下步骤:S10:预先训练、存储多个唤醒词汇的特征值到系统硬件中单片机的flash模块内;S20:通过模拟麦克风实时采集语音并输入至对应的单片机引脚;S30:单片机通过实时运行预处理算法对采集的语音进行声学特征参数的提取以及似然概率的计算;S40:如果单片机实时提取的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值匹配,则进行对通断装置的对应控制;S50:如果单片机实时计算的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值都不匹配,则继续进行步骤S20。

【技术特征摘要】
1.一种多词语音控制通断装置的方法,其特征在于包括以下步骤:S10:预先训练、存储多个唤醒词汇的特征值到系统硬件中单片机的flash模块内;S20:通过模拟麦克风实时采集语音并输入至对应的单片机引脚;S30:单片机通过实时运行预处理算法对采集的语音进行声学特征参数的提取以及似然概率的计算;S40:如果单片机实时提取的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值匹配,则进行对通断装置的对应控制;S50:如果单片机实时计算的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值都不匹配,则继续进行步骤S20。2.根据权利要求1所述的一种多词语音控制通断装置的方法,其特征在于在步骤S30中,单片机在对采集的语音进行声学特征参数的提取以及似然概率的计算之前进行降噪处理与前端处理,该前端处理的具体方式为:通过端点检测在语音信号中将语音和非语音信号时段区分开来,确定出语音信号的起始点,经过端点检测后,后续处理只需对语音信号进行即可。3.根据权利要求1所述的一种多词语音控制通断装置的方法,其特征在于在步骤S30中,提取声学特征参数的具体方式为:首先对语音信号进行短时傅里叶分...

【专利技术属性】
技术研发人员:何昕蔡洪滨陈学超顾樑
申请(专利权)人:上海声瀚信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1