The invention discloses a method and system of a multi-word voice control on-off device, in which the steps of the method include: pre-training and storing the eigenvalues of multiple wake-up words into the hardware of the system; real-time acquisition of voice by analog microphone and input to the corresponding pins of single chip computer; extraction of acoustic characteristic parameters and calculation of likelihood probability by single chip computer; and if the voice matches. Successfully, the corresponding control is carried out, and if not matched, the system returns to the analog microphone acquisition step. The system includes a single chip computer, analog microphone, Flash module, A/D conversion module and peripheral circuit. The invention adds speech recognition technology on the basis of the common on-off device, realizes the switch of the voice control device, and also solves the existing off-line command word recognition and the peripheral circuit. In voice wake-up, the probability of false wake-up is high, the CPU and RAM occupied are large, it can not run on the single-chip computer, identify the problems of close distance and poor user experience, the overall design cost is low and easy to use.
【技术实现步骤摘要】
一种多词语音控制通断装置的方法及其系统
本专利技术涉及语音控制
,具体为一种多词语音控制通断装置的方法及其系统。
技术介绍
目前语音识别技术虽然取得了很大的进展但是目前应用还有很多局限性,语音识别一般分为云端的非特定人声大规模连续语音识别、可以不联网的命令词识别以及不联网的语音唤醒,各个语音识别都存在着自身的优点与缺点,其中:(1)云端识别,识别精度高,可以做语义理解(加TTS就可以实现对话),但是要求设备必须联网,成本高、响应时间慢、用户体验差。(2)命令词识别,就是通过某种触发如按键、语音唤醒使其工作,录3-5s的音然后识别,这种方式可行但是当控制时需要用户说二遍,如要打开电灯,需要先说唤醒词,如“hi,上海声瀚”等,等设备有反应后再说打开电灯,响应时间长,用户体验非常不好。(3)现有的不联网的语音识别模块,都是采用的ARM9及以上的cpu运行,需要多个麦克风,体积大,成本高,硬件模块尺寸无法放入小型的设备中,同时由于ARM9以上芯片都必须带操作系统如linux,系统的稳定性比单片机差很多,不适合用在长时间使用的设备中。(4)语音唤醒,为实时检测唤醒词,用户体验好,随时说一个词就能控制设备,但是当多词语音唤醒时,误唤醒的概率会增大,同时由于多词运行时占用的CPU和RAM会显著增大,所以对多词语音唤醒引擎算法要求很高,对软硬件的配合度也要求很高,目前市面上没有对应产品。
技术实现思路
针对
技术介绍
中存在的问题,本专利技术提供了一种多词语音控制通断装置的方法及其系统。为实现上述目的,本专利技术提供如下技术方案:一种多词语音控制通断装置的方法,包括以下步骤 ...
【技术保护点】
1.一种多词语音控制通断装置的方法,其特征在于包括以下步骤:S10:预先训练、存储多个唤醒词汇的特征值到系统硬件中单片机的flash模块内;S20:通过模拟麦克风实时采集语音并输入至对应的单片机引脚;S30:单片机通过实时运行预处理算法对采集的语音进行声学特征参数的提取以及似然概率的计算;S40:如果单片机实时提取的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值匹配,则进行对通断装置的对应控制;S50:如果单片机实时计算的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值都不匹配,则继续进行步骤S20。
【技术特征摘要】
1.一种多词语音控制通断装置的方法,其特征在于包括以下步骤:S10:预先训练、存储多个唤醒词汇的特征值到系统硬件中单片机的flash模块内;S20:通过模拟麦克风实时采集语音并输入至对应的单片机引脚;S30:单片机通过实时运行预处理算法对采集的语音进行声学特征参数的提取以及似然概率的计算;S40:如果单片机实时提取的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值匹配,则进行对通断装置的对应控制;S50:如果单片机实时计算的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值都不匹配,则继续进行步骤S20。2.根据权利要求1所述的一种多词语音控制通断装置的方法,其特征在于在步骤S30中,单片机在对采集的语音进行声学特征参数的提取以及似然概率的计算之前进行降噪处理与前端处理,该前端处理的具体方式为:通过端点检测在语音信号中将语音和非语音信号时段区分开来,确定出语音信号的起始点,经过端点检测后,后续处理只需对语音信号进行即可。3.根据权利要求1所述的一种多词语音控制通断装置的方法,其特征在于在步骤S30中,提取声学特征参数的具体方式为:首先对语音信号进行短时傅里叶分...
【专利技术属性】
技术研发人员:何昕,蔡洪滨,陈学超,顾樑,
申请(专利权)人:上海声瀚信息科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。