用于帮助聋哑人的SOS系统技术方案

技术编号:22726143 阅读:16 留言:0更新日期:2019-12-04 07:13
一种用于帮助聋哑人的SOS系统,包括两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统、显示屏和处理器,所述处理器连接两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统和显示屏,所述处理器中,将用户的标志转换为响应者的音频,并且响应者的语音可以作为实时服务同时为呼叫者签名。本发明专利技术能够帮助聋哑人快速无障碍求救。

SOS system for deaf mute

A SOS system for helping the deaf mute includes two monochrome infrared cameras, three infrared LEDs, high-definition condenser microphone for speech recognition, GPRS real-time voice call system, display screen and processor, the processor is connected with two monochrome infrared cameras, three infrared LEDs, high-definition condenser microphone for speech recognition, GPRS real-time voice call system and The display screen, in the processor, converts the user's logo to the responder's audio, and the responder's voice can be signed for the caller as a real-time service at the same time. The invention can help the deaf mute to seek help quickly and without obstacles.

【技术实现步骤摘要】
用于帮助聋哑人的SOS系统
本专利技术涉及一种SOS系统,利用人工智能将任何给定音频内容转换为由3D可定制动画模型的手语,以帮助聋哑人快速无障碍求救。
技术介绍
聋哑人无法说话或倾听,这通常由言语障碍或手术导致,而这种不便导致聋哑人在某些社交场合更不愿意说话。气管插管、气管造口术或声带或气管对疾病或创伤的损伤可能会使患者非常沮丧。据统计,10,000人中有8人天生聋哑。但是,世界人口中目前存在多少聋哑人并未有确切数字。聋哑通常是由于受伤或有关布罗卡大脑区域的问题引起的。当一个人双耳听力阈值均为25dB或更高时,那他就患有听力损失症状。“听力障碍”是指听力损失从轻微到严重的人。聋人大多有严重的听力损失,这意味着他们几乎没有听力。全球约有4.66亿人患有听力损失,超过世界人口的5%。据估计,到2050年,超过9亿人或每10人中就有一人将遭受听力丧失。他们将不得不使用手语进行交流。因此,当听障人士想要紧急呼叫消防员、警察或者救护车时,问题就出现了。紧急情况下分秒必争,有时事关生死。许多听力障碍或言语障碍的人(聋哑人)发现自己无法在巨大压力和恐慌情况下进行有效沟通。所以应该有像SOS系统这样可以挽救生命的翻译服务。在英国有人可能会说,如果那些聋哑人无法沟通,那么他们可以发短信,使用eSMS联系SOS服务中心;但实际上据紧急文本服务网站(emergencytextservicewebsite)称:“你(聋哑人)需要大约两分钟的时间来告知他们紧急信息。如果对方在三分钟内没有回复,我们建议您发送另一条消息。”>虽然SOS呼叫的平均应答时间仅为7秒左右,但文本服务与基于语音的服务无法相提并论。聋哑人或任何患有哮喘和呼吸困难症状的人,当他们想要致电急救中心通知警察、救护车或消防服务时,他们都需要立即帮助。另一方面,SOS信号是一个由三个点,三个破折号和三个点组成的连续莫尔斯代码串,之间没有空格或句号(......---......)。由于在国际摩尔斯电码,三个点标示为“S”而三个破折号标示为“O”,因此为方便起见,因此该信号被称为“SOS”。作为社区中庞大而重要的组成部分,聋哑人需要特别服务来将手语翻译成音频以及将音频翻译成手语,以帮助他们了解周围发生的事情,特别是在包含音频内容的公共场所。例如警察局、医院和消防和各种紧急服务中心;或者是街道和任何拥挤的地方,又或者是其他任何发生紧急情况需要立即处理的地方。
技术实现思路
为了克服已有技术聋哑人无法及时实现SOS呼叫的不足,本专利技术提供了一种可以辅助聋哑人及时实现SOS呼叫的用于帮助聋哑人的SOS系统。本专利技术解决其技术问题所采用的技术方案是:一种用于帮助聋哑人的SOS系统,包括两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统、显示屏和处理器,所述处理器连接两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统和显示屏,所述处理器中,将用户的标志转换为响应者的音频,并且响应者的语音可以作为实时服务同时为呼叫者签名。进一步,所述SOS系统为移动通信终端,适用于Android和iOS操作系统,设定次数摇动后再次摇动移动通信终端启动SOS呼叫。再进一步,所述移动通信终端还包括用于使用预先训练的模型进行手语和音频转换的模块。所述模型建立的步骤如下:1.构建3D动画数据集;2.模拟到数字转换;3.无监督学习模型;4.重复步骤3以达到局部最小误差;5.转发监督学习模型的内部表示;6.比较监督学习的估计和实际输出结果;7.重复步骤5以获得准确有效的输出;8.将翻译的手语生成为带有标签的动画3D角色;9.将经过训练的模型导出到独立设备和移动通信终端的App。在生成不同语言的手语动作后,将这些手语动作存储在存储器中;上述预先训练的模型能够将任何输入音频内容转换为手语。所述步骤1中,使用两个单色红外摄像机和三个红外LED模拟不同手语(如阿拉伯语,中文,英语和俄语)的所有字母表集,并将其存储在存储器中。所述步骤2中,使用模数转换器,使用8位脉冲宽度调制,产生数字输入给计算机进行训练,测试和验证;所述步骤3中,音频比特流转发到自动编码器神经网络的输入层,开始无监督学习,通过对输入内容进行编码并对其进行解码以再次再现它来生成内部表示;自动编码器是一个三层神经网络:输入,隐藏和输出层,输入层使用instar学习算法来更新其权重,如公式(1)所示:dw=lr*a*(p′-w)(1)输出层使用outstar学习算法,如公式(2)所示:dw=lr*(a-w)*p′(2)其中,dw是权重变化矩阵,lr是学习率,它是可调整的非负因子,a是该层的输出向量,w是权重矩阵,p′是输入向量;所述步骤4中,重复步骤2,以达到局部最小误差,通过降低平均绝对误差MAE,如公式(3)所示:error=outputvector-inputcue(3)其中,error是平均绝对误差MAE,outputvector是输出向量,inputcue是输入向量;所述步骤5中,在完成无监督学习之后,自动编码器的内部表示已被转发到量子神经网络以进行监督学习;该网络是三层量子神经网络,使用公式(4)处理自动编码器的内部表示UN是qubit的单式矩阵,σi是i∈{1,2,3}的Pauli矩阵,即泡利矩阵,σ0是2×2单位矩阵,aj是实际输出;Pauli矩阵,也叫做泡利自旋矩阵,是量子力学中泡利处理自旋时产生的复杂矩阵,该矩阵由等式(5)定义;其中,σ0是2×2单位矩阵,σi是i∈{1,2,3}的Pauli矩阵;所述步骤6中,虽然期望的输出是相关输入音频内容的3D动画手语,等式(6)和(7)使用梯度下降算法将其与实际输出进行比较:其中,是变化更新量,lr是式(2)中的学习率,是实际输出值,是成本函数的偏导值;其中,C是使用均方误差定义的成本函数,为实际输出值,为期望输出值;所述步骤7中,重复步骤5,以达到最小的全局误差,通过减小等式(7)的均方误差;所述步骤8中,训练好的模型现在准备好将每个手语关联起来,该手语作为数据库与其相关的输入音频内容一起存储;所述步骤9中,用户可以自定义他的3D角色(肤色,装扮体形,面部表情,风格等),以将其作为独立设备或移动通信终端应用程序所导出的3D动画对象。更进一步,所述处理器为raspberrypi3B+。本专利技术的有益效果主要表现在:能够帮助聋哑人快速无障碍求救。附图说明图1是自编码器神经网络(无监督虚学习模型)的示意图。图2是量子神经网络(监督学习模型)的示意图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1和图2,一种本文档来自技高网...

【技术保护点】
1.一种用于帮助聋哑人的SOS系统,其特征在于,包括两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统、显示屏和处理器,所述处理器连接两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统和显示屏,所述处理器中,将用户的标志转换为响应者的音频,并且响应者的语音可以作为实时服务同时为呼叫者签名。/n

【技术特征摘要】
1.一种用于帮助聋哑人的SOS系统,其特征在于,包括两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统、显示屏和处理器,所述处理器连接两个单色红外摄像头、三个红外LED、用于语音识别的高清电容式麦克风、GPRS实时语音呼叫系统和显示屏,所述处理器中,将用户的标志转换为响应者的音频,并且响应者的语音可以作为实时服务同时为呼叫者签名。


2.如权利要求1所述的用于帮助聋哑人的SOS系统,其特征在于,所述SOS系统为移动通信终端,适用于Android和iOS操作系统,设定次数摇动后再次摇动移动通信终端启动SOS呼叫。


3.如权利要求2所述的用于帮助聋哑人的SOS系统,其特征在于,所述移动通信终端还包括用于使用预先训练的模型进行手语和音频转换的模块。


4.如权利要求3所述的用于帮助聋哑人的SOS系统,其特征在于,所述模型建立的步骤如下:
1.构建3D动画数据集;
2.模拟到数字转换;
3.无监督学习模型;
4.重复步骤3以达到局部最小误差;
5.转发监督学习模型的内部表示;
6.比较监督学习的估计和实际输出结果;
7.重复步骤5以获得准确有效的输出;
8.将翻译的手语生成为带有标签的动画3D角色;
9.将经过训练的模型导出到独立设备和移动通信终端的App;
在生成不同语言的手语动作后,将这些手语动作存储在存储器中。


5.如权利要求4所述的用于帮助聋哑人的SOS系统,其特征在于,所述步骤1中,使用两个单色红外摄像机和三个红外LED模拟不同手语的所有字母表集,并将其存储在存储器中;
所述步骤2中,使用模数转换器,使用8位脉冲宽度调制,产生数字输入给计算机进行训练,测试和验证;
所述步骤3中,音频比特流转发到自动编码器神经网络的输入层,开始无监督学习,通过对输入内容进行编码并对其进行解码以再次再现它来生成内部表示;
自动编码器是一个三层神经网络:输入,隐藏和输出层,输入层使用instar学习算法来更新其权重,如公式(1)所示:
...

【专利技术属性】
技术研发人员:穆斯塔法艾扎达李业芃姚凯阿克巴
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1