一种用于老人及病患照料的自动语音视频识别对讲系统技术方案

技术编号:23346420 阅读:42 留言:0更新日期:2020-02-15 04:55
本申请公开了一种用于老人及病患照料的自动语音视频识别对讲系统,其中,声音识别分类模块从采集的声音信息中识别并提取出用户的有声数据,用户动作提取模块从采集的视频信息中识别并提取出用户的动作图像特征,用户类型判断模块将有声数据和/或将动作图像特征与预先存有的样本数据进行比对,依据语音和/或图像的比对结果判断出用户是否为老人或病人,求助触发模块在用户类型判断模块判断出用户为老人或病人的情况下,触发对讲设备进行开启,以发出声音和/或图像信号。通过语音和视频对用户进行双重实时监控,一旦识别出用户发出求助声音或摆出求助姿势,则自动通过对讲设备进行求助信息的传达,无需操作语音通话设备表达求助需求。

An automatic voice and video recognition intercom system for the care of the elderly and patients

【技术实现步骤摘要】
一种用于老人及病患照料的自动语音视频识别对讲系统
本申请涉及语音及图像识别
,特别涉及一种用于老人及病患照料的自动语音视频识别对讲系统。
技术介绍
近年来,随着国家经济发展水平的提高以及文化教育的普及,每年新生儿的数量越来越少,人口出生率逐年下降,同时60岁以上老龄人口的数量也正在迅速增多,标志着社会正在快速向老龄化社会转变。老龄人口的迅速增多相应带来了许多问题,其中最重要的问题之一就是医疗保障问题。由于老年人本身由于身体机能逐渐随年龄增长而退化,因此有可能会存在动作不便、语音障碍的情况,例如肢体动作不自主地颤抖、动作缓慢、发声含糊、发音时间长等,甚至存在智力和视听觉上的障碍。而对于患病的老年人,甚至是患病后需要卧床、住院的老年人来说,上述情况更为普遍,甚至可能会发生失禁、发病等急需立即照料、治疗的情况发生。但由于身体原因使得病人很难依靠自己正常使用电话、对讲机等通讯设备召唤相关人员前来,因此未能在病人身边的护士或照看人员无法立即得知病人需要救助,导致贻误病情,不利于病人的休养,甚至可能会导致病人病危而危及生命。因此,在病本文档来自技高网...

【技术保护点】
1.一种用于老人及病患照料的自动语音视频识别对讲系统,其特征在于,包括:/n声音识别分类模块,用于从采集的声音信息中识别并提取出用户的有声数据;/n用户动作提取模块,用于从采集的视频信息中识别并提取出用户的动作图像特征;/n用户类型判断模块,用于将所述有声数据与预先存有的语音样本数据进行比对,和/或将所述动作图像特征与预先存有的图像样本数据进行比对,依据语音和/或图像的比对结果判断出用户是否为老人或病人;/n求助触发模块,用于在所述用户类型判断模块判断出用户为老人或病人的情况下,触发对讲设备进行开启,以发出声音和/或图像信号。/n

【技术特征摘要】
1.一种用于老人及病患照料的自动语音视频识别对讲系统,其特征在于,包括:
声音识别分类模块,用于从采集的声音信息中识别并提取出用户的有声数据;
用户动作提取模块,用于从采集的视频信息中识别并提取出用户的动作图像特征;
用户类型判断模块,用于将所述有声数据与预先存有的语音样本数据进行比对,和/或将所述动作图像特征与预先存有的图像样本数据进行比对,依据语音和/或图像的比对结果判断出用户是否为老人或病人;
求助触发模块,用于在所述用户类型判断模块判断出用户为老人或病人的情况下,触发对讲设备进行开启,以发出声音和/或图像信号。


2.如权利要求1所述的系统,其特征在于,所述声音识别分类模块包括:
语音分割子模块,用于对所述声音信息进行分割得到多个有声段;
语音分类子模块,用于对所述有声段按照单元音进行分类。


3.如权利要求2所述的系统,其特征在于,所述语音分割子模块包括:
能量及过零计算单元,用于计算所述声音信息中每一帧的短时能量和短时过零率;
起始点判定单元,用于在判断出当前帧满足阈值起始条件的情况下,对该当前帧进行起始标记,并在该当前帧之后的一定数量的帧均满足阈值起始条件的情况下,判定该当前帧为有声段的起始点,在所述一定数量的帧中任一帧未能满足阈值起始条件的情况下,消除该当前帧的起始标记;
结束点判定单元,用于在判定出起始点之后,并在判断出当前帧满足阈值结束条件的情况下,对该当前帧进行结束标记,并在该当前帧之后的一定数量的帧均满足阈值结束条件的情况下,判定该当前帧为有声段的结束点,在所述一定数量的帧中任一帧未能满足阈值结束条件的情况下,消除该当前帧的结束标记;
语音分割单元,用于依据所述起始点和相应的所述结束点从所述声音信息中提取出有声段;其中,
所述阈值起始条件为:短时能量超过高能量阈值,或者短时能量超过低能量阈值且短时过零率超过过零阈值;
所述阈值结束条件为:短时能量低于高能量阈值,或者短时过零率低于过零阈值。


4.如权利要求2或3所述的系统,其特征在于,所述语音分类子模块包括:
梅尔特征提取单元,用于基于梅尔频率倒谱系数提取所述有声段中每帧的梅尔特征向量;
匹配距离计算单元,用于以待分类的有声段单元音语音的梅尔特征向量帧数I和单元音模板的梅尔特征向量帧数J为坐标轴,基于动态时间规整算法算出从(1,1)坐标到(I,J)坐标的累计匹配距离和平均匹配距离;
单元音分类单元,用于基于所述累计匹配距离和平均匹配距离,从所有单元音模板中确定出与待分类的单元音语音在最佳路径上的匹配距离最小的单元音模板作为待分类语音的单元音类别。


5.如权利要求1所述的系统,其特征在于,所述用户类型判断模块包括:
语音特征提取子模块,用于提取所述有声数据的语音特征量,所述语音特征量包括基频、周期、峰峰值和谐波信噪比特征量;
语音特征识别子模块,用于将所述语音特征量输入三支决策分类器进行分类,依据分类结果判断出用户的人员类别。


6.如权利要求5所述的系统,其特征在于,所述语音特征提取子模块包括:<...

【专利技术属性】
技术研发人员:沈玺朱艳华寇京珅
申请(专利权)人:重庆特斯联智慧科技股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1