一种协助视障人员沟通的情感识别方法及装置制造方法及图纸

技术编号:34250977 阅读:12 留言:0更新日期:2022-07-24 11:32
本发明专利技术提供一种协助视障人员沟通的情感识别方法及装置。所述方法包括:获取由摄像头拍摄的对话人的脸部图像,获取由语音模块输出的对话人的音频信号及其对应的文本;将所述脸部图像、音频信号和文本分别输入图像情感识别模型、音频情感识别模型和文本情感识别模型,对输出结果进行融合后输出对话人的情感类别;通过语音播放将对话人的情感类别通知视障用户。本发明专利技术基于图像、音频和文本的情感识别结果的融合进行情感识别,提高了情感识别的精度。另外,本发明专利技术还能同时对视障用户进行情感识别和心理状态识别,并能根据视障用户的心理状态的程度给出心理疏导提示或通过直接播放语音进行疏导。语音进行疏导。语音进行疏导。

An emotion recognition method and device to assist visually impaired people in communication

【技术实现步骤摘要】
一种协助视障人员沟通的情感识别方法及装置


[0001]本专利技术属于人工智能
,具体涉及一种协助视障人员沟通的情感识别方法及装置。

技术介绍

[0002]盲人是社会上的特殊人群。由于先天或后天的缺陷,使他们无法像正常人一样独立工作生活。目前,盲人一般凭借拐杖和盲道等设施进行导盲,但这些设施并不齐全且无法保证安全。因此,针对这类特殊人群,国内外企业提供了大量辅助设备让盲人的生活更加便捷安全。盲人在日常生活中无法看见身边的事物,在社交时也无法通过对话人的表情动作等判断对方的情感状态,因此盲人社交、出行活动较为困难,有时还会受到冷漠对待。这种导盲眼镜可以通过语音、对话人表情以及说话文本等综合识别对话人及盲人的情感,帮助盲人在日常生活中进行社交,关注盲人心理健康,一旦发现盲人情绪不佳也会进行相应的心理疏导。
[0003]现有智能导盲眼镜大部分不具有情绪识别功能,少数智能导盲眼镜也仅仅是利用图像识别捕捉表情。由于人的情感不仅通过面部表情表达,还通过声音、文字等各个方面表达,只基于图像识别的现有产品无法为用户提供准确的情感识别功能,无法满足用户在复杂社交场景下的需求。

技术实现思路

[0004]为了解决现有技术中存在的上述问题,本专利技术提供一种协助视障人员沟通的情感识别方法及装置。
[0005]为了实现上述目的,本专利技术采用以下技术方案。
[0006]第一方面,本专利技术提供一种协助视障人员沟通的情感识别方法,包括以下步骤:
[0007]获取由摄像头拍摄的对话人的脸部图像,获取由语音模块输出的对话人的音频信号及其对应的文本;
[0008]将所述脸部图像、音频信号和文本分别输入图像情感识别模型、音频情感识别模型和文本情感识别模型,对输出结果进行融合后输出对话人的情感类别;
[0009]通过语音播放将对话人的情感类别通知视障用户。
[0010]进一步地,所述方法还包括:
[0011]获取由语音模块输出的视障用户的音频信号及其对应的文本;
[0012]将所述音频信号和文本分别输入音频情感识别模型和文本情感识别模型,对输出结果进行融合后输出视障用户的情感类别;
[0013]通过语音播放将所述情感类别通知视障用户。
[0014]更进一步地,所述方法还包括:基于音频情感识别模型和文本情感识别模型的输出进行融合输出视障用户的心理状态级别。
[0015]更进一步地,如果所述心理状态级别超过设定的阈值,提示视障用户进行心理疏
导,或通过播放语音进行疏导。
[0016]更进一步地,所述情感类别包括:生气,高兴,害怕,悲伤,惊讶,中性。
[0017]更进一步地,所述心理状态级别包括:完全正常,良好,轻度不适,重度不适。
[0018]更进一步地,所述图像情感识别模型采用VGG19和ResNet18网络结构。
[0019]更进一步地,所述音频情感识别模型采用Conformer网络结构。
[0020]更进一步地,所述文本情感识别模型采用双向Transformer网络结构。
[0021]第二方面,本专利技术提供一种协助视障人员沟通的情感识别装置,包括:
[0022]数据获取模块,用于获取由摄像头拍摄的对话人的脸部图像,获取由语音模块输出的对话人的音频信号及其对应的文本;
[0023]情感识别模块,用于将所述脸部图像、音频信号和文本分别输入图像情感识别模型、音频情感识别模型和文本情感识别模型,对输出结果进行融合后输出对话人的情感类别;
[0024]信息提示模块,用于通过语音播放将对话人的情感类别通知视障用户。
[0025]与现有技术相比,本专利技术具有以下有益效果。
[0026]本专利技术通过获取由摄像头拍摄的对话人的脸部图像,获取由语音模块输出的对话人的音频信号及其对应的文本,将所述脸部图像、音频信号和文本分别输入图像情感识别模型、音频情感识别模型和文本情感识别模型,对输出结果进行融合后输出对话人的情感类别,通过语音播放将对话人的情感类别通知视障用户,实现了对话人情感的自动识别。本专利技术基于图像、音频和文本的情感识别结果的融合进行情感识别,提高了情感识别的精度。另外,本专利技术还能同时对视障用户进行情感识别和心理状态识别,并能根据视障用户的心理状态的程度给出心理疏导提示或直接播放语音进行疏导。
附图说明
[0027]图1为本专利技术实施例一种协助视障人员沟通的情感识别方法的流程图。
[0028]图2为本专利技术另一实施例的整体流程示意图。
[0029]图3为本专利技术实施例一种协助视障人员沟通的情感识别装置的方框图。
具体实施方式
[0030]为使本专利技术的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本专利技术作进一步说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]图1为本专利技术实施例一种协助视障人员沟通的情感识别方法的流程图,包括以下步骤:
[0032]步骤101,获取由摄像头拍摄的对话人的脸部图像,获取由语音模块输出的对话人的音频信号及其对应的文本;
[0033]步骤102,将所述脸部图像、音频信号和文本分别输入图像情感识别模型、音频情感识别模型和文本情感识别模型,对输出结果进行融合后输出对话人的情感类别;
[0034]步骤103,通过语音播放将对话人的情感类别通知视障用户。
[0035]本实施例提供一种协助视障人员沟通的情感识别方法。本实施例所述方法由安装在眼镜或头盔上的导盲设备实现。所述导盲设备至少包括一个主控模块、一个视频图像获取模块、一个设有麦克风和扬声器的语音模块。视频图像获取模块主要由摄像头组成,用于获取对话人的脸部视频图像,并将所述视频图像送到主控模块。语音模块主要用于将对话人和视障用户(眼镜或头盔佩戴者)的声音转换成音频信号和文本,并送到主控模块;或将由主控模块输入的文本转换成语音通过扬声器向视障用户播放提示信息。主控模块是信号处理和控制中心,完成所有的数据处理任务并通过输出控制信号协调各模块的工作。
[0036]本实施例中,步骤101主要用于获取对话人的脸部图像、音频信号和文本。对话人的脸部图像由安装在眼镜或头盔上的摄像头获得;对话人的音频信号由语音模块的麦克风将对话人的声音转换成模拟音频信号,再对其进行模数转换变成数字音频信号;文本由语音模块对所述音频信号进行识别得到。
[0037]本实施例中,步骤102主要用于进行情感识别。现有技术的情感识别一般只基于脸部图像的表情识别,信息量小,识别精度低。由于人的情感还可以通过说话声音大小(幅度)、语调快慢(频率)表现出来,也可以通过文字描述即文本来表达,为了提高情感识别的精度,本实施例从脸部图像、音频信号和文本三个方面进行情感识别,然后对三个方面的识别结果进行融合得到最终的情感识别结果。具体地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种协助视障人员沟通的情感识别方法,其特征在于,包括以下步骤:获取由摄像头拍摄的对话人的脸部图像,获取由语音模块输出的对话人的音频信号及其对应的文本;将所述脸部图像、音频信号和文本分别输入图像情感识别模型、音频情感识别模型和文本情感识别模型,对输出结果进行融合后输出对话人的情感类别;通过语音播放将对话人的情感类别通知视障用户。2.根据权利要求1所述的协助视障人员沟通的情感识别方法,其特征在于,所述方法还包括:获取由语音模块输出的视障用户的音频信号及其对应的文本;将所述音频信号和文本分别输入音频情感识别模型和文本情感识别模型,对输出结果进行融合后输出视障用户的情感类别;通过语音播放将所述情感类别通知视障用户。3.根据权利要求2所述的协助视障人员沟通的情感识别方法,其特征在于,所述方法还包括:基于音频情感识别模型和文本情感识别模型的输出进行融合输出视障用户的心理状态级别。4.根据权利要求3所述的协助视障人员沟通的情感识别方法,其特征在于,如果所述心理状态级别超过设定的阈值,提示视障用户进行心理疏导,或通过播放语音进行疏导。5.根据权利要求4所述的协助视障人员沟通的...

【专利技术属性】
技术研发人员:吴子丰俞益洲李一鸣乔昕
申请(专利权)人:杭州深睿博联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1