一种演讲训练反馈方法、装置及存储介质制造方法及图纸

技术编号:38320822 阅读:13 留言:0更新日期:2023-07-29 09:02
本发明专利技术公开了一种演讲训练反馈方法、装置及存储介质,通过采集设备实时获取演讲者的图像数据以及声音数据,图像数据包括演讲者的所在空间的三维深度信息,基于多模态数据进行后续处理分析,有利于提供更加准确的数据支持;通过边缘设备实时地基于自适应增强模型以及区域注意力机制对图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别,实现更快速的处理速度,保证实时性;匹配目标演讲效果评估模型输出改进建议,保证了模态分析结果以及改进建议的实时性,有利于演讲者及时改进调整,提高演讲效果,考虑演讲者的需求,有利于提高用户体验。验。验。

【技术实现步骤摘要】
一种演讲训练反馈方法、装置及存储介质


[0001]本专利技术涉及深度学习
,特别是涉及一种演讲训练反馈方法、装置及存储介质。

技术介绍

[0002]传统对人物对象的分析方法往往只考虑单一的数据源,例如对表情进行单一的分析,数据来源单一导致最终的分析结果准确性较差。同时,传统的图像数据处理往往是在云端进行的,大量图像数据上传至云端,对网络的要求高,并且存在计算延迟高、处理速度慢的问题。最后,传统分析的方法仅仅考虑人物本身的表现而忽略了不同人物对象的不同需求,用户体验差。

技术实现思路

[0003]基于此,本专利技术的目的在于解决上述问题中的至少之一,提供一种演讲训练反馈方法、装置及存储介质。
[0004]本专利技术实施例提供了一种演讲训练反馈方法,包括:通过采集设备实时获取演讲者的图像数据以及声音数据;所述图像数据包括所述演讲者的所在空间的三维深度信息;通过边缘设备实时地基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别,得到外表特征信息以及声音特征信息融合后融合特征向量;通过所述边缘设备实时地对所述融合特征向量进行模态分析,得到模态分析结果,并响应于输入的第一需求信息,匹配目标演讲效果评估模型输出改进建议,实时显示所述模态分析结果以及所述改进建议。
[0005]进一步,所述通过采集设备实时获取演讲者的图像数据以及声音数据,包括:通过AI辅助调节系统实时检测所述演讲者的姿态和位置,自动调节高清摄像头以及深度摄像头的位置角度,以通过所述高清摄像头实时获取所述演讲者的高清图像以及通过所述深度摄像头实时获取所述三维深度信息,得到所述图像数据;通过灵敏麦克风实时采集所述演讲者的声音信号以及通过阵列麦克风实时采集所述演讲者的所在空间的噪声信号并进行降噪处理,得到所述声音数据。
[0006]进一步,所述基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理,包括:基于自适应增强模型对所述图像数据的图像信息进行自适应调整得到质量提高后的新图像数据;基于所述区域注意力机制学习所述新图像数据不同区域的重要性以及关注度,以对所述新图像数据的不同区域进行不同程度的图像处理,得到第一处理结果。
[0007]进一步,所述方法还包括:通过所述边缘设备实时地通过外表情感识别模型,对所述图像数据或者所述第一处理结果进行外表情感分析,得到所述演讲者的外表情感信息,获取场景信息或者第二需求信息,根据所述外表情感信息以及根据所述场景信息和第二需求信息中的其中一个,实时显示对所述演讲者的外表情感调整建议;通过所述边缘设备实时地通过语音情感识别模型进行声音情感分析,得到所述演讲者的声音情感信息,获取场景信息或者第三需求信息,根据所述声音情感信息以及根据所述场景信息和第三需求信息中的其中一个,实时显示对所述演讲者的声音情感调整建议。
[0008]进一步,所述基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理,包括:基于所述自适应抑制模型根据所述演讲者的所在空间的噪声特征对所述声音数据进行自适应抑制,得到质量提高后的新声音数据;基于所述语音活动检测模型对所述新声音数据进行活动检测,识别所述演讲者的声音信号的开始时间以及结束时间,保留所述开始时间至所述结束时间之间的声音信号,得到第二处理结果。
[0009]进一步,所述对第一处理结果以及第二处理结果多模态融合识别,得到外表特征信息以及声音特征信息融合后融合特征向量,包括:通过特征提取模型对所述第一处理结果以及所述第二处理结果通过多模态融合得到多模态数据;对所述多模态数据进行端到端的学习和特征提取,得到所述融合特征向量;其中,所述特征提取模型通过教师模型进行蒸馏学习,并进行模型压缩处理后得到。
[0010]进一步,所述响应于输入的第一需求信息,匹配目标演讲效果评估模型输出改进建议,实时显示所述模态分析结果以及所述改进建议,包括:响应于输入的第一需求信息,提取所述第一需求信息中的关键词;所述第一需求信息包括所述演讲者输入的信息以及通过收看终端观看所述演讲者的观众所输入的信息中的至少一种;将所述关键词与所述边缘设备的数据库中的演讲效果评估模型的标签进行相似度计算;将相似度最高的演讲效果评估模型作为所述目标演讲效果评估模型输出改进建议,并将所述改进建议以及所述模态分析结果在所述边缘设备中实时显示。
[0011]本专利技术实施例还提供一种演讲训练反馈装置,包括:获取模块,用于通过采集设备实时获取演讲者的图像数据以及声音数据;所述图像数据包括所述演讲者的所在空间的三维深度信息;处理模块,用于通过边缘设备实时地基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别,得到外表特征信息以及声音特征信息融合后融合特征向量;
分析显示模块,用于通过所述边缘设备实时地对所述融合特征向量进行模态分析,得到模态分析结果,并响应于输入的第一需求信息,匹配目标演讲效果评估模型输出改进建议,实时显示所述模态分析结果以及所述改进建议。
[0012]本专利技术实施例还提供一种演讲训练反馈装置,所述演讲训练反馈装置包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。
[0013]本专利技术实施例还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。
[0014]本专利技术的有益效果是:通过采集设备实时获取演讲者的图像数据以及声音数据,所述图像数据包括所述演讲者的所在空间的三维深度信息,通过采集演讲者的图像数据以及声音数据,并且包含有演讲者的所在空间的三维深度信息,基于多模态数据进行后续处理分析,有利于提供更加准确的数据支持,提高处理分析的准确性;通过边缘设备实时地基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别,得到外表特征信息以及声音特征信息融合后融合特征向量,实现了更快速的处理速度和更低的能耗,提高了数据处理的实时性,并且提高图像数据以及声音数据的特征表达能力;通过所述边缘设备实时地对所述融合特征向量进行模态分析,得到模态分析结果,并响应于输入的第一需求信息,匹配目标演讲效果评估模型输出改进建议,实时显示所述模态分析结果以及所述改进建议,保证了模态分析结果以及改进建议的实时性,有利于演讲者及时改进调整,提高演讲效果;同时考虑了演讲者的需求,有利于提高用户体验。
[0015]为了更好地理解和实施,下面结合附图详细说明本专利技术。
附图说明
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种演讲训练反馈方法,其特征在于,包括:通过采集设备实时获取演讲者的图像数据以及声音数据;所述图像数据包括所述演讲者的所在空间的三维深度信息;通过边缘设备实时地基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理、基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理、对第一处理结果以及第二处理结果多模态融合识别,得到外表特征信息以及声音特征信息融合后融合特征向量;通过所述边缘设备实时地对所述融合特征向量进行模态分析,得到模态分析结果,并响应于输入的第一需求信息,匹配目标演讲效果评估模型输出改进建议,实时显示所述模态分析结果以及所述改进建议。2.根据权利要求1所述演讲训练反馈方法,其特征在于:所述通过采集设备实时获取演讲者的图像数据以及声音数据,包括:通过AI辅助调节系统实时检测所述演讲者的姿态和位置,自动调节高清摄像头以及深度摄像头的位置角度,以通过所述高清摄像头实时获取所述演讲者的高清图像以及通过所述深度摄像头实时获取所述三维深度信息,得到所述图像数据;通过灵敏麦克风实时采集所述演讲者的声音信号以及通过阵列麦克风实时采集所述演讲者的所在空间的噪声信号并进行降噪处理,得到所述声音数据。3.根据权利要求1

2任一项所述演讲训练反馈方法,其特征在于:所述基于自适应增强模型以及区域注意力机制对所述图像数据进行第一处理,包括:基于自适应增强模型对所述图像数据的图像信息进行自适应调整得到质量提高后的新图像数据;基于所述区域注意力机制学习所述新图像数据不同区域的重要性以及关注度,以对所述新图像数据的不同区域进行不同程度的图像处理,得到第一处理结果。4.根据权利要求3所述演讲训练反馈方法,其特征在于:所述方法还包括:通过所述边缘设备实时地通过外表情感识别模型,对所述图像数据或者所述第一处理结果进行外表情感分析,得到所述演讲者的外表情感信息,获取场景信息或者第二需求信息,根据所述外表情感信息以及根据所述场景信息和第二需求信息中的其中一个,实时显示对所述演讲者的外表情感调整建议;通过所述边缘设备实时地通过语音情感识别模型进行声音情感分析,得到所述演讲者的声音情感信息,获取场景信息或者第三需求信息,根据所述声音情感信息以及根据所述场景信息和第三需求信息中的其中一个,实时显示对所述演讲者的声音情感调整建议。5.根据权利要求3所述演讲训练反馈方法,其特征在于:所述基于自适应抑制模型以及语音活动检测模型对所述声音数据进行第二处理,包括:基于所述自适应抑制模型根据所述演讲者的所在空间的噪声特征对所述声音数据进行自适应抑制,得到质量提高后的新声音数据;基于所述语音活动检测模型...

【专利技术属性】
技术研发人员:李翔赵璧刘慧张龙方泽军
申请(专利权)人:新励成教育科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1