一种基于边缘计算的多模态会议记录方法及系统技术方案

技术编号：38163537 阅读：14 留言：0更新日期：2023-07-13 09:37

本发明专利技术公开了一种基于边缘计算的多模态会议记录方法及系统，涉及边缘计算技术领域。该方法包括：获取会议中说话人的实时视频数据和音频数据；将视频数据和音频数据传输到边缘计算设备的唇动识别模型中，利用唇动识别模型确定说话人的第一身份信息；将音频数据传输到边缘计算设备的语音识别模型中，利用语音识别模型确定说话人的第二身份信息；采用身份判定模型确定最终说话人身份；将音频数据按照说话人身份分别进行转译得到文本数据，形成会议记录。本发明专利技术在唇动识别、语音识别、文本转译过程中充分利用了边缘计算设备，将计算任务卸载到边缘设备，提高了运算能力，可以在多场景下实时识别对应人员身份并快速记录会议内容。时识别对应人员身份并快速记录会议内容。时识别对应人员身份并快速记录会议内容。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于边缘计算的多模态会议记录方法及系统

[0001]本专利技术涉及边缘计算
，尤其涉及一种基于边缘计算的多模态会议记录方法及系统。

技术介绍

[0002]随着人工智能技术的不断发展，人脸识别、唇动识别、语音识别、文本转译等技术在人机交互中有了突飞猛进的进展，在会议人员身份识别、会议记录等场景中都有应用，但是单一模态识别难以满足多场景、多环境的会议人员身份识别及会议记录要求，多模态识别分析技术能让设备看清、听清，更能深入理解交流场景背后的各方表达的内容，减少会议中的错误记录。
[0003]然而，基于多模态识别分析技术的会议记录结合了多种人工智能处理技术，需要更加复杂的神经网络模型来支撑，在进行会议记录时要求人员身份定位要准确、会议内容要及时，需要大量的计算资源和高通信效率，当前的计算场景难以支撑。目前的终端计算能力有限，而多模态人员身份识别、会议记录设备中多模态计算模型的计算需要大量的资源消耗，因此目前的终端设备大多采用单模态处理，难以实现多模态身份识别、会议记录的要求。

技术实现思路

[0004]针对现有技术存在的不足，本专利技术的目的是提供一种基于边缘计算的多模态会议记录方法及系统，在唇动识别、语音识别、文本转译过程中充分利用了边缘计算设备，将计算任务卸载到边缘设备，提高了运算能力，可以在多场景下实时识别对应人员身份并快速记录会议内容。
[0005]为了实现上述目的，本专利技术是通过如下的技术方案来实现：本专利技术第一方面提供了一种基于边缘计算的多模态会议记录方法，包括以下...

【技术保护点】

【技术特征摘要】
1.一种基于边缘计算的多模态会议记录方法，其特征在于，包括以下步骤：获取会议中说话人的实时视频数据和音频数据；将视频数据和音频数据传输到边缘计算设备的唇动识别模型中，利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征，将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对，确定说话人的第一身份信息；将音频数据传输到边缘计算设备的语音识别模型中，利用语音识别模型对音频数据进行转换得到当前说话人的音频特征，将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对，确定说话人的第二身份信息；其中，预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征；采用身份判定模型对第一身份信息和第二身份信息进行综合判定，确定最终说话人身份；将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据，形成会议记录。2.如权利要求1所述的基于边缘计算的多模态会议记录方法，其特征在于，唇动识别模型的构建过程为：将已有训练样本中的视频数据按照时间排序提取唇动数据；将唇动数据作为动态变化特征的最小训练单元；将唇动数据进行说话人唇部动作的分解，按照分解数据得到连续帧点的唇部位置变化，作为静态瞬时特征的最小训练单元；对动态变化特征和静态瞬时特征分别进行训练后再进行融合得到唇动识别模型。3.如权利要求1所述的基于边缘计算的多模态会议记录方法，其特征在于，语音识别模型的构建过程为：将已有训练样本中的音频数据转换为频谱信号；利用小波变换去除频谱信号中的噪声信息；利用去噪后的频谱信号中的频点能量确定不同人员的音色特征；利用音色特征进行训练得到语音识别模型。4.如权利要求1所述的基于边缘计算的多模态会议记录方法，其特征在于，所述身份判定模型将第一身份信息和第二身份信息通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份。5.如权利要求4所述的基于边缘计算的多模态会议记录方法，其特征在于，所述加权值根据第一身份信息和第二身份信息的决策占比进行自定义设置。6.如权利要求1所述的基于边缘计算的多模态会议记录方法，其特征在于，将音频数据按照说话人身份分别进行...

【专利技术属性】
技术研发人员：郭锐，李士宽，许志国，马晓红，张建成，陈纪旸，鹿全礼，任强，宁伟，祝天成，刘永泉，杨锐，
申请(专利权)人：山东正中信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人