一种基于边缘计算的多模态会议记录方法及系统技术方案

技术编号:38163537 阅读:14 留言:0更新日期:2023-07-13 09:37
本发明专利技术公开了一种基于边缘计算的多模态会议记录方法及系统,涉及边缘计算技术领域。该方法包括:获取会议中说话人的实时视频数据和音频数据;将视频数据和音频数据传输到边缘计算设备的唇动识别模型中,利用唇动识别模型确定说话人的第一身份信息;将音频数据传输到边缘计算设备的语音识别模型中,利用语音识别模型确定说话人的第二身份信息;采用身份判定模型确定最终说话人身份;将音频数据按照说话人身份分别进行转译得到文本数据,形成会议记录。本发明专利技术在唇动识别、语音识别、文本转译过程中充分利用了边缘计算设备,将计算任务卸载到边缘设备,提高了运算能力,可以在多场景下实时识别对应人员身份并快速记录会议内容。时识别对应人员身份并快速记录会议内容。时识别对应人员身份并快速记录会议内容。

【技术实现步骤摘要】
一种基于边缘计算的多模态会议记录方法及系统


[0001]本专利技术涉及边缘计算
,尤其涉及一种基于边缘计算的多模态会议记录方法及系统。

技术介绍

[0002]随着人工智能技术的不断发展,人脸识别、唇动识别、语音识别、文本转译等技术在人机交互中有了突飞猛进的进展,在会议人员身份识别、会议记录等场景中都有应用,但是单一模态识别难以满足多场景、多环境的会议人员身份识别及会议记录要求,多模态识别分析技术能让设备看清、听清,更能深入理解交流场景背后的各方表达的内容,减少会议中的错误记录。
[0003]然而,基于多模态识别分析技术的会议记录结合了多种人工智能处理技术,需要更加复杂的神经网络模型来支撑,在进行会议记录时要求人员身份定位要准确、会议内容要及时,需要大量的计算资源和高通信效率,当前的计算场景难以支撑。目前的终端计算能力有限,而多模态人员身份识别、会议记录设备中多模态计算模型的计算需要大量的资源消耗,因此目前的终端设备大多采用单模态处理,难以实现多模态身份识别、会议记录的要求。

技术实现思路

[0004]针对现有技术存在的不足,本专利技术的目的是提供一种基于边缘计算的多模态会议记录方法及系统,在唇动识别、语音识别、文本转译过程中充分利用了边缘计算设备,将计算任务卸载到边缘设备,提高了运算能力,可以在多场景下实时识别对应人员身份并快速记录会议内容。
[0005]为了实现上述目的,本专利技术是通过如下的技术方案来实现:本专利技术第一方面提供了一种基于边缘计算的多模态会议记录方法,包括以下步骤:获取会议中说话人的实时视频数据和音频数据;将视频数据和音频数据传输到边缘计算设备的唇动识别模型中,利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息;将音频数据传输到边缘计算设备的语音识别模型中,利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息;其中,预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征;采用身份判定模型对第一身份信息和第二身份信息进行综合判定,确定最终说话人身份;
将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,形成会议记录。
[0006]进一步的,唇动识别模型的构建过程为:将已有训练样本中的视频数据按照时间排序提取唇动数据;将唇动数据作为动态变化特征的最小训练单元;将唇动数据进行说话人唇部动作的分解,按照分解数据得到连续帧点的唇部位置变化,作为静态瞬时特征的最小训练单元;对动态变化特征和静态瞬时特征分别进行训练后再进行融合得到唇动识别模型。
[0007]进一步的,语音识别模型的构建过程为:将已有训练样本中的音频数据转换为频谱信号;利用小波变换去除频谱信号中的噪声信息;利用去噪后的频谱信号中的频点能量确定不同人员的音色特征;利用音色特征进行训练得到语音识别模型。
[0008]进一步的,所述身份判定模型将第一身份信息和第二身份信息通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份。
[0009]更进一步的,所述加权值根据第一身份信息和第二身份信息的决策占比进行自定义设置。
[0010]进一步的,将音频数据按照说话人身份分别进行转译得到文本数据的具体步骤为:构建文本转译模型,根据文本转译模型将音频数据转化为数字向量;从预设的转译表中查找与数字向量相映射的文字;对文字进行组合得到音频数据对应的文本数据。
[0011]更进一步的,根据文本转译模型将音频数据转化为数字向量的具体步骤为:依据确定的说话人身份,将说话人身份的音频数据进行音频划分,得到连续采样值;对连续采样值进行算术平均处理,得到所述音频数据对应的滤波值;对所述滤波音频进行信号切割处理,得到音频段,并将所述音频段进行向量化处理,得到数字向量。
[0012]本专利技术第二方面提供了一种基于边缘计算的多模态会议记录系统,包括:数据采集模块,被配置为将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册,形成会议人员信息库;实时采集会议中说话人的视频数据和音频数据;边缘计算模块,被配置为对数据进行计算和处理;所述边缘计算模块包括唇动识别模块、语音识别模块、身份判定模块和文本转译模块;唇动识别模块,被配置为利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息;语音识别模块,被配置利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息;
其中,预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征;身份判定模块,被配置为采用身份判定模型对第一身份信息和第二身份信息进行综合判定,确定最终说话人身份;文本转译模块,被配置为将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,形成会议记录。
[0013]进一步的,还包括网络传输模块,网络传输模块被配置为将视频数据、音频数据利用局域网络传输到边缘计算模块。
[0014]进一步的,唇动识别模块和语音识别模块在识别过程中,将识别任务卸载到边缘计算设备中,生成任务卸载的相应指令,根据指令在对应的边缘计算模块执行相应的识别任务。
[0015]以上一个或多个技术方案存在以下有益效果:本专利技术公开了一种基于边缘计算的多模态会议记录方法及系统,将视频数据、音频数据利用边缘计算设备的唇动识别模型和语音识别模型,对说话人身份进行多模态综合判定,保障了说话人身份识别的准确性。确定说话人身份之后,利用说话人的音频数据通过边缘计算设备的文本转译模型转译成不同说话人对应的文本数据,自动形成会议记录。上述唇动识别、语音识别、文本转译过程处理充分利用了边缘计算设备,将计算任务卸载到边缘设备,提高了运算能力,提升了响应时间,同时自动生成会议记录,提高了会议记录的效率及会议记录内容的准确性,实现了多模态技术下的实时会议记录。
附图说明
[0016]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0017]图1为本专利技术实施例一中基于边缘计算的多模态会议记录方法的流程图;图2为本专利技术实施例一中多模态身份识别流程示意图;图3为本专利技术实施例二中基于边缘计算的多模态会议记录系统的结构示意图。
具体实施方式
[0018]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0019]应当说明的是,本专利技术实施例中,涉及到会议视频和音频及会议人员身份等相关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于边缘计算的多模态会议记录方法,其特征在于,包括以下步骤:获取会议中说话人的实时视频数据和音频数据;将视频数据和音频数据传输到边缘计算设备的唇动识别模型中,利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息;将音频数据传输到边缘计算设备的语音识别模型中,利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息;其中,预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征;采用身份判定模型对第一身份信息和第二身份信息进行综合判定,确定最终说话人身份;将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,形成会议记录。2.如权利要求1所述的基于边缘计算的多模态会议记录方法,其特征在于,唇动识别模型的构建过程为:将已有训练样本中的视频数据按照时间排序提取唇动数据;将唇动数据作为动态变化特征的最小训练单元;将唇动数据进行说话人唇部动作的分解,按照分解数据得到连续帧点的唇部位置变化,作为静态瞬时特征的最小训练单元;对动态变化特征和静态瞬时特征分别进行训练后再进行融合得到唇动识别模型。3.如权利要求1所述的基于边缘计算的多模态会议记录方法,其特征在于,语音识别模型的构建过程为:将已有训练样本中的音频数据转换为频谱信号;利用小波变换去除频谱信号中的噪声信息;利用去噪后的频谱信号中的频点能量确定不同人员的音色特征;利用音色特征进行训练得到语音识别模型。4.如权利要求1所述的基于边缘计算的多模态会议记录方法,其特征在于,所述身份判定模型将第一身份信息和第二身份信息通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份。5.如权利要求4所述的基于边缘计算的多模态会议记录方法,其特征在于,所述加权值根据第一身份信息和第二身份信息的决策占比进行自定义设置。6.如权利要求1所述的基于边缘计算的多模态会议记录方法,其特征在于,将音频数据按照说话人身份分别进行...

【专利技术属性】
技术研发人员:郭锐李士宽许志国马晓红张建成陈纪旸鹿全礼任强宁伟祝天成刘永泉杨锐
申请(专利权)人:山东正中信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1