一种评估视频会议质量的方法、装置及计算机可读介质制造方法及图纸

技术编号:28878383 阅读:11 留言:0更新日期:2021-06-15 23:14
本发明专利技术公开了一种评估视频会议质量的方法、装置及计算机可读介质,属于人工智能技术领域。该方法包括:获取视频会议的多模态数据,多模态数据至少包括两种模态数据;对多模态数据分别进行编码处理,生成多模态表示;对多模态表示进行拼接处理或加和处理,生成融合向量;将融合向量作为训练样本,利用多个训练样本进行模型训练,生成评估模型;获取视频会议的待测多模态数据;利用评估模型对待测多模态数据进行预测,生成质量评估结果。由此能够基于评估模型对视频会议质量进行客观评估,提高了视频会议质量评估的准确性和时效性,解决了现有技术中视频会议质量评估准确率低的问题。

【技术实现步骤摘要】
一种评估视频会议质量的方法、装置及计算机可读介质
本专利技术涉及人工智能
,尤其涉及一种评估视频会议质量的方法、装置及计算机可读介质。
技术介绍
在当代办公流程中,视频会议逐步被普及,重要性也逐步凸显。视频会议质量的好坏直接反映视频会议的使用效果。为此需要对视频会议的质量进行有效的评估。传统的评估方式是采用问卷调查的方式进行的,采用问卷调查的方式不仅调查过程中需要耗费大量的人力,而且还需要专门设计调查内容,并且针对调查结果采用的是打分制,因此整个问卷调查过程中主观性比较强。因此,不能准确客观地评估视频会议的质量。
技术实现思路
为了解决上述现有技术存在的问题,本专利技术实施例提供一种评估视频会议质量的方法、装置及计算机可读介质,能够对视频会议的质量进行准确评估,提高视频会议质量评估的准确性和客观性。为实现上述目的,根据本专利技术实施例第一方面,提供一种评估视频会议质量的方法,该方法包括:获取视频会议的多模态数据,所述多模态数据至少包括两种模态数据;对所述多模态数据分别进行编码处理,生成多模态表示;对所述多模态表示进行拼接处理或加和处理,生成融合向量;将所述融合向量作为训练样本,利用多个所述训练样本进行模型训练,生成评估模型;获取视频会议的待测多模态数据;利用所述评估模型对所述待测多模态数据进行预测,生成质量评估结果。可选的,所述多模态数据为视频图像数据、音频数据和文本数据;所述对所述多模态数据分别进行编码处理,生成多模态表示,包括:对所述视频图像数据进行编码处理,生成图像表示;对所述音频数据进行编码处理,生成音频表示;对所述文本数据进行编码处理,生成文本表示;将所述图像表示、音频表示和文本表示确定为多模态表示。可选的,所述视频图像数据通过如下方法获得:获取视频图像源数据以及视频时长;基于所述视频图像源数据和所述视频时长,确定发生特定事件的高频时段;从所述视频图像源数据中选取所述高频时段的所有视频源图像,得到视频源图像子数据;从所述视频源图像子数据中抽取特定数量的视频源图像,得到视频图像数据。可选的,所述对所述视频图像数据进行编码处理,生成图像表示,包括:对所述视频图像数据进行编码,生成图像向量;将所述图像向量确定为图像表示。可选的,所述对所述音频数据进行编码处理,生成音频表示,包括:识别所述音频数据中无效音频数据,并从所述音频数据中剔除所述无效音频数据;对剔除后剩余的音频数据进行组合,生成有效音频数据;获取音频数据的总时长,以及有效音频数据的有效时长;基于所述有效时长和所述总时长,确定视频会议的有效音效率;对所述音频数据进行编码,生成音频向量;将所述音频向量和所述有效音效率进行拼接,生成音频表示。可选的,所述对所述文本数据进行编码处理,生成文本表示,包括:从所述文本数据中选取特定种类的文本数据,得到文本子数据;从不同维度对所述文本子数据进行统计,得到文本统计量;其中,所述不同维度包括文本总条数、文本总长度、文本去重总长度,以及文本关键词词频;对所述文本数据进行编码,生成文本向量;将所述文本向量和所述文本统计量进行拼接,生成文本表示。可选的,所述评估模型为回归任务的分数制模型或分类任务的等级制模型。为实现上述目的,根据本专利技术实施例第二方面,还提供一种评估视频会议质量的装置,该装置包括:第一获取模块,用于获取视频会议的多模态数据,所述多模态数据至少包括两种模态数据;编码模块,用于对所述多模态数据分别进行编码处理,生成多模态表示;融合模块,用于对所述多模态表示进行拼接处理或加和处理,生成融合向量;训练模块,用于将所述融合向量作为训练样本,利用多个所述训练样本进行模型训练,生成评估模型;第二获取模块,用于获取视频会议的待测多模态数据;预测模块,用于利用所述评估模型对所述待测多模态数据进行预测,生成质量评估结果。为实现上述目的,根据本专利技术实施例第三方面,还提供一种电子设备,该电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面所述的评估视频会议质量的方法。为实现上述目的,根据本专利技术实施例的第四方面,还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的评估视频会议质量的方法。与现有技术相比,本专利技术实施例提供的评估视频会议质量的方法,该方法通过获取视频会议的多模态数据,对多模态数据分别进行编码处理,之后再对编码处理后生成的多模态表示进行拼接或加和处理,生成融合向量;将融合向量作为训练样本,利用算法对多个训练样本进行模型训练,生成评估模型;由此通过编码处理将非结构化的模态数据转化为结构化的模态表示,并通过拼接或加和的方式对多模态表示进行融合,从而能够准确地评估视频会议的质量;之后基于多个融合向量,利用算法进行建模,生成评估模型,从而实现了视频会议质量评估的智能化。最后利用训练好的评估模型对待测视频会议的多模态数据进行预测,输出质量评估结果,由此通过评估模型能够对视频会议的质量进行客观评估,并实现了端到端的实时评估,提高了视频会议质量评估的准确性和时效性,解决了现有技术中由于采用问卷调查等方式进行评估导致视频会议质量评估耗时耗力且评估准确率低的问题。需要理解的是,本专利技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本专利技术的其他实施方式还能够实现上面未提到的有益效果。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中在附图中,相同或对应的标号表示相同或对应的部分。图1为本专利技术一实施例评估视频会议质量的示意性流程图;图2为本专利技术另一实施例评估视频会议质量的示意性流程图;图3为本专利技术另一实施例生成音频表示的示意性流程图;图4为本专利技术另一实施例生成文本表示的示意性流程图;图5为本专利技术一实施例评估视频会议装置的示意性框图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。现有技术中,在进行视频会议质量评估时通常是采用问卷调查的方式进行的。由于问卷调查的方式会掺入很多人为主观因素,因此导致评估结果不准确,而且问卷调查的整个过程比较耗时耗力,因此时效性比较差。虽然现有技术中也不乏智能评估方法,但是智能评估方法通常不是应用于视频会议中,而且现有的智能评估方法都是基于单一模态数据进行评估,因此导致评估结果不够准确。本专利技术的方法应用于云视频会议的质量评估场景中,通过应用多模态数据,再结合深度学习的方法对多模态数据进行编码处理、之后基于编码后的多模态向量和多模态数据对应的统计量或其他指标进本文档来自技高网...

【技术保护点】
1.一种评估视频会议质量的方法,其特征在于,包括:/n获取视频会议的多模态数据,所述多模态数据至少包括两种模态数据;/n对所述多模态数据分别进行编码处理,生成多模态表示;/n对所述多模态表示进行拼接处理或加和处理,生成融合向量;/n将所述融合向量作为训练样本,利用多个所述训练样本进行模型训练,生成评估模型;/n获取视频会议的待测多模态数据;/n利用所述评估模型对所述待测多模态数据进行预测,生成质量评估结果。/n

【技术特征摘要】
1.一种评估视频会议质量的方法,其特征在于,包括:
获取视频会议的多模态数据,所述多模态数据至少包括两种模态数据;
对所述多模态数据分别进行编码处理,生成多模态表示;
对所述多模态表示进行拼接处理或加和处理,生成融合向量;
将所述融合向量作为训练样本,利用多个所述训练样本进行模型训练,生成评估模型;
获取视频会议的待测多模态数据;
利用所述评估模型对所述待测多模态数据进行预测,生成质量评估结果。


2.根据权利要求1所述的方法,其特征在于,所述多模态数据为视频图像数据、音频数据和文本数据;所述对所述多模态数据分别进行编码处理,生成多模态表示,包括:
对所述视频图像数据进行编码处理,生成图像表示;
对所述音频数据进行编码处理,生成音频表示;
对所述文本数据进行编码处理,生成文本表示;
将所述图像表示、音频表示和文本表示确定为多模态表示。


3.根据权利要求2所述的方法,其特征在于,所述视频图像数据通过如下方法获得:
获取视频图像源数据以及视频时长;
基于所述视频图像源数据和所述视频时长,确定发生特定事件的高频时段;
从所述视频图像源数据中选取所述高频时段的所有视频源图像,得到视频源图像子数据;
从所述视频源图像子数据中抽取特定数量的视频源图像,得到视频图像数据。


4.根据权利要求2所述的方法,其特征在于,所述对所述视频图像数据进行编码处理,生成图像表示,包括:
对所述视频图像数据进行编码,生成图像向量;
将所述图像向量确定为图像表示。


5.根据权利要求2所述的方法,其特征在于,所述对所述音频数据进行编码处理,生成音频表示,包括:
识别所述音频数据中无效音频数据,并从所述音频数据中剔除所述无效音频数据;
对剔除后剩余的音频数据进行组合,生成有效音频数据;
获取音频数据的总时长,以及有效音频数...

【专利技术属性】
技术研发人员:曹亚曦许磊
申请(专利权)人:浙江华创视讯科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1