当前位置: 首页 > 专利查询>辉达公司专利>正文

用于增强视频会议应用程序的机器学习技术制造技术

技术编号:34366440 阅读:10 留言:0更新日期:2022-07-31 09:01
公开了用于增强视频会议应用程序的机器学习技术,具体公开了用于自动检测和放大在视频会议一侧的多个参与者中的讲话的参与者的系统、过程和技术。在至少一个实施例中,使用一个或更多个启发式算法和/或一个或更多个神经网络来识别所述讲话的参与者。网络来识别所述讲话的参与者。网络来识别所述讲话的参与者。

Machine learning technology for enhancing video conferencing applications

【技术实现步骤摘要】
用于增强视频会议应用程序的机器学习技术


[0001]至少一个实施例涉及使用机器学习技术来增强视频会议应用程序中的用户体验。例如,至少一个实施例涉及用于根据本文描述的各种新颖技术来自动检测和放大讲话的参与者的处理器或计算系统。

技术介绍

[0002]视频会议是会议参与者之间的一种有效通信方式,这些会议参与者可能彼此物理上是遥远的,或者是位于同一地点和远程参与者的混合。在典型的视频会议应用程序中,虚拟视频会议或开会可以由多个(可能是无限的)席位(presence)同时参加。每个席位可以表示单个与会者/参与者,诸如当席位使用个人网络摄像头和个人计算机加入视频会议时。一个或更多个席位也可以代表多个与会者/参与者,诸如当一个席位在同一物理位置(例如,会议室或会议厅)中包括多个与会者时。常见的用例包括由个人和个人团体的混合参加的视频会议。在典型的视频会议应用程序中,为每个参与者提供一个显示器,所述显示器在同一图形用户界面中组合来自同一视频会议中参与者的视频流(如果有的话),通常以蒙太奇或画中画的形式布置。
[0003]在一组或更多组与会者使用相同的席位加入视频会议的场景中,诸如当一个席位包括拥挤的会议室或大量观众时,可以使用同一单个网络摄像头和麦克风阵列从物理会议室捕获视频和音频并将其流式传输给视频会议的其他参与者。但是,根据组的大小以及每个个人与网络摄像头的接近程度,在将每个人的人脸流式传输到其他会议参与者时,它们可以在一个小的显示器中表示。这可能使辨别人脸表情和查看实际说话的人变得困难。
附图说明
[0004]图1示出了根据至少一个实施例的视频会议系统的示例,所述视频会议系统被配置为在多个第一会议参与者和一个或更多个第二会议参与者之间实现视频会议;
[0005]图2示出了根据至少一个实施例的示例视频片段,所述视频片段包括多个帧,每个帧包括由图1的视频会议系统识别的图像区域;
[0006]图3示出了根据至少一个实施例的针对图2的图像区域之一确定的示例的一组人脸特征点;
[0007]图4示出了根据至少一个实施例的显示给第二会议参与者,并且包括经修改的视频片段的用户界面,其中放大了第一会议参与者中的讲话的第一会议参与者的面部;
[0008]图5示出了根据至少一个实施例的可以至少部分地由图1的视频会议系统执行的方法的流程图;
[0009]图6示出了根据至少一个实施例的示出了在图1的视频会议系统的至少一个计算设备上执行的客户端应用程序和/或服务器应用程序的示例组件的框图;
[0010]图7A示出了根据至少一个实施例的推理和/或训练逻辑;
[0011]图7B示出了根据至少一个实施例的推理和/或训练逻辑;
[0012]图8示出了根据至少一个实施例的神经网络的训练和部署;
[0013]图9示出了根据至少一个实施例的示例数据中心系统;
[0014]图10A示出了根据至少一个实施例的自主车辆的示例;
[0015]图10B示出了根据至少一个实施例的图10A的自主车辆的相机位置和视野的示例;
[0016]图10C是示出根据至少一个实施例的图10A的自主车辆的示例系统架构的框图;
[0017]图10D是示出根据至少一个实施例的一个或更多个基于云的服务器与图10A的自主车辆之间进行通信的系统的图;
[0018]图11是示出根据至少一个实施例的计算机系统的框图;
[0019]图12是示出根据至少一个实施例的计算机系统的框图;
[0020]图13示出了根据至少一个实施例的计算机系统;
[0021]图14示出了根据至少一个实施例的计算机系统;
[0022]图15A示出了根据至少一个实施例的计算机系统;
[0023]图15B示出了根据至少一个实施例的计算机系统;
[0024]图15C示出了根据至少一个实施例的计算机系统;
[0025]图15D示出了根据至少一个实施例的计算机系统;
[0026]图15E和图15F示出了根据至少一个实施例的共享编程模型;
[0027]图16示出了根据至少一个实施例的示例性集成电路和关联的图形处理器;
[0028]图17A

17B示出了根据至少一个实施例的示例性集成电路和关联的图形处理器;
[0029]图18A

18B示出了根据至少一个实施例的附加的示例性图形处理器逻辑;
[0030]图19示出了根据至少一个实施例的计算机系统;
[0031]图20A示出了根据至少一个实施例的并行处理器;
[0032]图20B示出了根据至少一个实施例的分区单元;
[0033]图20C示出了根据至少一个实施例的处理集群;
[0034]图20D示出了根据至少一个实施例的图形多处理器;
[0035]图21示出了根据至少一个实施例的多图形处理单元(GPU)系统;
[0036]图22示出了根据至少一个实施例的图形处理器;
[0037]图23是示出根据至少一个实施例的用于处理器的处理器微架构的框图;
[0038]图24示出了根据至少一个实施例的深度学习应用处理器;
[0039]图25是示出根据至少一个实施例的示例神经形态处理器的框图;
[0040]图26示出了根据一个或更多个实施例的图形处理器的至少部分;
[0041]图27示出了根据一个或更多个实施例的图形处理器的至少部分;
[0042]图28示出了根据一个或更多个实施例的图形处理器的至少部分;
[0043]图29是根据至少一个实施例的图形处理器的图形处理引擎的框图;
[0044]图30是根据至少一个实施例的图形处理器核心的至少部分的框图;
[0045]图31A

31B示出了根据至少一个实施例的线程执行逻辑,其包括图形处理器核的处理元件阵列;
[0046]图32示出了根据至少一个实施例的并行处理单元(“PPU”);
[0047]图33示出了根据至少一个实施例的通用处理集群(“GPC”);
[0048]图34示出了根据至少一个实施例的并行处理单元(“PPU”)的内存分区单元;
[0049]图35示出了根据至少一个实施例的流式多处理器;
[0050]图36是根据至少一个实施例的用于高级计算管线的示例数据流图;
[0051]图37是根据至少一个实施例的用于在高级计算管线中训练、适配、实例化和部署机器学习模型的示例系统的系统图;
[0052]图38A示出了根据至少一个实施例的用于训练机器学习模型的过程的数据流图;以及
[0053]图38B是根据至少一个实施例的利用预训练的注释模型来增强注释工具的客户端

服务器架构的示例图示。
具体实施方式
[0054]图1示出了视频会议系统100的示例,所述视频会议系统100被配置为在多个第一会议参与者102和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:确定视频片段的第一帧中描绘的两个或更多个人脸中的每个人脸的多个第一人脸特征点;确定所述视频片段的第二帧中描绘的所述两个或更多个人脸中的每个人脸的多个第二人脸特征点;以及至少部分地基于所述多个第一人脸特征点和所述多个第二人脸特征点来识别所述两个或更多个人脸中的讲话的人脸,所述讲话的人脸能够用于通过放大所述第二帧内的所述讲话的人脸,来修改所述视频片段。2.根据权利要求1所述的计算机实现的方法,还包括:在所述视频片段的所述第一帧内检测多个第一区域,每个所述第一区域对应于所述两个或更多个人脸中的不同的人脸,所确定的所述两个或更多个人脸中的每个人脸的所述多个第一人脸特征点是在所述多个第一区域中的对应第一区域内确定的;以及在所述视频片段的所述第二帧内检测多个第二区域,每个所述第二区域对应于所述两个或更多个人脸中的不同的人脸,所确定的所述两个或更多个人脸中的每个人脸的所述多个第二人脸特征点是在所述多个第二区域中的对应第二区域内确定的。3.根据权利要求1所述的计算机实现的方法,其中所确定的所述两个或更多个人脸中的每个人脸的所述多个第一人脸特征点的一部分是第一嘴唇特征点,所确定的所述两个或更多个人脸中的每个人脸的所述多个第二人脸特征点的一部分是第二嘴唇特征点,并且识别所述讲话的人脸还包括:使用所确定的人脸的所述第一嘴唇特征点的位置和所确定的人脸的所述第二嘴唇特征点的位置,来为所述两个或更多个人脸中的每个人脸制定流向量;将为所述两个或更多个人脸中的每个人脸制定的所述流向量分类为指示已经发生或没有发生讲话活动;以及将所述两个或更多个人脸中的所述流向量被分类为指示已发生讲话活动的一个人脸识别为所述讲话的人脸。4.根据权利要求1所述的计算机实现的方法,还包括:通过放大所述第二帧内的所述讲话的人脸来修改所述第二帧,所述第二帧具有图像分辨率;放大所述第二帧内的所述讲话的人脸包括:通过将所述讲话的人脸提升到所述图像分辨率来创建经提升的图像;以及用所述经提升的图像替换所述第二帧。5.根据权利要求4所述的计算机实现的方法,其中使用深度学习模型将所述讲话的人脸提升到所述图像分辨率。6.根据权利要求1所述的计算机实现的方法,其中识别所述讲话的人脸还包括:确定所述多个第二人脸特征点中的至少移动的第二人脸特征点相对于所述多个第一人脸特征点中的一个或更多个第一人脸特征点已经改变了位置。7.根据权利要求6所述的计算机实现的方法,其中识别所述讲话的人脸还包括:确定所述移动的第二人脸特征点相对于所述多个第一人脸特征点中的不对应的第一人脸特征点已经移动,
所述移动的第二人脸特征点与所述多个第一人脸特征点中的对应的第一人脸特征点相对应,所述移动的第二人脸特征点和所述对应的第一人脸特征点各自表示一对嘴唇中的第一嘴唇,所述不对应的第一人脸特征点表示所述一对嘴唇中的第二嘴唇,以及所述第一嘴唇与所述第二嘴唇不同。8.根据权利要求6所述的计算机实现的方法,其中确定所述移动的第二人脸特征点相对于所述一个或更多个第一人脸特征点已经改变位置,包括:确定所述移动的第二人脸特征点相对于所述一个或更多个第一人脸特征点改变位置的速率;以及当所述速率超过阈值时,推断所述移动的第二人脸特征点相对于所述一个或更多个第一人脸特征点已经改变了位置。9.根据权利要求1所述的计算机实现的方法,还包括:通过放大所述第二帧内的所述讲话的人脸来修改所述第二帧;以及将经修改的视频片段发送到接收方计算系统,以进行显示。10.根据权利要求1所述的计算机实现的方法,其中所述计算机实现的方法由计算系统执行,所述计算系统包括发送方计算系统和接收方计算系统,并且所述方法还包括:由所述发送方计算系统获得所述视频片段;由所述发送方计算系统向所述接收方计算系统发送所述视频片段,所述接收方计算系统确定所述多个第一人脸特征点和多个第二人脸特征点,识别所述讲话的人脸,以及修改所述视频片段;以及由所述接收方计算系统显示经修改的视频片段。11.根据权利要求10所述的计算机实现的方法,还包括:由所述接收方计算系统接收指示放大量的用户输入,所述接收方计算系统通过将所述讲话的人脸放大所述放大量来修改所述视频片段。12.根据权利要求1所述的计算机实现的方法,其中所述计算机实现的方法由计算系统执行,所述计算系统包括发送方计算系统和接收方计算系统,并且所述方法还包括:由所述发送方计算系统接收所述视频片段,所述发送方计算系统确定所述多个第一人脸特征点和多个第二人脸特征点,以及识别所述讲话的人脸;由所述发送方计算系统向所述接收方计算系统发送所述视频片段和所述讲话的人脸的识别,所述接收方计算系统至少部分地基于所述讲话的人脸的识别来修改所述视频片段;以及由所述接收方计算系统显示经修改的视频片段。13.一种系统,包括:一个或更多个处理器,用于使用一个或更多个神经网络来识别正与视频会议的第二侧的第二会议参与者进行的所述视频会议的第一侧的多个第一会议参与者中的讲话的第一会议参与者,识别所述讲话的第一会议参与者包括:识别所述视频会议的第一帧内的所述多个第一会议参与者中的每个第一会议参与者的第一图...

【专利技术属性】
技术研发人员:A
申请(专利权)人:辉达公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1