来自视听流的隐私感知会议室转录制造技术

技术编号:33906827 阅读:35 留言:0更新日期:2022-06-25 18:48
一种用于隐私感知转录的方法包括接收包括话音环境的音频数据和图像数据的视听信号以及来自话音环境中的参与者的隐私请求,其中,所述隐私请求指示所述参与者的隐私条件。所述方法进一步包括将所述音频数据分割成多个片段。对于每个片段,所述方法包括基于所述图像数据确定所述音频数据的对应片段的说话者的身份,以及确定所述对应片段的说话者的身份是否包括与隐私条件相关联的参与者。在所述对应片段的说话者的身份包括所述参与者时,所述方法包括将所述隐私条件应用于所述对应片段。所述方法还包括处理所述音频数据的多个片段以确定所述音频数据的转录本。段以确定所述音频数据的转录本。段以确定所述音频数据的转录本。

【技术实现步骤摘要】
【国外来华专利技术】来自视听流的隐私感知会议室转录


[0001]本公开涉及来自视听流的隐私感知会议室转录。

技术介绍

[0002]说话者日志化(speaker diarization)是根据说话者身份将输入音频流划分为同质段的过程。在具有多个说话者的环境中,说话者日志化回答问题“谁在何时说话”,并且具有各种应用,包括多媒体信息检索、说话者轮次分析和音频处理,仅举几例。特别地,说话者日志化系统能够产生具有显著提高声学语音辨识准确性的潜力的说话者边界。

技术实现思路

[0003]本公开的一个方面提供了一种用于从内容流生成隐私感知会议室转录本的方法。该方法包括在数据处理硬件处接收包括音频数据和图像数据的视听信号。该音频数据对应于来自话音环境中的多个参与者的话音话语,以及图像数据表示话音环境中的多个参与者的面部。该方法还包括在数据处理硬件处接收来自多个参与者中的参与者的隐私请求。该隐私请求指示与话音环境中的参与者相关联的隐私条件。该方法进一步包括由数据处理硬件将音频数据分割成多个片段。对于音频数据的每个片段,该方法包括由数据处理硬件基于图像数据从多个参与者中确定音频数据的对应片段的说话者的身份。对于音频数据的每个片段,该方法还包括由数据处理硬件确定对应片段的说话者的身份是否包括与由所接收到的隐私请求指示的隐私条件相关联的参与者。当对应片段的说话者的身份包括参与者时,该方法包括将隐私条件应用于对应片段。该方法进一步包括由数据处理硬件处理音频数据的多个片段以确定音频数据的转录本。
[0004]本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,将隐私条件应用于对应片段包括在确定转录本之后删除音频数据的对应片段。附加地或替代地,将隐私条件应用于对应片段可以包括增强图像数据的对应片段以在视觉上隐藏音频数据的对应片段的说话者的身份。
[0005]在一些示例中,对于与应用隐私条件的音频数据的片段中的一个片段对应的转录本的每个部分,处理音频数据的多个片段以确定音频数据的转录本包括将转录本的对应部分修改为不包括说话者的身份。可选地,对于应用隐私条件的音频数据的每个片段,处理音频数据的多个片段以确定音频数据的转录本可以包括省略转录音频数据的对应片段。隐私条件可以包括内容特定条件,内容特定条件指示要从转录本中排除的内容的类型。
[0006]在一些配置中,从多个参与者中,确定音频数据的对应片段的说话者的身份包括基于图像数据确定说话者的多个候选身份。在此,对于多个候选身份中的每个候选身份,生成置信度分数,置信度分数指示基于图像数据的对应候选身份的面部包括音频数据的对应片段的说话面部的可能性。在该配置中,该方法包括选择音频数据的对应片段的说话者的身份作为与最高置信度分数相关联的多个候选身份中的候选身份。
[0007]在一些实施方式中,数据处理硬件驻留在多个参与者中的至少一个参与者本地的
设备上。图像数据可以包括由数据处理硬件处理的高清晰度视频。处理音频数据的多个片段以确定音频数据的转录本可以包括处理图像数据以确定转录本。
[0008]本公开的另一方面提供了一种用于隐私感知转录的系统。该系统包括数据处理硬件以及与数据处理硬件通信的存储器硬件。存储器硬件存储指令,指令当在数据处理硬件上执行时,使数据处理硬件执行操作。该操作包括接收包括音频数据和图像数据的视听信号。音频数据对应于来自话音环境中的多个参与者的话音话语,以及图像数据表示话音环境中的多个参与者的面部。该操作还包括接收来自多个参与者中的参与者的隐私请求,隐私请求指示与话音环境中的参与者相关联的隐私条件。该方法进一步包括将音频数据分割成多个片段。对于音频数据的每个片段,该操作包括基于图像数据从多个参与者中确定音频数据的对应片段的说话者的身份。对于音频数据的每个片段,该方法还包括确定对应片段的说话者的身份是否包括与由所接收到的隐私请求指示的隐私条件相关联的参与者。当对应片段的说话者的身份包括参与者时,该操作包括将隐私条件应用于对应片段。该操作进一步包括处理音频数据的多个片段以确定音频数据的转录本。
[0009]该方面可以包括以下可选特征中的一个或多个。在一些示例中,将隐私条件应用于对应片段包括在确定转录本之后删除音频数据的对应片段。可选地,将隐私条件应用于对应片段可以包括增强图像数据的对应片段以在视觉上隐藏音频数据的对应片段的说话者的身份。
[0010]在一些配置中,处理音频数据的多个片段以确定音频数据的转录本包括对于转录本的与音频数据的片段中的应用隐私条件的一个片段对应的每个部分,将转录本的对应部分修改为不包括说话者的身份。附加地或替代地,处理音频数据的多个片段以确定音频数据的转录本可以包括对于音频数据的应用隐私条件的每个片段,省略转录音频数据的对应片段。隐私条件可以包括内容特定条件,内容特定条件指示要从转录本中排除的内容的类型。
[0011]在一些实施方式中,从多个参与者中,确定音频数据的对应片段的说话者的身份的操作包括基于图像数据确定说话者的多个候选身份。该实施方式包括对于多个候选身份中的每个候选身份,生成置信度分数,置信度分数指示基于图像数据的对应候选身份的面部包括音频数据的对应片段的说话面部的可能性。该实施方式还包括选择音频数据的对应片段的说话者的身份作为与最高置信度分数相关联的多个候选身份中的候选身份。
[0012]在一些示例中,数据处理硬件驻留在多个参与者中的至少一个参与者本地的设备上。图像数据可以包括由数据处理硬件处理的高清晰度视频。处理音频数据的多个片段以确定音频数据的转录本可以包括处理图像数据以确定转录本。
[0013]在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。其他方面、特征和优点将从说明书和附图以及权利要求书中显而易见。
附图说明
[0014]图1A是具有转录器的示例性集会环境的示意图。
[0015]图1B

1E是具有隐私感知转录器的图1A的示例性集会环境的示意图。
[0016]图2A和2B是示例性转录器的示意图。
[0017]图3是用于在图1A的集会环境内转录内容的方法的操作的示例性布置的流程图。
[0018]图4是可以用于实现本文描述的系统和方法的示例性计算设备的示意图。
[0019]图5是存储在转录器可访问的存储器硬件中的示例性简档的示意图。
[0020]各个附图中相同的附图标记表示相同的元件。
具体实施方式
[0021]由视频会议系统使用和生成的数据的隐私是这种系统的重要方面。会议参与者可以具有他们自己关于在会议期间获取的音频和视频数据的隐私的个人观点。因此,存在如何提供一种视频会议系统的技术问题,该视频会议系统可以准确地生成用于视频会议会议的转录本,同时还以可靠和准确的方式满足这种隐私要求。本公开的实施方式通过使得会议的参与者能够设置他们自己的隐私配置(例如,选择加入或选择退出视频会议系统的各种功能)来提供技术解决方案,然后视频会议系统准确有效地实现参与者的期望,由于该视频会议系统当生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在数据处理硬件处接收包括音频数据和图像数据的视听信号,所述音频数据对应于来自话音环境中的多个参与者的话音话语,以及所述图像数据表示所述话音环境中的所述多个参与者的面部;在所述数据处理硬件处接收来自所述多个参与者中的参与者的隐私请求,所述隐私请求指示与所述话音环境中的所述参与者相关联的隐私条件;由所述数据处理硬件将所述音频数据分割成多个片段;对于所述音频数据的每个片段:由所述数据处理硬件基于所述图像数据来从所述多个参与者中确定所述音频数据的对应片段的说话者的身份;由所述数据处理硬件确定所述对应片段的所述说话者的身份是否包括与由所接收到的隐私请求所指示的所述隐私条件相关联的所述参与者;以及在所述对应片段的所述说话者的身份包括所述参与者时,将所述隐私条件应用于所述对应片段;以及由所述数据处理硬件处理所述音频数据的所述多个片段以确定所述音频数据的转录本。2.根据权利要求1所述的方法,其中,将所述隐私条件应用于所述对应片段包括:在确定所述转录本之后删除所述音频数据的所述对应片段。3.根据权利要求1所述的方法,其中,将所述隐私条件应用于所述对应片段包括:增强所述图像数据的所述对应片段以在视觉上隐藏所述音频数据的所述对应片段的所述说话者的身份。4.根据权利要求1

3中的任一项所述的方法,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本包括:对于与应用所述隐私条件的所述音频数据的所述片段中的一个片段相对应的所述转录本的每个部分,将所述转录本的对应部分修改为不包括所述说话者的身份。5.根据权利要求1

4中的任一项所述的方法,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本包括:对于应用所述隐私条件的所述音频数据的每个片段,省略转录所述音频数据的对应片段。6.根据权利要求1

5中的任一项所述的方法,其中,所述隐私条件包括内容特定条件,所述内容特定条件指示要从所述转录本中排除的内容类型。7.根据权利要求1

6中的任一项所述的方法,其中,从所述多个参与者中确定所述音频数据的所述对应片段的说话者的身份包括:基于所述图像数据来确定所述说话者的多个候选身份;对于所述多个候选身份中的每个候选身份,生成置信度分数,所述置信度分数指示基于所述图像数据的对应候选身份的面部包括所述音频数据的所述对应片段的说话面部的可能性;以及将所述音频数据的所述对应片段的所述说话者的身份选择为与最高置信度分数相关联的所述多个候选身份中的候选身份。8.根据权利要求1

7中的任一项所述的方法,其中,所述数据处理硬件驻留在所述多个
参与者中的至少一个参与者本地的设备上。9.根据权利要求1

8中的任一项所述的方法,其中,所述图像数据包括由所述数据处理硬件处理的高清晰度视频。10.根据权利要求1

10中的任一项所述的方法,其中,处理所述音频数据的所述多个片段以确定所述音频数据的转录本进一步包括:处理所述图像数据以确定所述转录本。11.一种系统,包括:数据处理硬件;以及存储器硬件,所述存储器硬...

【专利技术属性】
技术研发人员:奥利维尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1