一种会议场景下的说话内容的显示方法和装置制造方法及图纸

技术编号:35692243 阅读:21 留言:0更新日期:2022-11-23 14:41
本发明专利技术公开了一种会议场景下的说话内容的显示方法和装置,所述方法包括:响应于终端设备的会议应用开启的声纹识别功能,在接收说话人的音频流的过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息,所述当前音频片段是所述音频流的至少一部分音频,对所述当前音频片段进行语音识别得到内容信息;关联显示所述说话人的身份信息以及所述内容信息。本技术方案可实时地识别并显示当前音频片段的说话人和内容信息,从而实现了会议中说话人身份和说话内容的实时展示,提高了会议质量和用户的参会体验。用户的参会体验。用户的参会体验。

【技术实现步骤摘要】
一种会议场景下的说话内容的显示方法和装置


[0001]本公开涉及人工智能
,尤其是涉及一种会议场景下的说话内容的显示方法和装置。

技术介绍

[0002]说话人分割聚类(speaker diarization,SD)是指按照说话人的身份,将不同说话人的声音区分开来的技术,从而解决了“谁在什么时候说了话”的问题。利用声纹识别技术结合SD实现了通过声音判断说话人的身份。
[0003]现有的声纹识别技术多应用于视频会议场景,一般是在视频会议或语音会议结束后,对会上录制的说话人说话的音频文件进行声纹识别和聚类,识别出说话人的身份和说话内容,再展示识别结果。但不支持会议中说话人身份和说话内容的实时展示,进而对于在线会议的与会人员而言,不能实时地掌握会议中说话人的情况,影响用户体验和会议质量。

技术实现思路

[0004]本专利技术目的是实现会议中说话人身份和说话内容的实时展示,从而提高会议质量和参会体验,具体地,本专利技术实施例公开了如下技术方案:
[0005]第一方面,本专利技术实施例公开了一种会议场景下说话内容的显示方法,所述方法包括:响应于终端设备的会议应用开启的声纹识别功能,在接收说话人的音频流的过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息,所述当前音频片段是所述音频流的至少一部分音频;对所述当前音频片段进行语音识别得到内容信息;关联显示所述说话人的身份信息以及所述内容信息。
[0006]结合第一方面,在第一方面的一种可能的实施方式中,基于声纹识别技术识别当前音频片段中说话人的身份信息,包括:响应于通过语音活动检测VAD检测到人声结束信号,在采样周期内获取所述当前音频片段;确定所述当前音频片段中每个说话人的语音特征;基于所述每个说话人的语音特征进行聚类分析,并将同一类的说话人嵌入作为一个说话人,得到聚类结果;基于预先采集的说话人的音频信息,对所述聚类结果进行身份匹配,确定每个所述说话人的身份信息。
[0007]结合第一方面,在第一方面的另一种可能的实施方式中,当识别出两个或两个以上说话人的身份信息时,所述关联显示所述说话人的身份信息以及所述内容信息,包括:显示所述两个或两个以上说话人的身份信息,或者,显示所述两个或两个以上说话人的身份信息,以及每个说话人对应的内容信息。
[0008]结合第一方面,在第一方面的又一种可能的实施方式中,所述方法还包括:根据识别出的所述说话人的会中身份标识,在所述显示界面上还显示所述说话人的会中身份标识。
[0009]结合第一方面,在第一方面的又一种可能的实施方式中,所述说话人的身份信息以及所述内容信息在所述显示界面上通过以下任意一种显示:宫格视图、缩略图视图、放大
视图、讲演者视图、失焦小窗视图。
[0010]结合第一方面,在第一方面的又一种可能的实施方式中,所述方法还包括:如果在所述当前音频片段之后的预设时长内,利用所述声纹识别技术在下一音频片段中未检测到新的说话人,则不再显示所述当前音频片段中说话人的身份信息和内容信息,显示所述说话人所在的会议室的会议室标识。
[0011]结合第一方面,在第一方面的又一种可能的实施方式中,所述方法还包括:在所述显示界面上还显示声纹图标或用户ID,所述声纹图标或用户ID在被用户触发时,弹出所述提示语,所述提示语提示当前显示的说话人的身份信息和对应的内容信息均来自声纹识别结果。
[0012]结合第一方面,在第一方面的又一种可能的实施方式中,响应于终端设备的会议应用开启的声纹识别功能,包括:显示会中安全设置窗口,所述会中安全设置窗口中包括使用声纹识别功能的启动项;响应于用户开启所述使用声纹识别功能的启动项的操作,开启所述声纹识别功能,并关闭所述会中安全设置窗口。
[0013]结合第一方面,在第一方面的又一种可能的实施方式中,关联显示所述说话人的身份信息以及所述内容信息,包括:按照至少一个预设规则在显示界面上显示所述说话人的身份信息以及所述内容信息。
[0014]其中,所述至少一个预设规则包括:在识别所述说话人说话后的一段时间内,如果识别出新的说话人,则进行一次说话人内容信息的替换,将所述新的说话人的内容信息替换前一个说话人的内容信息。
[0015]结合第一方面,在第一方面的又一种可能的实施方式中,所述至少一个预设规则还包括:将当前说话段中说话时长最长的人确定为所述当前音频片段的说话人。
[0016]结合第一方面,在第一方面的又一种可能的实施方式中,所述至少一个预设规则还包括:当识别出新的说话人时,在显示新的说话人的身份信息和内容信息时,还显示前一说话人的身份信息。
[0017]第二方面,本专利技术实施例还公开了一种会议场景下的说话内容的显示装置,所述装置包括:接收单元,用于响应于所述装置的会议应用开启的声纹识别功能,接收说话人的音频流;识别单元,用于基于声纹识别技术识别当前音频片段中说话人的身份信息,以及对当前音频片段进行语音识别得到内容信息,所述当前音频片段是所述音频流的至少一部分音频;显示单元,用于关联显示所述说话人的身份信息以及所述内容信息。
[0018]第三方面,本专利技术实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器连接的存储器;其中,所述存储器用于存储计算机程序指令;所述计算机程序指令被所述处理器读取并执行时,实现上述第一方面或第一方面任一实施方式所述的方法。
[0019]第四方面,本专利技术实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面或第一方面任一实施方式所述的方法。
[0020]本实施例提供的一种会议场景下的说话内容的显示方法和装置,通过在会议应用上设置声纹识别功能,并响应于启动该声纹识别功能,在会议中采集至少一个说话人的音频流时,就能够利用该声纹识别技术识别出不同的说话人的身份,以及利用语音识别技术
识别说话人的内容信息,最后关联显示在显示界面上,本技术方案可实时地识别并显示当前音频片段的说话人和内容信息,从而实现了会议中说话人身份和说话内容的实时展示,提高了会议质量和用户的参会体验。
附图说明
[0021]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本公开实施例中提供的一种会议模式下的场景示意图;
[0023]图2为本公开实施例中提供的一种会议场景下的说话内容的显示方法的流程图;
[0024]图3a为本公开实施例中提供的一种会议中在PC端展示“安全设置窗口”的示意图;
[0025]图3b为本公开实施例中提供的另一种会议中在PC端展示“安全设置窗口”的示意图;
[0026]图3c为本公开实施例中提供的一种会前在PC端展示“安全设置窗口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种会议场景下说话内容的显示方法,其特征在于,所述方法包括:响应于终端设备的会议应用开启的声纹识别功能,在接收说话人的音频流的过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息,所述当前音频片段是所述音频流的至少一部分音频;对所述当前音频片段进行语音识别得到内容信息;关联显示所述说话人的身份信息以及所述内容信息。2.根据权利要求1所述的方法,其特征在于,基于声纹识别技术识别当前音频片段中说话人的身份信息,包括:响应于通过语音活动检测VAD检测到人声结束信号,在采样周期内获取所述当前音频片段;确定所述当前音频片段中每个说话人的语音特征;基于所述每个说话人的语音特征进行聚类分析,并将同一类的说话人嵌入作为一个说话人,得到聚类结果;基于预先采集的说话人的音频信息,对所述聚类结果进行身份匹配,确定每个所述说话人的身份信息。3.根据权利要求2所述的方法,其特征在于,当识别出两个或两个以上说话人的身份信息时,所述关联显示所述说话人的身份信息以及所述内容信息,包括:显示所述两个或两个以上说话人的身份信息,或者,显示所述两个或两个以上说话人的身份信息,以及每个说话人对应的内容信息。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据识别出的所述说话人的会中身份标识,在所述显示界面上还显示所述说话人的会中身份标识。5.根据权利要求1至4任一项所述的方法,其特征在于,所述说话人的身份信息以及所述内容信息在所述显示界面上通过以下任意一种显示:宫格视图、缩略图视图、放大视图、讲演者视图、失焦小窗视图。6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:如果在所述当前音频片段之后的预设时长内,利用所述声纹识别技术在下一音频片段中未检测到新的说话人,则不再显示所述当前音频片段中说话人的身份信息和内容信息,显示所述说话人所在的会议室的会议室标识。7.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:在所述显示界面上还显示声纹图标或用户ID,所述声纹图标或用户ID在被用户触发时,弹出所述提示语,所述提...

【专利技术属性】
技术研发人员:王斌王乾坤穆维林杨晶生
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1