一种会议场景下的说话内容的显示方法和装置制造方法及图纸

技术编号：35692243 阅读：21 留言：0更新日期：2022-11-23 14:41

本发明专利技术公开了一种会议场景下的说话内容的显示方法和装置，所述方法包括：响应于终端设备的会议应用开启的声纹识别功能，在接收说话人的音频流的过程中，基于声纹识别技术识别当前音频片段中说话人的身份信息，所述当前音频片段是所述音频流的至少一部分音频，对所述当前音频片段进行语音识别得到内容信息；关联显示所述说话人的身份信息以及所述内容信息。本技术方案可实时地识别并显示当前音频片段的说话人和内容信息，从而实现了会议中说话人身份和说话内容的实时展示，提高了会议质量和用户的参会体验。用户的参会体验。用户的参会体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种会议场景下的说话内容的显示方法和装置

[0001]本公开涉及人工智能
，尤其是涉及一种会议场景下的说话内容的显示方法和装置。

技术介绍

[0002]说话人分割聚类(speaker diarization，SD)是指按照说话人的身份，将不同说话人的声音区分开来的技术，从而解决了“谁在什么时候说了话”的问题。利用声纹识别技术结合SD实现了通过声音判断说话人的身份。
[0003]现有的声纹识别技术多应用于视频会议场景，一般是在视频会议或语音会议结束后，对会上录制的说话人说话的音频文件进行声纹识别和聚类，识别出说话人的身份和说话内容，再展示识别结果。但不支持会议中说话人身份和说话内容的实时展示，进而对于在线会议的与会人员而言，不能实时地掌握会议中说话人的情况，影响用户体验和会议质量。

技术实现思路

[0004]本专利技术目的是实现会议中说话人身份和说话内容的实时展示，从而提高会议质量和参会体验，具体地，本专利技术实施例公开了如下技术方案：
[0005]第一方面，本专利技术实施例公开了一种会议场景下说话内容的显示方法，所述方法包括：响应于终端设备的会议应用开启的声纹识别功能，在接收说话人的音频流的过程中，基于声纹识别技术识别当前音频片段中说话人的身份信息，所述当前音频片段是所述音频流的至少一部分音频；对所述当前音频片段进行语音识别得到内容信息；关联显示所述说话人的身份信息以及所述内容信息。
[0006]结合第一方面，在第一方面的一种可能的实施方式中，基于声纹识别技术识别当前音频...

【技术保护点】

【技术特征摘要】
1.一种会议场景下说话内容的显示方法，其特征在于，所述方法包括：响应于终端设备的会议应用开启的声纹识别功能，在接收说话人的音频流的过程中，基于声纹识别技术识别当前音频片段中说话人的身份信息，所述当前音频片段是所述音频流的至少一部分音频；对所述当前音频片段进行语音识别得到内容信息；关联显示所述说话人的身份信息以及所述内容信息。2.根据权利要求1所述的方法，其特征在于，基于声纹识别技术识别当前音频片段中说话人的身份信息，包括：响应于通过语音活动检测VAD检测到人声结束信号，在采样周期内获取所述当前音频片段；确定所述当前音频片段中每个说话人的语音特征；基于所述每个说话人的语音特征进行聚类分析，并将同一类的说话人嵌入作为一个说话人，得到聚类结果；基于预先采集的说话人的音频信息，对所述聚类结果进行身份匹配，确定每个所述说话人的身份信息。3.根据权利要求2所述的方法，其特征在于，当识别出两个或两个以上说话人的身份信息时，所述关联显示所述说话人的身份信息以及所述内容信息，包括：显示所述两个或两个以上说话人的身份信息，或者，显示所述两个或两个以上说话人的身份信息，以及每个说话人对应的内容信息。4.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据识别出的所述说话人的会中身份标识，在所述显示界面上还显示所述说话人的会中身份标识。5.根据权利要求1至4任一项所述的方法，其特征在于，所述说话人的身份信息以及所述内容信息在所述显示界面上通过以下任意一种显示：宫格视图、缩略图视图、放大视图、讲演者视图、失焦小窗视图。6.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：如果在所述当前音频片段之后的预设时长内，利用所述声纹识别技术在下一音频片段中未检测到新的说话人，则不再显示所述当前音频片段中说话人的身份信息和内容信息，显示所述说话人所在的会议室的会议室标识。7.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：在所述显示界面上还显示声纹图标或用户ID，所述声纹图标或用户ID在被用户触发时，弹出所述提示语，所述提...

【专利技术属性】
技术研发人员：王斌，王乾坤，穆维林，杨晶生，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人