直播连麦方法、装置及存储介质制造方法及图纸

技术编号：36729455 阅读：19 留言：0更新日期：2023-03-04 09:54

本申请提供一种直播连麦方法、装置及存储介质，该方法通过获取直播连麦过程中预设时间段内说话人p

全部详细技术资料下载

【技术实现步骤摘要】
直播连麦方法、装置及存储介质

[0001]本申请涉及互联网
，尤其涉及一种直播连麦方法、装置及存储介质。

技术介绍

[0002]随着视频直播的兴起，涌现出大量的视频直播平台。在视频直播平台中，可以划分多个视频直播间，这些视频直播间通常由主播主持。主播可以将直播内容推送至直播服务器，然后视频直播间内的用户可以从直播服务器处下载并观看该视频直播间的直播内容。
[0003]目前，处于同一个视频直播间内的用户可以通过发送弹幕的形式对直播内容进行评价或者进行彼此之间的交流。这就要求用户在观看直播内容的同时，还要花费时间输入文字信息。尤其对于使用移动终端观看直播内容的用户而言，输入文字信息的方式过于繁琐。因此，在视频直播间内越来越多用户选择与主播连麦进行交流。
[0004]但是，在直播连麦过程中，连麦主播以及各个连麦用户之间进行语音交流时，在大多情况下，连麦主播、连麦用户或者其他用户并不能分辨哪个用户正在说话，以及听到的语音信息是来源于哪个说话人，从而影响直播连麦的质量。

技术实现思路

[0005]为解决现有技术中存在的问题，本申请提供一种直播连麦方法、装置及存储介质。
[0006]第一方面，本申请实施例提供一种直播连麦方法，包括：
[0007]获取直播连麦过程中预设时间段内说话人p
i
的所有音量值v
j
，其中，i＝1,2,...,n，j＝1,2,...,m，n等于所述直播连麦过程中用户和主播的总数，m等于所述直播连麦过程中所述预设时间段内...

【技术保护点】

【技术特征摘要】
1.一种直播连麦方法，其特征在于，包括：获取直播连麦过程中预设时间段内说话人p
i
的所有音量值v
j
，其中，i＝1,2,...,n，j＝1,2,...,m，n等于所述直播连麦过程中用户和主播的总数，m等于所述直播连麦过程中所述预设时间段内所述说话人p
i
的音量回报的次数；根据所述音量值v
j
，获得所述说话人p
i
的音量分布图，并基于所述音量分布图，确定所述说话人p
i
对应的音量阈值；根据所述音量阈值，确定所述说话人p
i
在所述直播连麦过程中所述预设时间段内的说话状态；将所述说话状态与所述说话人p
i
的头像进行对应显示。2.根据权利要求1所述的方法，其特征在于，所述基于所述音量分布图，确定所述说话人p
i
对应的音量阈值，包括：基于所述音量分布图，进行音量聚类，获得所述说话人p
i
对应的背景音和前景音；根据所述背景音和所述前景音，确定所述音量阈值。3.根据权利要求2所述的方法，其特征在于，所述根据所述背景音和所述前景音，确定所述音量阈值，包括：对所述背景音和所述前景音进行二值化，获得双模直方图，所述双模直方图包括前景像素和背景像素；计算所述前景像素和所述背景像素的类内方差；从所述类内方差中获取最小类内方差，基于所述最小类内方差，确定所述音量阈值。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述音量阈值，确定所述说话人p
i
在所述直播连麦过程中所述预设时间段内的说话状态，包括：以x次为音量周期，判断所述说话人p
i
在所述直播连麦过程中的音量值v
k
是否均小于所述音量阈值，其中，k＝1,2,...,x，x为整数，1≤x≤m；若所述说话人p
i
在所述直播连麦过程中的音量值v
k
均小于所述音量阈值，则确定所述说话人p
i
在所述音量周期的说话状态为没有说话；若所述说话人p
i
在所述直播连麦过程中的音量值v
k
没有均小于所述音量阈值，则确定所述说话人p
i
在所述音量周期的说话状态为说话。5.根据权利要求1至3中任一项所述的方法，其特征在于，所述说话状态包括说话或没有说话；所述将所述说话状态与所述说话人p
i
的头像进行对应显示，包括：若所述说话状态为说话，则设置所述说话人p
i
的说话状态值为第一值；若所述说话状态为没有说话，则设置所述说话人p
i
的说话状态值为第二值，所述第二值与所述第一值不同；将所述第一值和所述第二值与所述说话人p
i
的头像进行对应显示。6.根据权利要求1至3中任一项所述的方法，其特征在于，在所述根据所述音量阈值，确定所述说话人p
i
在所述直播连麦过程中所述预设时间段内的说话状态之后，还包括：在直播码流中随流写入所述说话人p
i
在所述直播连麦过程中所述预设时间段内的说话状态，并将处理后的直播码流发送至直播服务器，以在终端根据所述直播服务器中所述处理后的直播码流得到所述说话人p
i
的声波动效。
7.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述音量值v
j
，获得所述说话人p
i
的音量分布图，包括：根据所述音量值v
j
，确定所述说话人p
i
的每个音量值的分布次数；基于所述说话人p
i
的每个音量值的分布次数，并以横轴为音量值，纵轴为每个音量值的分布次数为坐标系，建立所述说话人p
i
的音量分布图。8.根据权利要求1至3中任一项所述的方法，其特征在于，在所述根据所述音量阈值，确定所述说话人p
i
在所述直播连麦过程中所述预设时间段内的说话状态之后，还包括：根据所述说话状态，确定所述说话人p
i
对应的声效的渲染样式；根据所述渲染样式，对所述说话人p
i
进行声效渲染。9.根据权利要求8所述的方法，其特征在于，所述根据所述说话状态，确定所述说话人p
i
对应的声效的渲染样式，包括：获取预存说话状态与声效的渲染样式的对应关系；根据所述对应关...

【专利技术属性】
技术研发人员：鲍建军，
申请(专利权)人：北京字跳网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人