【技术实现步骤摘要】
唱歌识别方法、装置、设备及存储介质
[0001]本专利技术涉及计算机
,特别是涉及一种基于多模态信息的唱歌识别方法、装置、设备及存储介质。
技术介绍
[0002]此处的陈述仅提供与本专利技术有关的背景信息,而不必然地构成现有技术。
[0003]在直播平台中,主播的直播内容具有多变性,主播往往会在直播间播放歌手唱歌的背景音乐,部分主播还可能从外部设备接入歌手唱歌的背景音乐。因此,现有的依靠语音来实时识别主播是否在唱歌是非常困难非常不准确的,尤其是在诸如外部设备接入歌手唱歌的背景音乐等情形中,依靠语音所进行的实时识别的准确率极低。
[0004]目前唱歌直播平台主要采用以下方案:1、主播填写的标签;2、仅依靠语音识别唱歌。这些方案通常会面临如下的问题:问题1,主播填写的标签不会轻易变动,因此不能体现主播当前直播内容是否为唱歌,从而难以做到实时识别和实时推荐;问题2,仅依靠语音识别唱歌,外部设备接入等情形会导致无法识别。
技术实现思路
[0005]本专利技术的目的在于提供一种新的唱歌识别方法、装 ...
【技术保护点】
【技术特征摘要】
1.一种唱歌识别方法,其特征在于,所述方法包括以下步骤:获取媒体流,从所述媒体流提取音频信息和图片信息;根据所述音频信息得到说话概率、歌声概率、背景音乐概率中的一个或多个;根据所述图片信息得到画面有人脸的概率、张嘴的概率、画面有乐器的概率中的一个或多个;根据所述音频信息和所述图片信息来得到唱歌识别的结果,包括根据所得到的所述说话概率、所述歌声概率、所述背景音乐概率、所述画面有人脸的概率、所述张嘴的概率、所述画面有乐器的概率中的一个或多个来得到唱歌识别的结果。2.根据权利要求1所述的唱歌识别方法,其特征在于,所述的根据所述音频信息得到说话概率、歌声概率、背景音乐概率中的一个或多个具体包括:将所述音频信息输入至预先训练好的音频识别模型,实时得到说话概率、歌声概率、背景音乐概率中的一个或多个;所述的根据所述图片信息得到画面有人脸的概率、张嘴的概率、画面有乐器的概率中的一个或多个具体包括:将所述图片信息输入至预先训练好的人脸检测模型、唇部特征点检测模型、乐器识别模型中的一个或多个,分别实时得到画面有人脸的概率、张嘴的概率、画面有乐器的概率中的对应的一个或多个;所述的根据所得到的说话概率、歌声概率、背景音乐概率、画面有人脸的概率、张嘴的概率、画面有乐器的概率中的一个或多个来得到唱歌识别的结果具体包括:将所得到的说话概率、歌声概率、背景音乐概率、画面有人脸的概率、张嘴的概率、画面有乐器的概率中的一个或多个作为识别特征,将所述识别特征实时输入至预先训练好的决策树模型,以得到唱歌识别的结果。3.根据权利要求2所述的唱歌识别方法,其特征在于,所述的将所述识别特征实时输入至预先训练好的决策树模型,以得到唱歌识别的结果,具体包括:将所述识别特征实时输入至预先训练好的决策树模型,得到当前时刻在唱歌的概率,判断当前时刻在唱歌的概率是否大于第一阈值;将当前时刻之前的一个时间段作为当前时间段,判断所述当前时间段内的多个时刻的在唱歌的概率是否超过第二阈值,将所述当前时间段内的超过第二阈值的时刻数量与所述当前时间段内的时刻总数量的比例作为所述当前时间段的唱歌占比;若当前时刻在唱歌的概率大于第一阈值、和/或当前时间段内的所述唱歌占比大于第三阈值,则判定在唱歌。4.根据权利要求2所述的唱歌识别方法,其特征在于,在所述决策树模型的训练过程中,通过求解如下的最优化问题来优化模型参数:使得样本的根据特征预测出来的唱歌概率与样本标签记录的真实唱歌情况之间的平方和差距最小;其中,利用如下算式来求解所述最优化问题:
其中,X
i
=(x1,x2,
…
,x6)为第i个样本的识别特征;x1为所述说话概率,x2为所述歌声概率,x3为所述背景音乐概率,x4为所述画面有人脸的概率,x5为所述张嘴的概率,x6为所述画面有乐器的概率;y
i
为第i个样本的标签,y
i
=1表示所述标签对应的样本的真实情况为正在进行唱歌,y
i
=0...
【专利技术属性】
技术研发人员:李益永,陈绿然,黎子骏,井雪,陈德健,项伟,
申请(专利权)人:百果园技术新加坡有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。