一种弹幕识别模型建立方法、装置、服务器及介质制造方法及图纸

技术编号:20075055 阅读:40 留言:0更新日期:2019-01-15 00:38
本发明专利技术公开了一种弹幕识别模型建立方法、装置、服务器及介质。该方法包括:使用弹幕训练样本对对预先构建的卷积神经网络进行训练;将训练完成的卷积神经网络作为弹幕识别模型;其中,弹幕训练样本对包括弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值,弹幕类型值包括正常弹幕输出值和异常弹幕输出值。采用上述技术方案训练获得的弹幕识别模型,可以有效过滤异常弹幕,提高异常弹幕的识别正确率和识别效率,同时能够实现弹幕识别模型的自主增量学习。

A Method, Device, Server and Medium for Establishment of Barrage Recognition Model

The invention discloses a method, a device, a server and a medium for establishing a bullet screen recognition model. The method includes: using the training samples to train the pre-constructed convolution neural network; using the completed training convolution neural network as the recognition model of the barrage; among them, the training samples are used for the barrage type values including the barrage sample word vector and the corresponding barrage type values with the barrage sample word vector, and the barrage type values include the normal barrage output value and the abnormal barrage output value. The recognition model obtained by the training of the above technical scheme can effectively filter the abnormal barrage, improve the recognition accuracy and efficiency of the abnormal barrage, and realize the autonomous incremental learning of the barrage recognition model.

【技术实现步骤摘要】
一种弹幕识别模型建立方法、装置、服务器及介质
本专利技术实施例涉及计算机
,尤其涉及一种弹幕识别模型建立方法、装置、服务器及介质。
技术介绍
弹幕是网络直播的重要组成部分,是直播间热度的客观反应。用户之间可以通过弹幕进行互动,主播也可以通过弹幕直接了解用户的想法,提升用户的观看体验。随着直播平台的发展,超大型主播观看人数爆炸,这导致直播过程中短时间的弹幕量可能达到几千甚至几万量级。如果短时间在直播界面上显示如此海量的弹幕,一方面会由于弹幕过于密集遮挡主播的直播内容;另一方面会导致用户软件服务高负载,耗费大量流量和内存。由于短时间内海量弹幕中包含大量的低质量弹幕,因此,可以通过对低质量弹幕识别的方式实现直播界面所显示的弹幕的数量的有效控制。现有技术中,通常采用人工筛查或关键词正则匹配等方式进行低质量弹幕(也即异常弹幕)的过滤。然而,上述方法对低质量弹幕的识别效果较差,识别效率也较低。同时,由于建立的弹幕识别模型在训练过程中无法进行训练样本的增量调整,因此也无法实现模型训练中的自主增量学习。
技术实现思路
本专利技术实施例提供了一种弹幕识别模型建立方法、装置、服务器及介质,以实现对低质量弹幕的过滤。第一方面,本专利技术实施例提供了一种弹幕识别模型建立方法,包括:使用弹幕训练样本对对预先构建的卷积神经网络进行训练;其中,所述弹幕训练样本对包括:弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值;所述弹幕类型值包括正常弹幕输出值和异常弹幕输出值;将训练完成的卷积神经网络作为所述弹幕识别模型。第二方面,本专利技术实施例还提供了一种弹幕识别模型建立装置,包括:训练模块,用于使用弹幕训练样本对对预先构建的卷积神经网络进行训练;其中,所述弹幕训练样本对包括:至少两个弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值;所述弹幕类型值包括正常弹幕输出值和异常弹幕输出值;模型生成模块,用于将训练完成的卷积神经网络作为所述弹幕识别模型。第三方面,本专利技术实施例还提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面实施例所提供的一种弹幕识别模型建立方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所提供的一种弹幕识别模型建立方法。本专利技术实施例通过使用弹幕训练样本对对预先构建的卷积神经网络进行训练;将训练完成的卷积神经网络作为弹幕识别模型;其中,弹幕训练样本对包括弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值,弹幕类型值包括正常弹幕输出值和异常弹幕输出值。采用上述技术方案训练获得的弹幕识别模型,可以有效过滤异常弹幕,提高异常弹幕的识别正确率和识别效率,同时能够实现弹幕识别模型的自主增量学习。附图说明图1是本专利技术实施例一中的一种弹幕识别模型建立方法的流程图;图2是本专利技术实施例二中的一种弹幕识别模型建立方法的流程图;图3是本专利技术实施例三中的一种弹幕识别模型建立方法的流程图;图4是本专利技术实施例四中的一种弹幕识别模型建立方法的流程图;图5A是本专利技术实施例五中的卷积神经网络模型结构图;图5B是本专利技术实施例五中的一种弹幕识别模型建立方法的流程图;图6是本专利技术实施例六中的一种弹幕识别模型装置的结构图;图7是本专利技术实施例七提供的一种服务器的硬件结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一中的一种弹幕识别模型建立方法的流程图。本专利技术实施例可适用于在直播过程中对弹幕进行过滤的情况,该方法可以由弹幕识别模型建立装置来执行,该装置由软件和/或硬件实现,并具体配置于服务器中。如图1所示的弹幕识别模型建立方法,包括:S110、使用弹幕训练样本对对预先构建的卷积神经网络进行训练。其中,所述弹幕训练样本对包括:弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值;所述弹幕类型值包括正常弹幕输出值和异常弹幕输出值。其中,弹幕训练样本可以从训练样本库中直接获取各弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值;还可以从原始弹幕库中获取原始弹幕样本进行编码预处理后得到。需要说明的是,当弹幕样本词向量由原始弹幕样本经过编码预处理得到时,预处理过程可以在训练卷积神经网络之前,还可以在训练卷积神经网络过程中进行。示例性地,卷积神经网络包括输入层、隐藏层、全连接层和输出层首尾相接;所述隐藏层包括至少两个计算网络分支;所述计算网络分支包括卷积层、与所述卷积层连接的激活层、与所述激活层连接的池化层和与所述池化层连接的折叠层。其中,在输入层可以对原始弹幕样本进行编码预处理得到弹幕样本词向量。示例性地,弹幕样本词向量可以由获取的原始弹幕样本进行编码处理形成词向量。示例性地,获取原始弹幕样本的方式可以是:从弹幕库中获取原始弹幕样本,通过异常关键词匹配的方式识别正常弹幕和异常弹幕;或者从弹幕库中获取原始弹幕样本,人工识别正常弹幕和异常弹幕。示例性地,弹幕类型值的确定方式可以是:将正常弹幕的弹幕类型值设定为正常弹幕输出值;将异常弹幕的弹幕类型值设定为异常弹幕输出值。其中,正常弹幕输出值与异常弹幕输出值不同。示例性地,正常弹幕输出值可以设置为0,相应的异常弹幕可以设置为1。其中,各正常弹幕以及正常弹幕对应的正常弹幕输出值形成正常弹幕训练样本对;各异常弹幕以及异常弹幕对应的异常弹幕输出值形成异常弹幕训练样本对。其中,弹幕训练样本对包括正常弹幕训练样本对和异常弹幕训练样本对。具体的,将正常弹幕训练样本对和异常弹幕训练样本对均作为输入样本对卷积神经网络进行训练。S120、将训练完成的卷积神经网络作为所述弹幕识别模型。其中,卷积神经网络是否训练完成可以通过对训练后的卷积神经网络进行模型评价,当模型评价结果满足模型生成条件时,将训练后的卷积神经网络作为弹幕识别模型。示例性地,模型评价过程可以是:采用评价弹幕样本词向量作为输入样本输入至所述弹幕识别模型,得到各所述评价弹幕样本词向量的预测结果;根据所述预测结果与所述评价弹幕样本词向量的实际弹幕类型值,获取模型评价结果,以对所述弹幕识别模型进行评价。示例性地,模型评价结果可以是下述至少一种:正常弹幕被预测为正常弹幕的概率,异常弹幕被预测为异常弹幕的概率,正常弹幕被预测为异常弹幕的概率,以及异常弹幕被预测为正常弹幕的概率等。相应的,模型生成条件可以是模型评价结果是否满足相应的设定阈值,其中,不同模型评价结果对应不同的设定阈值,各设定阈值由技术人员设定为经验值或根据应用需求自行设定。本专利技术实施例通过使用弹幕训练样本对对预先构建的卷积神经网络进行训练;将训练完成的卷积神经网络作为弹幕识别模型;其中,弹幕训练样本对包括弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值,弹幕类型值包括正常弹幕输出值和异常弹幕输出值。采用上述技术方案训练获得的弹幕识别模型,可以有效过滤异常弹幕,提高异常弹幕的识别正确率和识别效率,同时能够实现弹幕识别模型的自主增量学习。实施例二图2是本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种弹幕识别模型建立方法,其特征在于,包括:使用弹幕训练样本对对预先构建的卷积神经网络进行训练;其中,所述弹幕训练样本对包括:弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值;所述弹幕类型值包括正常弹幕输出值和异常弹幕输出值;将训练完成的卷积神经网络作为所述弹幕识别模型。

【技术特征摘要】
1.一种弹幕识别模型建立方法,其特征在于,包括:使用弹幕训练样本对对预先构建的卷积神经网络进行训练;其中,所述弹幕训练样本对包括:弹幕样本词向量以及与弹幕样本词向量对应的弹幕类型值;所述弹幕类型值包括正常弹幕输出值和异常弹幕输出值;将训练完成的卷积神经网络作为所述弹幕识别模型。2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络,包括:输入层、隐藏层、全连接层和输出层首尾相连;所述隐藏层包括至少两个计算网络分支;所述计算网络分支包括卷积层、与所述卷积层连接的激活层、与所述激活层连接的池化层和与所述池化层连接的折叠层。3.根据权利要求1所述的方法,其特征在于,在所述使用弹幕训练样本对预先构建的卷积神经网络进行训练之前,还包括:获取原始弹幕样本;根据预设标准词表,对各所述原始弹幕样本进行独热编码,生成初始弹幕样本词向量;对所述初始弹幕样本词向量进行降维处理,生成所述弹幕样本词向量。4.根据权利要求3所述的方法,其特征在于,在根据预设标准词表,对各所述原始弹幕样本进行独热编码,生成初始弹幕样本词向量之前,还包括:去除各原始弹幕样本中的异常字符,并更新所述原始弹幕样本;和/或去除各所述原始弹幕样本中内容相同的弹幕样本,并更新所述原始弹幕样本。5.根据权利要求1所述的方法,其特征在于,使用弹幕训练样本对对预先构建的神经网络进行训练,包括:选取设定数量的弹幕训练样本对;依次获取一个弹幕训练样本对输入至预先构建的卷积神经网络中,得到所述卷积神经网络基于弹幕样本词向量的输出结果,并基于所述输出结果对预先构建的卷积神经网...

【专利技术属性】
技术研发人员:王非池
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1