一种广告弹幕检测方法、装置、服务器及存储介质制造方法及图纸

技术编号:24806306 阅读:69 留言:0更新日期:2020-07-07 22:20
本发明专利技术公开了一种广告弹幕检测方法、装置、服务器及存储介质,属于弹幕技术领域。本发明专利技术提供的方法包括:采集历史弹幕数据,其中所述历史弹幕数据包括广告弹幕和正常弹幕;利用随机森林训练所述历史弹幕数据,获得广告弹幕预测模型;实时采集弹幕数据,根据实时弹幕数据中的维度特征,通过所述广告弹幕预测模型以检测实时弹幕数据是否为广告弹幕。通过本发明专利技术可以快速识别未曾出现过的广告弹幕,并保障对广告弹幕的准确检测和拦截。

【技术实现步骤摘要】
一种广告弹幕检测方法、装置、服务器及存储介质
本专利技术涉及弹幕
,尤其涉及一种广告弹幕检测方法、装置、服务器及存储介质。
技术介绍
用户在观看直播过程中,经常会出现广告弹幕,广告弹幕不仅会影响到用户的观看体验,而且还可能涉及违法一些宣传内容。针对这些恶意广告,需要根据弹幕内容区分是否为广告弹幕并进行相应的拦截。现有的广告拦截模型主要是通过事先标注好的广告弹幕,对神经网络等模型迭代训练,这种方式对于从未出现过的弹幕,或简单打乱词序、形近字、音近字等形式的弹幕,将难以进行识别判断出来,使得弹幕拦截效果不理想。
技术实现思路
有鉴于此,本专利技术实施例提供了一种广告弹幕检测方法、装置及存储介质,用于检测识别未出现过的广告弹幕,并进行拦截。结合本专利技术实施例的第一方面,提供了一种广告弹幕检测方法,包括:采集历史弹幕数据,其中所述历史弹幕数据包括广告弹幕和正常弹幕;利用随机森林训练所述历史弹幕数据,获得广告弹幕预测模型;实时采集弹幕数据,根据实时弹幕数据中的维度特征,通过所述广告弹幕预测模型检测所述实时弹幕数据是否为广告弹幕。结合本专利技术实施例的第二方面,提供了一种广告弹幕检测装置,包括:采集单元:用于采集历史弹幕数据,其中所述历史弹幕数据包括广告弹幕和正常弹幕;训练单元:用于利用随机森林训练所述历史弹幕数据,获得广告弹幕预测模型;检测单元:用于实时采集弹幕数据,根据实时弹幕数据中的维度特征,通过所述广告弹幕预测模型检测所述实时弹幕数据是否为广告弹幕。在本专利技术实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。在本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请第一方面提供的所述方法的步骤。在本专利技术实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被一个或多个处理器执行时实现如本申请第一方面提供的所述方法的步骤。本专利技术实施例中,通过采集历史弹幕数据,利用随机森林训练历史弹幕数据,得到识别模型,利用该识别模型检测实时弹幕。本方案结合随机森林训练样本,并根据弹幕数据特征判断弹幕风险性,可以识别事先没有出现过的弹幕,而且针对简单形式变换的广告弹幕可以实时快速的进行拦截,解决传统基于弹幕内容的识别模型迭代速率慢的问题,保障拦截的准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的广告弹幕检测方法的流程示意图;图2为本专利技术实施例提供的广告弹幕检测方法的另一流程示意图;图3为本专利技术实施例提供的步骤S103的具体实现流程图;图4为本专利技术实施例提供的广告弹幕检测装置的结构示意图;图5为本专利技术实施例提供的服务器的结构示意图。具体实施方式本专利技术实施例提供了一种广告弹幕检测方法、装置、服务器及存储介质,用于检测识别恶意广告弹幕。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。实施例一:请参阅图1,本专利技术实施例提供的视频直播中的广告展示方法的实现流程图,包括以下步骤:S101、采集历史弹幕数据,其中所述历史弹幕数据包括广告弹幕和正常弹幕;所述历史弹幕数据,即在系统服务器的数据中已经存储的弹幕数据,所述历史弹幕数据来自不同的直播间、不同用户及不同设备的客户端,随机选择一定数量的历史弹幕数据,按弹幕内容及弹幕的基本信息整理弹幕数据。所述广告弹幕为已经认定为广告的弹幕,在采集历史弹幕数据时,会对广告弹幕进行标注。在本专利技术实施例中,恶意的广告弹幕即涉及违法内容宣传或不当手段宣传获利的弹幕内容,恶意广告可以通过程序设定自动在直播间发送广告弹幕,恶意广告弹幕形式多样,如符号、异形字、音近字、形近字等形式,传统的识别模型对于这些经过变异的弹幕难以进行识别。优选的,在采集历史弹幕数据后,对历史弹幕数据按用户、弹幕内容、设备ID、IP地址、直播间号、身份记录等标记整理。对历史弹幕数据的整理标记可以方便决策树节点确定及树的个数。S102、利用随机森林训练所述历史弹幕数据,获得广告弹幕预测模型;所述随机森林是一种包含多个决策树的分类器,通过构成决策树来求取期望值大于零的概率,评价项目风险,判断其可行性的决策分析方法,是一种直观运用概率分析的一种图解法。具体的,利用采集历史弹幕数据作为样本,有放回的从样本中提取训练集对决策树的每个节点进行训练。所述广告弹幕预测模型即经过随机森林对其中所有的决策树都进行训练后,根据输入的弹幕数据,输出弹幕的预测或判断结果。具体的,将所述历史弹幕数据作为样本,对每个决策树通过计算节点的最小基尼不纯度,选取分类节点。S103、实时采集弹幕数据,根据实时弹幕数据中的维度特征,通过所述广告弹幕预测模型检测所述实时弹幕数据是否为广告弹幕。所述弹幕数据为用户文本输入完成后点击发送,被服务器获取到的弹幕数据,所述实施弹幕数据是实时采集的弹幕数据,该实时弹幕数据中包含有基本的发送者信息即用户信息,如用户名、房间信息、设备IP等。优选的,还包括历史弹幕数、设备ID及发送端的IP占比等统计信息。所述维度特征为基于当前弹幕基本信息,如弹幕内容、用户身份、设备ID、网络IP等,及历史弹幕数据的行为统计信息,如当前弹幕内容出现次数、设备ID发送弹幕数、当前直播间人均弹幕数等统计信息。具体的,该预定特征为基于当前弹幕基本信息和历史弹幕信息的不同维度行为统计特征,所述历史弹幕信息即当前用户的历史弹幕记录,所述不同维度行为统计特征即用户发送弹幕对应的身份、内容、设备、网络IP、房间及客户端类型等维度的弹幕统计特征。通过所述广告弹幕预测模型,可以对用户发送的弹幕进行实时预测,判断是否为广告弹幕。优选的,通过所述广告弹幕预测模型,计算每条弹幕为广告弹幕的可能性,根据该条弹幕为广告弹幕的可能性,查找对应的拦截等级,并采取对应的拦截策略。具体的,对每条弹幕是广告的可能性进行分级,根据不同的级别采取不同程度的拦截策略。例如如广告可能性为70%-90%时,删除该条弹幕。在上述方法中基于随机森林训练样本,提取弹幕特征,进而实时预测弹幕是否为广本文档来自技高网...

【技术保护点】
1.一种广告弹幕检测方法,其特征在于,包括:/n采集历史弹幕数据,其中所述历史弹幕数据包括广告弹幕和正常弹幕;/n利用随机森林训练所述历史弹幕数据,获得广告弹幕预测模型;/n实时采集弹幕数据,根据实时弹幕数据中的维度特征,通过所述广告弹幕预测模型检测所述实时弹幕数据是否为广告弹幕。/n

【技术特征摘要】
1.一种广告弹幕检测方法,其特征在于,包括:
采集历史弹幕数据,其中所述历史弹幕数据包括广告弹幕和正常弹幕;
利用随机森林训练所述历史弹幕数据,获得广告弹幕预测模型;
实时采集弹幕数据,根据实时弹幕数据中的维度特征,通过所述广告弹幕预测模型检测所述实时弹幕数据是否为广告弹幕。


2.根据权利要求1所述的方法,其特征在于,所述利用随机森林训练所述历史弹幕数据具体为:
将所述历史弹幕数据作为样本,通过计算每个决策树中节点的最小基尼不纯度,选取决策树的分类节点。


3.根据权利要求1所述的方法,其特征在于,所述维度特征为基于实时弹幕基本信息和历史弹幕信息的弹幕发送行为不同维度信息统计特征。


4.根据权利要求1所述的方法,其特征在于,所述通过所述广告弹幕预测模型检测所述实时弹幕数据是否为广告弹幕具体为:
根据所述维度特征,通过所述广告弹幕预测模型计算所述维度特征对应的实时弹幕数据是广告弹幕的概率。


5.根据权利要求4所述的方法,其特征在于,所述根据所述维度特征,通过所述广告弹幕预测模型计算所述预定特征对应的实时弹幕是广告弹幕的概率还包括:
根据所述实时弹幕数据是广告弹幕的概率,查找所述概率对应的拦截等级,并执行所述拦截等级对应的拦截策略。

【专利技术属性】
技术研发人员:刘兵
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利