The present invention provides a recognition method, apparatus and computer equipment waste barrage, barrage method includes: information features of presupposition construction based on the rules of the barrage of information for feature extraction, obtaining the first barrage of information; according to the broadcast platform in custom thesaurus into words segmentation rules on the first barrage of information, form words bag model; mapping rules based on the presupposition, the bag of words model into word vector; TF IDF frequency inverse document frequency weighting on each word in the word vector, TF IDF weighted value of each word acquisition; the establishment of Naive Bayesian model, TF IDF weighted each word based on the value of the the use of Naive Bayesian model were calculated in all words under the condition of second probability probability P1, the first barrage of information garbage and information for the normal barrage barrage barrage P2; determine whether the first probability P1 is greater than second probability P2, and if the first probability P1 is larger than the second probability P2, the bullet information is determined as the garbage barrage.
【技术实现步骤摘要】
一种垃圾弹幕的识别方法、装置及计算机设备
本专利技术属于直播平台的垃圾弹幕处理
,尤其涉及一种垃圾弹幕的识别方法、装置及计算机设备。
技术介绍
目前,随着直播行业的快速发展,直播受众也在不断的扩大中,各类型的直播内容也越来越丰富。观众可以在观看直播的同时也可以通过发送弹幕的方式参与评论与互动,从而极大的提升了用户的参与度,丰富了直播内容。一般来说,观众每发送一条弹幕,该弹幕则会发送到直播平台服务器,而直播平台服务器则会将该弹幕转发到该直播间的所有观众。但是一些非正常用户为了获取利益,经常会在直播间内突发大量的垃圾弹幕信息,比如发送大量的广告信息。这种广告骚扰直接降低了用户的参与度,导致直播平台的用户量减少,也降低了直播平台的收益。现有技术中一般是通过人工提取规则,关键词模糊匹配的方案来识别垃圾弹幕,但是这种识别方式比较浪费人力,并且识别精度不高。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供了一种垃圾弹幕的识别方法、装置及计算机设备,用于解决现有技术中在直播平台进行直播时,由于对垃圾弹幕的识别精度不高,导致直播间会出现大量的垃圾弹幕信息,直接降低了 ...
【技术保护点】
一种垃圾弹幕的识别方法,其特征在于,应用于直播平台中,所述方法包括:基于预设的弹幕信息特征构建规则,对所述弹幕信息进行特征提取,获取第一弹幕信息;对所述第一弹幕信息进行预处理,去除所述第一弹幕信息中对朴素贝叶斯模型识别有影响的数据;根据所述直播平台自定义词库中的成词规则对预处理后的所述第一弹幕信息进行切词,构成词袋模型;基于预设的映射规则,将所述词袋模型转换为词向量;对所述词向量中的各词语进行词频‑反文档频率TF‑IDF加权,获取所述各词语的TF‑IDF加权值;建立所述朴素贝叶斯模型,基于所述各词语的TF‑IDF加权值,利用所述朴素贝叶斯模型分别计算在所述词袋模型中所有词语 ...
【技术特征摘要】
1.一种垃圾弹幕的识别方法,其特征在于,应用于直播平台中,所述方法包括:基于预设的弹幕信息特征构建规则,对所述弹幕信息进行特征提取,获取第一弹幕信息;对所述第一弹幕信息进行预处理,去除所述第一弹幕信息中对朴素贝叶斯模型识别有影响的数据;根据所述直播平台自定义词库中的成词规则对预处理后的所述第一弹幕信息进行切词,构成词袋模型;基于预设的映射规则,将所述词袋模型转换为词向量;对所述词向量中的各词语进行词频-反文档频率TF-IDF加权,获取所述各词语的TF-IDF加权值;建立所述朴素贝叶斯模型,基于所述各词语的TF-IDF加权值,利用所述朴素贝叶斯模型分别计算在所述词袋模型中所有词语出现的情况下,所述弹幕信息为垃圾弹幕的第一概率P1、及所述弹幕信息为正常弹幕的第二概率P2;判断所述第一概率P1是否大于所述第二概率P2,若所述第一概率P1大于所述第二概率P2,则确定所述弹幕信息为垃圾弹幕。2.如权利要求1所述的方法,其特征在于,对所述第一弹幕信息进行预处理,去除所述第一弹幕信息中对朴素贝叶斯模型识别有影响的数据,包括:去除所述第一弹幕信息中弹幕内容为空的数据、所述弹幕内容中的标点符号及弹幕类型为空的数据。3.如权利要求1所述的方法,其特征在于,所述根据所述直播平台自定义词库中的成词规则对所述第一弹幕信息进行切词,构成词袋模型,包括:根据所述成词规则对所述第一弹幕信息中的对所述朴素贝叶斯模型识别无影响的词语进行过滤,获取过滤后的词语;将所述过滤后的词语按照预定的顺序进行组合,构成所述词袋模型。4.如权利要求1所述的方法,其特征在于,所述基于预设的映射规则,将所述词袋模型转换为词向量,包括:基于预设的词向量纬度,将所述词袋模型的各词语映射至所述词向量的相应纬度上,将所述词袋模型转换为所述词向量。5.如权利要求1所述的方法,其特征在于,所述对所述词向量中的各词语进行TF-IDF加权,获取所述各词语的TF-IDF加权值,包括:计算所述各词语在所述弹幕信息中出现的频率TF;基于公式IDF=log2M计算所述各词语的反文档频率加权值IDF,所述M为总弹幕信息的数目分别与包含各词语的弹幕信息数目的商值;根据公式TF-IDF=TF*IDF计算所述各词语的TF-IDF加权值。6.如权利要求1所述的方法,其特征在于,所述基于所述各词语的TF-IDF加权值,利用所述朴素贝叶斯模型分别计算在所有词语出现的情况下,所述弹幕信息为垃圾弹幕的第一概率P1,包括:利用公式P1=P(“垃圾弹幕”|a1,a2,a3,a4,a5,a6,…,ai,…,an)=(p(“垃圾弹幕”|a1)*TF-IDF(a1))*(p(“垃圾弹幕”|a2)*TF-IDF(a2))*(p(“垃圾弹幕”|a3)*TF-IDF(a3))*…*(p(“垃圾弹幕”|ai)*TF-IDF(ai))*…*(p(“垃圾弹幕”|an)*TF-IDF(an))计算所述弹幕信息为垃圾弹幕的第一概率P1;其中,所述ai为所述各词语中的任一词语,所述n为所述弹幕信息中词语的个数;所述TF-IDF(ai)为所述任一词语的TF-IDF加权值。7...
【专利技术属性】
技术研发人员:龚灿,张文明,陈少杰,
申请(专利权)人:武汉斗鱼网络科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。