一种弹幕文本价值评价方法、装置、设备及介质制造方法及图纸

技术编号:19857510 阅读:17 留言:0更新日期:2018-12-22 11:42
本发明专利技术实施例公开了一种弹幕文本价值评价方法、装置、设备及介质,所述方法包括:获取针对特定直播间的待评价弹幕文本;确定所述待评价弹幕文本的文明指数;确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度;基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价。通过采用上述技术方案,可以实现对弹幕文本的价值进行准确评估。

【技术实现步骤摘要】
一种弹幕文本价值评价方法、装置、设备及介质
本专利技术实施例涉及互联网直播
,尤其涉及一种弹幕文本价值评价方法、装置、设备及介质。
技术介绍
弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式,通过弹幕可以实现观众与主播之间的互动,有助于营造良好的直播氛围。然而,在众多弹幕中经常存在一些辱骂主播、故意挑衅滋事的低质量弹幕,这些低质量弹幕会严重影响良好的直播环境;且还会存在一些与直播内容不相关的弹幕,这类弹幕虽然不包含污秽等敏感词汇,但是弹幕内容却与直播内容毫不相关,甚至有些网友通过弹幕开启了日常聊天模式,因此这类弹幕不仅起不到实时的直播信息交流与共享的作用,反而因占据了屏幕空间、网络流量等影响了其他高质量弹幕的播放。因此有必要对弹幕的质量进行评估,以过滤掉那些低质量的弹幕,为直播间营造一个良好的直播环境。
技术实现思路
本专利技术实施例提供一种弹幕文本价值评价方法、装置、设备及介质,通过所述方法可以实现对弹幕文本的价值进行准确评估。为实现上述目的,本专利技术实施例采用如下技术方案:第一方面,本专利技术实施例提供了一种弹幕文本价值评价方法,所述方法包括:获取针对特定直播间的待评价弹幕文本;确定所述待评价弹幕文本的文明指数;确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度;基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价。进一步的,所述确定所述待评价弹幕文本的文明指数,包括:对所述待评价弹幕文本进行分词处理;基于各分词计算所述待评价弹幕文本的平均拟基尼指数;将所述平均拟基尼指数确定为所述待评价弹幕文本的文明指数。进一步的,所述基于各分词计算所述待评价弹幕文本的平均拟基尼指数,包括:按照如下公式计算所述待评价弹幕文本的平均拟基尼指数:其中,表示所述待评价弹幕文本中第i个词wi在语料中出现的概率,Ni表示所述待评价弹幕文本中第i个词wi在语料中出现的次数,N表示语料中所有词出现次数的总和,n表示所述待评价弹幕文本中词的个数,η是设定常数,所述语料包括设定时间段内直播平台上出现的所有弹幕文本和帖子文本。进一步的,所述确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度之前,所述方法还包括:按照如下公式确定所述特定直播间的归属主题:其中,p(T|r)表示直播间r的归属主题为T的概率,d(r)表示直播间r包含的所有弹幕文本集合,d为集合d(r)中的一个弹幕文本元素,cr(d)表示弹幕文本d在直播间r出现的次数,p(T|d)表示弹幕文本d的归属主题为T的概率,m表示直播间r归属主题的个数,m为大于1的自然数。进一步的,所述归属主题Tm、弹幕文本d的归属主题为T的概率p(T|d)通过下述方式获得:将直播间r包含的所有弹幕文本作为训练样本;通过LDA(LatentDirichletAllocation,文档主题生成模型)对所述训练样本进行处理,得到直播间r的多个不同的归属主题Tm以及每个训练样本分别属于每个归属主题的概率p(T|d)。进一步的,所述确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度,包括:按照如下公式确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度:其中,rel表示所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度,p(T|r)表示直播间r的归属主题为T的概率,p(T|d)表示弹幕文本d的归属主题为T的概率。进一步的,所述基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价,包括:按照如下公式计算所述待评价弹幕文本的价值评分:score=α*gini0+β*rel其中,score表示价值评分,α和β为权重系数,gini0为归一化之后的所述待评价弹幕文本的平均拟基尼指数,rel表示所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度。第二方面,本专利技术实施例提供了一种弹幕文本价值评价装置,所述装置包括:获取模块,用于获取针对特定直播间的待评价弹幕文本;文明指数确定模块,用于确定所述待评价弹幕文本的文明指数;相关程度确定模块,用于确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度;评价模块,用于基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价。第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的弹幕文本价值评价方法。第四方面,本专利技术实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的弹幕文本价值评价方法。本专利技术实施例提供的一种弹幕文本价值评价方法,通过确定针对特定直播间的待评价弹幕文本的文明指数,实现了对所述待评价弹幕文本的文明程度进行初步评估,通过确定所述待评价弹幕文本与所述特定直播间的归属主题之间的相关程度,实现了对所述待评价弹幕文本实质内容的评估,最后基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价,实现了对弹幕文本价值的准确评估。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本专利技术实施例的内容和这些附图获得其他的附图。图1为本专利技术实施例一提供的一种弹幕文本价值评价方法流程示意图;图2为本专利技术实施例二提供的一种弹幕文本价值评价装置结构示意图;图3为本专利技术实施例三提供的一种电子设备的结构示意图。具体实施方式为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本专利技术实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1为本专利技术实施例一提供的一种弹幕文本价值评价方法流程示意图。本实施例公开的弹幕文本价值评价方法可用于对直播间的弹幕文本进行价值评估,以准确识别含不文明用语或者包含敏感词汇的弹幕,或者与直播间的直播主题不相关的弹幕,有助于营造良好的直播氛围。所述弹幕文本价值评价方法由弹幕文本价值评价装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在终端中,例如服务器等。具体参见图1所示,该方法包括如下步骤:110、获取针对特定直播间的待评价弹幕文本。其中,所述特定直播间指具体的直播间,每个直播间对应不同的主播,因此每个直播间直播的视频内容也各具特色,对应的,针对不同直播间的弹幕文本携带的信息内容是不同的。而对弹幕文本价值进行评价,需要综合弹幕文本与直播间直播的视图内容之间的相关性,因此,需要针对不同直播间的弹幕文本分别进行价值评价。可选地,基于直播平台发送的流水弹幕被存储在直播平台的数据库中,每天产生的所有弹幕被拷贝至hadoop中的数据仓库,并生成一张hive表,在hive表中每条弹幕以直播间id+弹幕文本的形式保存,因此,可以通过调用功能函数的方式从所述hive表中读取针对特定直播间的弹幕文本。所述hive表是基于hado本文档来自技高网...

【技术保护点】
1.一种弹幕文本价值评价方法,其特征在于,包括:获取针对特定直播间的待评价弹幕文本;确定所述待评价弹幕文本的文明指数;确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度;基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价。

【技术特征摘要】
1.一种弹幕文本价值评价方法,其特征在于,包括:获取针对特定直播间的待评价弹幕文本;确定所述待评价弹幕文本的文明指数;确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度;基于所述文明指数以及所述相关程度对所述待评价弹幕文本的价值进行评价。2.根据权利要求1所述的方法,其特征在于,所述确定所述待评价弹幕文本的文明指数,包括:对所述待评价弹幕文本进行分词处理;基于各分词计算所述待评价弹幕文本的平均拟基尼指数;将所述平均拟基尼指数确定为所述待评价弹幕文本的文明指数。3.根据权利要求2所述的方法,其特征在于,所述基于各分词计算所述待评价弹幕文本的平均拟基尼指数,包括:按照如下公式计算所述待评价弹幕文本的平均拟基尼指数:其中,表示所述待评价弹幕文本中第i个词wi在语料中出现的概率,Ni表示所述待评价弹幕文本中第i个词wi在语料中出现的次数,N表示语料中所有词出现次数的总和,n表示所述待评价弹幕文本中词的个数,η是设定常数,所述语料包括设定时间段内直播平台上出现的所有弹幕文本和帖子文本。4.根据权利要求1所述的方法,其特征在于,所述确定所述待评价弹幕文本与所述特定直播间归属主题之间的相关程度之前,所述方法还包括:按照如下公式确定所述特定直播间的归属主题:其中,p(T|r)表示直播间r的归属主题为T的概率,d(r)表示直播间r包含的所有弹幕文本集合,d为集合d(r)中的一个弹幕文本元素,cr(d)表示弹幕文本d在直播间r出现的次数,p(T|d)表示弹幕文本d的归属主题为T的概率,m表示直播间r归属主题的个数,m为大于1的自然数。5.根据权利要求4所述的方法,其特征在于,所述归属主题Tm、弹幕文本d的归属主题为T的概率p(T|d)通过下述方式获得:将直播间r包含的所有弹幕文本作为训练样本;通过文档主...

【专利技术属性】
技术研发人员:王璐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1