基于弹幕的直播内容的筛选方法、装置、设备及存储介质制造方法及图纸

技术编号:17097435 阅读:23 留言:0更新日期:2018-01-21 09:14
本发明专利技术实施例公开了一种基于弹幕的直播内容的筛选方法、装置、设备及存储介质,其中,所述方法包括:确定直播内容所属的场景分类,基于所述场景分类选择分词词库;获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。可以利用统计分类器或神经网络分类器自动得到精确度较高的筛选结果,能够统一对直播内容的评价标准,且评价速度快,效率更高。

Screening method, device, equipment and storage medium based on live content of barrage

The embodiment of the invention discloses a barrage of live content based on the screening methods, apparatus, equipment and storage medium, wherein, the method comprises: determining the content of the live scene classification, the selection of scene classification based on obtaining the word thesaurus; live content barrage, using the word segmentation lexicon selection evaluation of words from the barrage; the statistical evaluation of word frequency, word frequency and word feature vector generation evaluation according to the evaluation of word and corresponding; the evaluation of word feature vector input statistical classifier or neural network classifier, according to the output of the statistical classifier or neural network classifier selection results. Statistical classifier or neural network classifier can be used to automatically get high accuracy screening results, which can unify the evaluation standard of live broadcast content, and it has faster evaluation speed and higher efficiency.

【技术实现步骤摘要】
基于弹幕的直播内容的筛选方法、装置、设备及存储介质
本专利技术涉及计算机
,尤其涉及一种基于弹幕的直播内容的筛选方法、装置、设备及存储介质。
技术介绍
随着互联网技术的发展,用户终端可以通过互联网进行多媒体直播,使观众观看该多媒体直播的多媒体直播流。当需要观看直播时,用户按照自己的需求,点击进入一直播间,进而直播服务器基于用户的选择,将用户选择的直播间的直播视频流发送到用户设备(UserEquipment,UE)上,使用户在UE上观看该直播间对应的直播视频。为了方便用户找到属于自己偏好的直播间或直播内容,服务器会按照直播间推荐策略向用户推荐一些直播间。目前,选取优秀的直播内容向用户进行推荐通常采用人工推荐的方式,即由工作人员通过观看直播内容后给出相应的评价,并根据评价向用户进行推荐。但上述方法存在如下问题:由于直播的内容繁多,采用人工评价的方法工作量大、成本高且效率低;并且由于每个工作人员的喜好不同,无法实现评价标准的统一。
技术实现思路
本专利技术实施例提供了一种基于弹幕的直播内容的筛选方法、装置、设备及存储介质,以解决现有技术中对直播内容筛选成本高、效率低及标准不统一的技术问题。第一方面,本专利技术实施例提供了一种基于弹幕的直播内容的筛选方法,包括:确定直播内容所属的场景分类,基于所述场景分类选择分词词库;获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。根据所述输出结果计算筛选结果。第二方面,本专利技术实施例还提供了一种基于弹幕的直播内容的筛选装置,包括:确认模块,用于确定直播内容所属的场景分类,基于所述场景分类选择分词词库;获取模块,获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;特征选取模块,用于统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;结果输出模块,用于将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。第三方面,本专利技术实施例还提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例提供的基于弹幕的直播内容的筛选方法。第四方面,本专利技术实施例还提供了包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于弹幕的直播内容的筛选方法。本专利技术实施例提供的基于弹幕的直播内容的筛选方法、装置、设备及存储介质,根据直播内容所属的场景分类选择相应分词词库,利用分词词库从直播内容的弹幕中选取评价词,统计评价词的词频,评价词和对应的词频生成评价词特征向量,并利用完成训练的统计分类器或神经网络分类器输出评价筛选结果。可以利用统计分类器或神经网络分类器自动得到精确度较高的筛选结果,能够统一对直播内容的评价标准,且评价速度快,效率更高。附图说明图1是本专利技术实施例一提供的基于弹幕的直播内容的筛选方法的流程示意图;图2是本专利技术实施例二提供的基于弹幕的直播内容的筛选方法的流程示意图;图3是本专利技术实施例三提供的基于弹幕的直播内容的筛选方法的流程示意图;图4是本专利技术实施例四提供的基于弹幕的直播内容的筛选装置的结构示意图;图5是本专利技术实施例五提供的服务器的结构图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的基于弹幕的直播内容的筛选方法的流程图,本实施例可适用于对直播内容进行评价筛选的情况,该方法可以由基于弹幕的直播内容的筛选装置来执行,并可集成于直播内容筛选服务器中,具体包括如下步骤:步骤110、确定直播内容所属的场景分类,基于所述场景分类选择分词词库。随着互联网络技术的发展,直播的概念有了新的拓展和发展,通过网络信号,广大用户可以在线收看各种赛事直播、游戏直播、唱歌直播和聊天直播等主流直播。并在直播过程中发表自己的看法和意见。由于各种直播内容不同,用户发表的看法和意见也存在明显差异。可以根据直播内容所属的场景不同,选择适合当前直播视频内容的分词词库。所述分词词库可以是指弹幕文字内容经过分词器处理得到的分词的集合。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。示例性的,可以选择根据不同的使用场景而创建相应的分词词库,或者选择由多个不同场景的分词词库组合成的新的分词词库。步骤120、获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词。所述弹幕,可以是指观看直播的用户的大量吐槽评论从屏幕飘过的效果。在主播进行直播时,可以通过直播服务器获取到直播过程中观众发出的弹幕数据,并利用所述分词词库从弹幕中选取评价词。示例性的,将弹幕中的文字内容与所述分词词库中的词进行匹配。在匹配成功时,可以认为弹幕中匹配字段是一个评价所述直播内容的词汇,从弹幕文字内容中选取弹幕中的匹配字段作为评价词。步骤130、统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量。字幕中的评价词可以表达观众对直播内容优劣的评价。如果某个评价词多次出现,则进一步说明观众对直播内容的倾向性意见。在本实施例中,可以统计每个评价词出现的次数,即词频。并根据所述评价词和对应的词频生成评价词特征向量。所述特征向量可以将评价词作为特征值,将词频作为缩放因子。利用特征向量,可以将多个用于评价质量的参考值变化为一个参考值。可以用于表征弹幕文字内容,非常适用于各种分类器。优选的,可以将所述根据所述评价词和对应的词频生成评价词特征向量,具体优化为:选取词频超过预设词频阈值的评价词;根据所述超过预设词频阈值的评价词和对应的词频生成评价词特征向量。由于采用上述方法选取的评价词可能数量不多,但其出现频次较少,不具有评价的参考价值。因此,可以预先设定词频阈值,选取超过预设词频阈值的评价词,并根据所述超过预设词频阈值的评价词和对应的词频生成评价词特征向量。可以过滤掉一些出现频次较少的评价词。减少后续计算量。步骤140、将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。统计分类器和神经网络分类器是最常见的两种分类器,利用统计分类器和神经网络分类器可以对所述统计分类器和神经网络分类器进行训练,在训练完成后,可以通过所述统计分类器或神经网络分类器得到相应的输出。其中,所述统计分类器包括但不限于贝叶斯分类器,决策树分类器,支持向量机分类器。贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。本实施例中,将评价词及其词频组成的特征向量输入到已训练好贝叶斯分类器中,通过后验概率的大小来确定评价结果的好或不好,利用所述贝叶斯分类器可以得到评价筛选结果。支持向量机(SupportVectorMachine本文档来自技高网...
基于弹幕的直播内容的筛选方法、装置、设备及存储介质

【技术保护点】
一种基于弹幕的直播内容的筛选方法,其特征在于,包括:确定直播内容所属的场景分类,基于所述场景分类选择分词词库;获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。

【技术特征摘要】
1.一种基于弹幕的直播内容的筛选方法,其特征在于,包括:确定直播内容所属的场景分类,基于所述场景分类选择分词词库;获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;统计所述评价词的词频,并根据所述评价词和对应的词频生成评价词特征向量;将所述评价词特征向量输入统计分类器或神经网络分类器,根据所述统计分类器或神经网络分类器的输出筛选结果。2.根据权利要求1所述的方法,其特征在于,所述确定直播内容所属的场景分类包括:通过分类卷积神经网络分类器确定直播内容所属的场景分类。3.根据权利要求1所述的方法,其特征在于,所述分词词库包括:评价词词库和无意义词词库;相应的,所述利用所述分词词库从弹幕中选取评价词,包括:利用评价词词库从弹幕中选取初始评价词;利用无意义词词库从所述初始评价词中筛选出评价词。4.根据权利要求1所述的方法,其特征在于,所述根据所述评价词和对应的词频生成评价词特征向量,包括:选取词频超过预设词频阈值的评价词;根据所述超过预设词频阈值的评价词和对应的词频生成评价词特征向量。5.一种基于弹幕的直播内容的筛选装置,其特征在于,包括:确认模块,用于确定直播内容所属的场景分类,基于所述场景分类选择分词词库;获取模块,获取所述直播内容的弹幕,利用所述分词词库选取从弹幕中选取评价词;特征选取模块,用于统计所...

【专利技术属性】
技术研发人员:王兵
申请(专利权)人:上海六界信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1