直播间内容标签提取方法、存储介质、电子设备及系统技术方案

技术编号:18444839 阅读:30 留言:0更新日期:2018-07-14 10:20
本发明专利技术公开了一种直播间内容标签提取方法、存储介质、电子设备及系统,涉及大数据推荐技术领域,本发明专利技术根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签,充分考虑内容标签的出现次数以及出现的直播间多少,标签多样性好,节约人力成本。

Content label extraction method, storage medium, electronic equipment and system for live broadcast room

The invention discloses a method, a storage medium, an electronic device and a system for a direct seeding content label, which involves the field of large data recommendation technology. The invention is divided into the headlines and the barrage in the preset time according to the live vocabulary dictionary, and the word frequency statistics are carried out for the text after the participle, and the word frequency exceeds the preset value. As a candidate for content tags, the number of words which are more than the number of presuppositions is selected as a content label, and the candidate words with similar meaning are abstracted as a content label, and the candidate words with similar meaning are used as the label association words under the content label; the correlation between all content labels and direct seeding within the set time is calculated. According to the degree of correlation, one or more content labels are selected as the content labels of the live broadcast. The number of occurrences of the content label and the number of live broadcast are fully considered, and the diversity of the labels is good and the human cost is saved.

【技术实现步骤摘要】
直播间内容标签提取方法、存储介质、电子设备及系统
本专利技术涉及大数据推荐
,具体涉及一种直播间内容标签提取方法、存储介质、电子设备及系统。
技术介绍
直播间是一个信息的载体,给直播间打上符合其内容和表现形式的标签可以对内含信息进行归纳,从而有利于直播平台内容的组织和编排。因此,如何采用有效的方法对直播间打上准确的内容标签是一个十分重要的问题。直播间标签提取的方式一般有以下几种方式。一是采用直播网站人工定义的分区作为标签,这样做的缺陷是一个直播间只对应一个分区,标签不够丰富;且分区的含义较为宽泛,难以描述直播间的特点。二是采用人工的方式给直播间打标,但是由于直播间众多这样做人工成本太高。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种直播间内容标签提取方法、存储介质、电子设备及系统,解决传统方案人力成本较高、标签多样性较差的缺点。为达到以上目的,本专利技术采取的技术方案是:本专利技术公开了一种直播间内容标签提取方法:构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。在上述技术方案的基础上,计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:其中:M表示直播间ID号,L表示内容标签;wr是内容标签L下的标签关联词的集合,该集合包含词wr1,wr2,...,wrm,m表示wr中词的个数;N(wri)是直播间M的弹幕文本中出现wr的次数;wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词w1,w2,...,wm,n表示wi中词的个数;N(wi)是直播间M的弹幕文本中的wi出现的总次数;R是所有直播间个数;R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。在上述技术方案的基础上,所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。在上述技术方案的基础上,所述设定时间为一个月。本专利技术还公开了一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现基于弹幕文本的直播间内容标签提取方法。本专利技术还公开了一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现基于弹幕文本的直播间内容标签提取方法。本专利技术还公开了一种基于弹幕文本的直播间内容标签提取系统,包括:直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;分词模块,所述分词模块用于根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;内容标签构建模块,所述内容标签构建模块用于对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;标签相关度计算模块,所述标签相关度计算模块用于计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。在上述技术方案的基础上,计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:其中:M表示直播间ID号,L表示内容标签;wr是内容标签L下的标签关联词的集合,该集合包含词语wr1,wr2,...,wrm,m表示wr中词语的个数;N(wri)是直播间M的弹幕文本中出现词语wr的次数;wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词语w1,w2,...,wm,n表示wi中词语的个数;N(wi)是直播间M的弹幕文本中的wi出现的总次数;R是所有直播间个数;R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。在上述技术方案的基础上,所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。在上述技术方案的基础上,所述设定时间为一个月。与现有技术相比,本专利技术的优点在于:本专利技术根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签,充分考虑内容标签的出现次数以及出现的直播间多少,标签多样性好,节约人力成本。附图说明图1为本专利技术实施例中直播间内容标签提取方法的流程示意图;图2为本专利技术实施例中直播间内容标签提取系统的结构示意图。具体实施方式以下结合附图及实施例对本专利技术作进一步详细说明。参见图1所示,本专利技术实施例提供一种基于弹幕文本的直播间内容标签提取方法,包括:S1,构建直播词汇词典,直播词汇词典用于存储与直播平台内容相关的词汇,根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词。首先构建一个与直播平台内容相关的直播词汇词典,直播词汇词典包含游戏、二次元、以及直播相关的专有名词以及其他网络词汇,主要来源是搜狗的细胞词库和从论坛等网站通过人工方式收集。直播词汇词典的构建是为能够对弹幕文本进行合理的分词,由于弹幕文本中有很多网络常用语和专有名词,因此需要构建一个涵盖内容非常广的分词词典。S2,对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词。根据平台的直播内容建立内容标签,内容标签包括通用类标签和分区类标签,通用类标签为直播内容相关的内容标签,不涉及特定方面的专有知识;分区类标签为分区下直播间内关键词相关的内容标签,归纳的方法是观察该分区下房间标题经常会用到的关键性词语,利用分区相关的专有知识进行提炼。这两类内容标签均可以采用以下步骤进行产生:1)对近一个月的直播间标题和弹幕采用第一步构建的直播词汇词典进行分词。2)对分词后的文本进行词频统计,取出出现频率较高或者出现直播间个数较多的词语。3)在上述词语中,人工筛选挑选合适的词语作为内容标签的候选词。4)对内容的候选词进行归纳整理,将几个意思相近的词抽象为一个内容标签,并将这些词作为该内容标签下的标签关联词。S3,计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:其中:M表示直播间ID号,L表示内容标签;wr是内容标签L下的标签关联词的集合,该集合包含词语wr1,wr2,...,wrm,m表示wr中词语的个数;N(wri)是直播间M的弹幕文本中出现本文档来自技高网...

【技术保护点】
1.一种基于弹幕文本的直播间内容标签提取方法,其特征在于:构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。

【技术特征摘要】
1.一种基于弹幕文本的直播间内容标签提取方法,其特征在于:构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。2.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:其中:M表示直播间ID号,L表示内容标签;wr是内容标签L下的标签关联词的集合,该集合包含词wr1,wr2,...,wrm,m表示wr中词的个数;N(wri)是直播间M的弹幕文本中出现wr的次数;wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词w1,w2,...,wm,n表示wi中词的个数;N(wi)是直播间M的弹幕文本中的wi出现的总次数;R是所有直播间个数;R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。3.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。4.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:所述设定时间为一个月。5.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。6.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序...

【专利技术属性】
技术研发人员:王璐张文明陈少杰
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1