The invention discloses a method, a storage medium, an electronic device and a system for a direct seeding content label, which involves the field of large data recommendation technology. The invention is divided into the headlines and the barrage in the preset time according to the live vocabulary dictionary, and the word frequency statistics are carried out for the text after the participle, and the word frequency exceeds the preset value. As a candidate for content tags, the number of words which are more than the number of presuppositions is selected as a content label, and the candidate words with similar meaning are abstracted as a content label, and the candidate words with similar meaning are used as the label association words under the content label; the correlation between all content labels and direct seeding within the set time is calculated. According to the degree of correlation, one or more content labels are selected as the content labels of the live broadcast. The number of occurrences of the content label and the number of live broadcast are fully considered, and the diversity of the labels is good and the human cost is saved.
【技术实现步骤摘要】
直播间内容标签提取方法、存储介质、电子设备及系统
本专利技术涉及大数据推荐
,具体涉及一种直播间内容标签提取方法、存储介质、电子设备及系统。
技术介绍
直播间是一个信息的载体,给直播间打上符合其内容和表现形式的标签可以对内含信息进行归纳,从而有利于直播平台内容的组织和编排。因此,如何采用有效的方法对直播间打上准确的内容标签是一个十分重要的问题。直播间标签提取的方式一般有以下几种方式。一是采用直播网站人工定义的分区作为标签,这样做的缺陷是一个直播间只对应一个分区,标签不够丰富;且分区的含义较为宽泛,难以描述直播间的特点。二是采用人工的方式给直播间打标,但是由于直播间众多这样做人工成本太高。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种直播间内容标签提取方法、存储介质、电子设备及系统,解决传统方案人力成本较高、标签多样性较差的缺点。为达到以上目的,本专利技术采取的技术方案是:本专利技术公开了一种直播间内容标签提取方法:构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。在上述技术方案的基础上,计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:其中 ...
【技术保护点】
1.一种基于弹幕文本的直播间内容标签提取方法,其特征在于:构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
【技术特征摘要】
1.一种基于弹幕文本的直播间内容标签提取方法,其特征在于:构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。2.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:其中:M表示直播间ID号,L表示内容标签;wr是内容标签L下的标签关联词的集合,该集合包含词wr1,wr2,...,wrm,m表示wr中词的个数;N(wri)是直播间M的弹幕文本中出现wr的次数;wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词w1,w2,...,wm,n表示wi中词的个数;N(wi)是直播间M的弹幕文本中的wi出现的总次数;R是所有直播间个数;R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。3.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。4.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:所述设定时间为一个月。5.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。6.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序...
【专利技术属性】
技术研发人员:王璐,张文明,陈少杰,
申请(专利权)人:武汉斗鱼网络科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。