一种直播热点获取方法、装置、服务器及存储介质制造方法及图纸

技术编号:21432468 阅读:24 留言:0更新日期:2019-06-22 12:00
本发明专利技术实施例公开了一种直播热点获取方法、装置、服务器及存储介质,属于网络直播领域。该方法包括:采集直播话题数据后,对直播话题数据中的语句进行分词处理,统计所有词汇出现频率;选取高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;选取高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;获取三元词汇组合对应的热点话题。通过该技术方案,能够结合三元词汇组合准确描述热点话题,同时简化热点提取过程,提高效率。

【技术实现步骤摘要】
一种直播热点获取方法、装置、服务器及存储介质
本专利技术涉及网络直播领域,尤其涉及一种直播热点获取方法、装置、服务器及存储介质。
技术介绍
热点话题对于当今网络日益发达的用户而言,容易引起广泛的关注,对于各网站、APP能实时准确获取到热点话题,可以增加用户在线时间,提升用户流量等方面具有重要意义。尤其对于聚集各类主播与用户而言的直播平台,通过弹幕或社区可以进行广泛讨论,及时发现热点,能提升用户体验。目前,市场上常见的热点发现技术有基于文本数据分词后,经过特征提取,然后借助于聚类分析、LDA模型等计算相似度,根据相似度计算后的热点关键词频率,得到热点话题。这类通过词汇或语句相似度计算获取热点,热点获取准确度不高,容易产生歧义表达。
技术实现思路
有鉴于此,本专利技术实施例提供了一种直播热点获取方法、装置、服务器及存储介质,以提高热点获取效率,并保证获取的准确度。结合本专利技术实施例的第一方面,提供了一种直播热点获取方法,包括:采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;获取三元词汇组合对应的热点话题。结合本专利技术实施例的第二方面,提供了一种直播热点获取装置,包括:分词模块,用于采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;第一操作模块,用于选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;第二操作模块,用于选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;获取模块,用于获取三元词汇组合对应的热点话题。结合本专利技术实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本专利技术实施例第一方面所述方法的步骤。本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例第一方面提供的所述方法的步骤。本专利技术实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被一个或多个处理器执行时实现本专利技术实施例第一方面提供的所述方法的步骤。本专利技术实施例中通过提取最近一段时间的直播话题数据,对话题语句进行分词处理后,统计频率。对高频词汇与所述句子集合进行与操作,求取二维共线词语,然后再对共线词语和高频词汇求交集,获得三元词汇组合,通过高频三元词汇组合,可以准确表述热点话题,同时,由于本专利技术实施例提供的技术方案不需要进行特征提取及相似度计算,直接对求取三维词汇组合,方法简单一下,不需进行复杂运算,且资源耗费少,可以有效提高热点获取效率,保障准确性。附图说明图1是本专利技术实施例一提供的一种直播热点获取方法的流程图;图2是本专利技术实施例二提供的一种直播热点获取方法的流程图的另一流程示意图;图3是本专利技术实施例六提供的一种直播热点获取装置的结构示意图图4是本专利技术实施例八提供的一种服务器的结构示意图。具体实施方式本专利技术实施例提供了一种直播热点获取方法、装置、服务器及存储介质,用于准确高效的获取直播热点,方便为推送热点。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。实施例一请参阅图1,本专利技术实施例提供的直播热点获取方法的流程示意图,包括:S101、采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;所述预定时长为一定时间长度范围,可以是几个小时、几天或几个月的时间长度,一般的,可以选择当前最近一天或一个星期内的时长。所述直播话题数据为与直播内容或主播相关话题数据,常见的如弹幕,还可以包括直播相关的社区、论坛中内容数据。优选的,所述直播话题数据为在弹幕或社区中提取的完整的话题语句,一般包括满足中文语义表达要求,如有主谓宾的构成。所述直播话题数据至少包括间隔一定时长采集的直播间弹幕数据,间隔一定时长采集弹幕能防止短时用户刷屏行为。所述分词处理是将一条语句分成单独的词,也即把连续的字序列按照一定规范重新组合成词序列的过程。分词方法有如字符串匹配、基于理解分词等,通过分词可以获取到语句中的词语组成。可选的,记录所述直播话题数据中采集的每一条句子,去掉每条句子的停用词,得到每条句子中的词汇;统计所有词汇出现次数,并按每个词汇出现次数由高到低进行排列。优选的,对采集的直播话题数据进行预处理,去除敏感语句及短语,所述敏感词即为不符合相关法规要求的发言,所述短语为一两个字的语句或单字重复语句。通过预处理可有效提高语句后续处理效率。S102、选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;所述高频词汇值的是出现频率较高的词汇,具体的,通过统计每个词汇出现频率,进行排序后,选取出现频率较高的前几位,如前100个词汇为高频词汇。查找高频词汇所在句子,将每个高频词汇所在句子放入该词汇对应的集合中,如将词汇“贸易战”所出现过句子放到“贸易战”对应的集合中,所有句子为采集的直播话题数据中的句子。所述与操作指的是,两个句子集合间进行两两比对,查找出现在同一个句子中的两个词语即为共线词汇,如高频词汇“中美”的句子集合和的句子集合,通过与操作查找两个集合中同时出现“中美”和“贸易战”的句子,统计句子数量,其中,若句子数量不小于1,可将“中美”和“贸易战”视为共线词汇。可选的,根据公式(1)求取句子集合间的共线词语:其中,n表示高频词汇数量,set(i)表示词语i的句子集合,set(j)表示词语j的句子集合,&表示与操作(共线),score(wi,wj)表示二元词组的关联度。S103、选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;所述高频共线词语即根据所有句子集合间求得共线词语数量,选取若干出现频率高的共线词语,具体的,通过统计两个高频词汇出现在同一句子中的数量或计算关联度,进行排序后,选取排名靠前或关联度高的一定数量的共线词语,所述共线词语也即是热点话题关键词。所述交集指高频共线词语和高频词汇的交集,根据高频词汇和高频共线词语出现的句子,两者求取交集即可得到三元词汇组合,通过三元词汇组合可以准确描述热点话题。可选的,根据公式(2)求取所述高频共线词语与所述高频词汇的交集:其中,n表示高频词汇数量,m表示高频共线词语数量,set(i,j)表示二元词组的句子集,set(k)表示高频词汇,score(wi,wj,wk)表示本文档来自技高网...

【技术保护点】
1.一种直播热点获取方法,其特征在于,包括:采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;获取所述三元词汇组合对应的热点话题。

【技术特征摘要】
1.一种直播热点获取方法,其特征在于,包括:采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;获取所述三元词汇组合对应的热点话题。2.根据权利要求1所述的方法,其特征在于,所述直播话题数据至少包括间隔一定时长采集的直播间弹幕数据。3.根据权利要求1所述的方法,其特征在于,所述对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率具体为:记录所述直播话题数据中采集的每一条句子,去掉每条句子的停用词,得到每条句子中的词汇;统计所有词汇出现次数,并按每个词汇出现次数由高到低进行排列。4.根据权利要求1所述的方法,其特征在于,所述通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语具体为:根据公式(1)求取句子集合间的共线词语:其中,n表示高频词汇数量,set(i)表示词语i的句子集合,set(j)表示词语j的句子集合,&表示与操作(共线),score(wi,wj)表示二元词组的关联度。5.根据权利要求1所述的方法,其特征在于,所述求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合具体为:根据公式(2)求取所述高频共线词语与所述高频词汇的交集:其中,n表示高频词汇数量,m表示高频共线词语数量,set(i,j)表示二元词组的句子集,s...

【专利技术属性】
技术研发人员:肖源
申请(专利权)人:武汉斗鱼鱼乐网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1