System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理,尤其涉及一种热点话题提取方法、装置、电子设备及存储介质。
技术介绍
1、随着互联网技术的广泛应用,互联网社交已经逐渐进入人们的生活圈,人们可以通过网络进行社交并可以随时从网络上获取到各类信息,比如新闻时事、舆论信息等,由于每天网络上的信息数量都有成千上万,用户如果想要获取到最新的热点信息来了解当前社会和经济发展的趋势和方向等,则需要花费大量的时间去识别和筛选,因此,热点话题提取称为人们的关注点。
2、在现有的热点话题提取研究工作中,主要采用的方法有为基于概率主题模型的热点话题提取方法,其中,基于概率主题模型的热点话题提取方法是通过plsa、lda等概率分布模型对文本数据对应的主题和词语进行概率统计,进而根据主题和词语的概率的高低来进行判断当前主题是否为热点话题。
3、然而,通过基于概率主题模型的热点话题提取方法忽略了文本中词语之间的语义和语法关联性,导致提取的热点话题不准确。
技术实现思路
1、为了解决上述技术问题,本公开提供了一种热点话题提取方法、装置、电子设备及存储介质。
2、本公开实施例的第一方面提供了一种热点话题提取方法,包括:
3、获取目标文本;
4、获取目标文本对应的多个主题以及每个主题对应的词语概率分布向量;
5、基于词语概率分布向量计算多个主题中各个主题之间的主题相似度,并计算每个主题对应的主题一致性,主题一致性是基于主题对应的多个词语之间相似度确定的;
6、基于
7、计算至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度,基于主题流行度和主题新颖度确定目标文本对应的热点话题,主题流行度用于表征每个主题簇对应的中心主题在目标文本中出现的次数,主题新颖度用于表征每个主题簇对应的中心主题与除中心主题之外的其他主题之间的关联程度,中心主题是主题簇对应的至少一个主题中对应的多个词语之间的相似度之和最高的主题。
8、本公开实施例的第二方面提供了一种热点话题提取装置,包括:
9、第一获取模块,用于获取目标文本;
10、第二获取模块,用于获取目标文本对应的多个主题以及每个主题对应的词语概率分布向量;
11、计算模块,用于基于词语概率分布向量计算多个主题中各个主题之间的主题相似度,并计算每个主题对应的主题一致性,主题一致性是基于主题对应的多个词语之间相似度确定的;
12、合并处理模块,用于基于主题相似度和主题一致性,对多个主题进行合并处理,得到至少一个主题簇;
13、话题确定模块,用于计算至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度,基于主题流行度和主题新颖度确定目标文本对应的热点话题,主题流行度用于表征每个主题簇对应的中心主题在目标文本中出现的次数,主题新颖度用于表征每个主题簇对应的中心主题与除中心主题之外的其他主题之间的关联程度,中心主题是主题簇对应的至少一个主题中对应的多个词语之间的相似度之和最高的主题。
14、本公开实施例的第三方面提供了一种电子设备,包括:
15、处理器;
16、存储器,用于存储可执行指令;
17、其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现上述第一方面提供的热点话题提取方法。
18、本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现上述第一方面提供的热点话题提取方法。
19、本公开实施例提供的技术方案与现有技术相比具有如下优点:
20、本公开实施例提供的热点话题提取方法、装置、电子设备及存储介质,能够获取目标文本,在获取到目标文本之后获取目标文本对应的多个主题以及每个主题对应的词语概率分布向量,基于词语概率分布向量计算多个主题中各个主题之间的主题相似度,并计算每个主题对应的主题一致性,主题一致性是基于主题对应的多个词语之间相似度确定的,基于主题相似度和主题一致性,对多个主题进行合并处理,得到至少一个主题簇,计算至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度,基于主题流行度和主题新颖度确定目标文本对应的热点话题,主题流行度用于表征每个主题簇对应的中心主题在目标文本中出现的次数,主题新颖度用于表征每个主题簇对应的中心主题与除中心主题之外的其他主题之间的关联程度,中心主题是主题簇对应的至少一个主题中对应的多个词语之间的相似度之和最高的主题,由此,能够确定目标文本对应的多个主题中各个主题之间的主题相似度和每个主题对应的主题一致性,并根据主题相似度和主题一致性对多个主题进行合并处理,对得到的至少一个主题簇进行主题流行度和主题新颖度的计算,进而基于主题流行度和主题新颖度确定目标文本对应的热点话题,考虑了各个主题中各个词语之间的语义和语法关联性,提高了提取的热点话题的准确性。
本文档来自技高网...【技术保护点】
1.一种热点话题提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标文本对应的多个主题以及每个主题对应的词语概率分布向量,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述主题相似度和所述主题一致性,对所述多个主题进行合并处理,得到至少一个主题簇,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于比较结果确定所述至少一个主题簇,包括:
5.根据权利要求1所述的方法,其特征在于,在所述计算所述至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度之前,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,计算所述至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述主题流行度和所述主题新颖度确定所述目标文本对应的热点话题,包括:
8.一种热点话题提取装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其
...【技术特征摘要】
1.一种热点话题提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述目标文本对应的多个主题以及每个主题对应的词语概率分布向量,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述主题相似度和所述主题一致性,对所述多个主题进行合并处理,得到至少一个主题簇,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于比较结果确定所述至少一个主题簇,包括:
5.根据权利要求1所述的方法,其特征在于,在所述计算所述至少一个主题簇中每个主题簇分别对应的主题流行度和主题新颖度之前,所述...
【专利技术属性】
技术研发人员:张旭,何扬,陈彤,张翔宇,王鹏,刘星辰,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。