The invention relates to a method and system for extracting hot word phrases, hot words phrase extraction method comprises the following steps: obtaining the history and the current frequency of keywords frequency; average heat according to the weights of the historical frequency, frequency and current keyword in the current text when calculating the frequency change rate of frequency weighted before the frequency weighted changes; the rate reaches the first threshold keywords as the hot words, related words extracting the hot words from the current text, get hot word set, according to the hot word set of finding frequent itemsets; frequent itemsets with recursive hot words in the phrase are hot. The hot word phrase extraction method and system, through the change of frequency weighted calculation of the current frequency rate of hot words, and get the corresponding to the frequent itemsets, frequent itemsets recursively merge, get the phrase hot words eventually can represent the current event hot, simple and efficient operation, and get the phrase hot words can be more accurate description of events.
【技术实现步骤摘要】
热词词组提取方法和系统
本专利技术涉及文字处理
,特别是涉及一种热词词组提取方法和系统。
技术介绍
热词作为一种词汇现象,反映了一个区域的人们在一个时期内普遍关注的问题和事物。词汇的多义性及多样性使得热词的提取变得困难,当前内容提供方通常提取单个热词代表当前事件,但仅通过单个热词难以对一个热点事件进行准确描述。由多个热词组成的词组能更精确地对热点事件进行描述。传统的热词词组的检测主要是利用机器学习的方法,包括有监督或无监督方法(基于决策树(DecisionTree,DT)的监督方法、基于隐马尔科夫模型(HiddenMarkovModel,HMM)的监督方法、基于最大熵模型(MaximumEntropy,ME)等)对语料进行训练提取候选热词,最后进行词汇共现矩阵分析,从而获得热词词组。但这种方法算法复杂度较高,易产生大量的垃圾串。
技术实现思路
基于此,有必要针对算法复杂度较高,易产生大量的垃圾串的问题,提供一种热词词组提取方法。一种热词词组提取方法,包括以下步骤:获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并频繁项集内的热词,得到热词词组。一种热词词组提取系统,包括:获取模块,用于获取关键词的历史词频以及当前词频;其中历史词频为关键 ...
【技术保护点】
一种热词词组提取方法,其特征在于,包括以下步骤:获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并频繁项集内的热词,得到热词词组。
【技术特征摘要】
1.一种热词词组提取方法,其特征在于,包括以下步骤:获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并频繁项集内的热词,得到热词词组。2.根据权利要求1所述的热词词组提取方法,其特征在于,从所述当前文本中提取所述热词的相关词之前,还包括以下步骤:从当前文本中过滤出热词的相关词中的停用词和无意义词。3.根据权利要求1所述的热词词组提取方法,其特征在于,获取关键词的历史词频以及当前词频,具体包括以下步骤:获取历史时间段内发布的文本信息的历史分词语料以及当前时间段内发布的文本信息的当前分词语料;根据所述历史分词语料中各分词之间的共现关系提取所述历史分词语料中的历史关键词,根据当前分词语料中各分词之间的共现关系提取所述当前分词语料中的当前关键词;计算所述历史关键词的历史词频和所述当前关键词的当前词频。4.根据权利要求1所述的热词词组提取方法,其特征在于,所述递归合并频繁项集内的热词,得到热词词组,具体包括以下步骤:当两个频繁项集中相同热词的数量大于第二阈值时,对所述两个频繁项集进行合并获得新的频繁项集,并从合并后的频繁项集中删除重复的热词,不断迭代,直到该频繁项集中的热词数量达到第三阈值;输出合并后的频繁项集,将最后得到的频繁项集中热词组成的词组作为最终的热词词组。5.根据权利要求3所述的热词词组提取方法,其特征在于,所述当前关键词的数量为多个,各个当前关键...
【专利技术属性】
技术研发人员:曹航瑞,张颖,林志聪,马幸晖,王家宾,银超,
申请(专利权)人:世纪龙信息网络有限责任公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。