热词词组提取方法和系统技术方案

技术编号:16700868 阅读:38 留言:0更新日期:2017-12-02 13:16
本发明专利技术涉及一种热词词组提取方法和系统,热词词组提取方法包括以下步骤:获取关键词的历史词频以及当前词频;根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并频繁项集内的热词,得到热词词组。上述热词词组提取方法和系统,通过计算当前词频的词频加权变化率获取热词,并获取对应的频繁项集,对频繁项集进行递归合并处理,得到最终能够代表当前的热点事件的热词词组,运算简便高效,且得到的热词词组能更准确地描述热点事件。

Hot word phrase extraction method and system

The invention relates to a method and system for extracting hot word phrases, hot words phrase extraction method comprises the following steps: obtaining the history and the current frequency of keywords frequency; average heat according to the weights of the historical frequency, frequency and current keyword in the current text when calculating the frequency change rate of frequency weighted before the frequency weighted changes; the rate reaches the first threshold keywords as the hot words, related words extracting the hot words from the current text, get hot word set, according to the hot word set of finding frequent itemsets; frequent itemsets with recursive hot words in the phrase are hot. The hot word phrase extraction method and system, through the change of frequency weighted calculation of the current frequency rate of hot words, and get the corresponding to the frequent itemsets, frequent itemsets recursively merge, get the phrase hot words eventually can represent the current event hot, simple and efficient operation, and get the phrase hot words can be more accurate description of events.

【技术实现步骤摘要】
热词词组提取方法和系统
本专利技术涉及文字处理
,特别是涉及一种热词词组提取方法和系统。
技术介绍
热词作为一种词汇现象,反映了一个区域的人们在一个时期内普遍关注的问题和事物。词汇的多义性及多样性使得热词的提取变得困难,当前内容提供方通常提取单个热词代表当前事件,但仅通过单个热词难以对一个热点事件进行准确描述。由多个热词组成的词组能更精确地对热点事件进行描述。传统的热词词组的检测主要是利用机器学习的方法,包括有监督或无监督方法(基于决策树(DecisionTree,DT)的监督方法、基于隐马尔科夫模型(HiddenMarkovModel,HMM)的监督方法、基于最大熵模型(MaximumEntropy,ME)等)对语料进行训练提取候选热词,最后进行词汇共现矩阵分析,从而获得热词词组。但这种方法算法复杂度较高,易产生大量的垃圾串。
技术实现思路
基于此,有必要针对算法复杂度较高,易产生大量的垃圾串的问题,提供一种热词词组提取方法。一种热词词组提取方法,包括以下步骤:获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并频繁项集内的热词,得到热词词组。一种热词词组提取系统,包括:获取模块,用于获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;计算模块,用于根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;提取模块,用于将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并模块,用于递归合并频繁项集内的热词,得到热词词组。上述热词词组提取方法和系统,通过计算当前词频的词频加权变化率获取热词,并获取对应的频繁项集,对频繁项集进行递归合并处理,得到最终能够代表当前的热点事件的热词词组,运算简便高效,且得到的热词词组能更准确地描述热点事件。附图说明图1为本专利技术的一个实施例中热词词组提取方法的步骤流程示意图;图2为本专利技术的获取关键词的历史词频以及当前词频的步骤示意图;图3为本专利技术的一个实施例中热词词组提取方法的完整步骤示意图;图4为本专利技术的一个实施例中热词词组提取系统的步骤流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1为本专利技术的一个实施例中热词词组提取方法的步骤流程示意图,可以包括以下步骤:S101:获取关键词的历史词频A以及当前词频B;其中历史词频A为关键词在历史时间段内发布的文本信息上的词频,当前词频B为关键词在当前时间段内发布的文本信息上的词频;在一个实施例中,文本信息可以为文章集,本专利技术中所有的文本信息都可以指代文章集,对应历史词频为关键词在历史时间段内所有新发布文章集上的词频,对应当前词频为关键词在当前时间段内所有新发布文章集上的词频,此处不限于所有新发布文章集,也可以根据需要调整比例,只获取部分新发布文章集上的词频。S102:根据所述历史词频A、当前词频B以及关键词所在当前文本的平均热度权重H计算当前词频的词频加权变化率P;举例来说,可以先计算关键词所在当前文本的平均热度h,其中当前文本可以是当前文章集。具体地,平均热度h可以根据以下方式计算:上式中,N为所选取的文章的数量,C1为第一篇文章热度,C2为第二篇文章热度……,以此类推,CN为第N篇文章热度。然后,可计算词频加权变化率P。进一步地,可根据以下方式计算词频加权变化率P:上式中,E可以为该关键词在当前文章集和历史文章集出现总次数,F可以为当前文章集和历史文章集中所有词汇出现次数,平均热度h除于D可以代表平均热度权重H,上式中D为正整数,文章集为千级别的,D可以取1000,可以理解成是进行了归一化处理。S103:将词频加权变化率P达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;在一个实施例中,可以设置第一阈值为10,这个第一阈值为多次试验得到的经验值,可以根据需要来更换这个第一阈值的值。在一个具体的数值实施例中,假设在1000篇文章中,N=1000,C1+C2+…+CN=8000000,得h=3000,关键词“母牛”的历史词频A为0.1,当前词频B为0.6,关键词在当前文章集和历史文章集出现总次数E为1000次,当前文章集和历史文章集中所有词汇出现次数F为4000次,这时这时若设第一阈值为10,则“母牛”这个词就可以当成热词。上述实施例中,相关词可以为热词对应的近义词,也可以是与热词存在并列概念的词。而频繁项集也称项集,为在所有训练元组中同时出现的次数超过人工定义的阈值的项的集合。S104:递归合并频繁项集内的热词,得到热词词组;具体地,热词词组是由多个热词组成的词组,可以通过以下方法对频繁项集内的热词进行递归合并:如果两个频繁项集内的热词超过百分之五十相同,则合并频繁项词组获得新的词组,其中,新的词组中重复的热词只出现一次,删除旧词组,直到该频繁项集内的热词数量达到阈值,输出合并后的频繁项词组,不断迭代,最后得到的频繁项集内的词组即为最终的热词词组。上述实施例通过计算当前词频的词频加权变化率获取热词,并获取对应的频繁项集,对频繁项集进行递归合并处理,得到最终能够代表当前的热点事件的热词词组,运算简便高效,且得到的热词词组能更准确地描述热点事件。其中,在一个实施例中,上述的热词词组提取方法中,从当前文本中提取所述热词的相关词之前,还包括以下步骤:从当前文本中过滤出热词相关词中的停用词和无意义词。过滤的方法可以为:对得到的热词,去匹配当前文章集的标题对应的所有分词,当所有分词中不包含任何一个热词或热词相关词时,就完成了过滤。通过过滤步骤可以使最终得到的热词词组更加精简,能够更好地概括热点事件,并可以对热点事件做更详细的描述。如图2,本专利技术的另一个实施例中,获取关键词的历史词频以及当前词频,具体可以包括以下步骤:S201:获取历史时间段内发布的文本信息的历史分词语料以及当前时间段内发布的文本信息的当前分词语料;在具体的实施例中,标题往往概括了一个文章的核心内容,将标题进行分词,提取出的分词语料相对将文章的其他部分内容进行分词提取的分词语料更能体现文章的主题,更能代表当前的热点事件,也可以根据需要对文本信息的其他部分内容进行分词,提取分词语料。S202:根据所述历史分词语料中各分词之间的共现关系提取所述历史分词语料中的历史关键词,根据当前分词语料中各分词之间的共现关系提取所述当前分词语料中的当前关键词;可选地,可以根据textRank关键词提取算法分别提取历史关键词和当前关键词。S203:计算所述历史关本文档来自技高网...
热词词组提取方法和系统

【技术保护点】
一种热词词组提取方法,其特征在于,包括以下步骤:获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并频繁项集内的热词,得到热词词组。

【技术特征摘要】
1.一种热词词组提取方法,其特征在于,包括以下步骤:获取关键词的历史词频以及当前词频;其中历史词频为关键词在历史时间段内发布的文本信息上的词频,当前词频为关键词在当前时间段内发布的文本信息上的词频;根据所述历史词频、当前词频以及关键词所在当前文本的平均热度权重计算当前词频的词频加权变化率;将所述词频加权变化率达到第一阈值的关键词作为热词,从所述当前文本中提取所述热词的相关词,得到热词集,根据所述热词集获取频繁项集;递归合并频繁项集内的热词,得到热词词组。2.根据权利要求1所述的热词词组提取方法,其特征在于,从所述当前文本中提取所述热词的相关词之前,还包括以下步骤:从当前文本中过滤出热词的相关词中的停用词和无意义词。3.根据权利要求1所述的热词词组提取方法,其特征在于,获取关键词的历史词频以及当前词频,具体包括以下步骤:获取历史时间段内发布的文本信息的历史分词语料以及当前时间段内发布的文本信息的当前分词语料;根据所述历史分词语料中各分词之间的共现关系提取所述历史分词语料中的历史关键词,根据当前分词语料中各分词之间的共现关系提取所述当前分词语料中的当前关键词;计算所述历史关键词的历史词频和所述当前关键词的当前词频。4.根据权利要求1所述的热词词组提取方法,其特征在于,所述递归合并频繁项集内的热词,得到热词词组,具体包括以下步骤:当两个频繁项集中相同热词的数量大于第二阈值时,对所述两个频繁项集进行合并获得新的频繁项集,并从合并后的频繁项集中删除重复的热词,不断迭代,直到该频繁项集中的热词数量达到第三阈值;输出合并后的频繁项集,将最后得到的频繁项集中热词组成的词组作为最终的热词词组。5.根据权利要求3所述的热词词组提取方法,其特征在于,所述当前关键词的数量为多个,各个当前关键...

【专利技术属性】
技术研发人员:曹航瑞张颖林志聪马幸晖王家宾银超
申请(专利权)人:世纪龙信息网络有限责任公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1