一种基于预分类的短文本关键词提取方法及系统技术方案

技术编号:15704889 阅读:91 留言:0更新日期:2017-06-26 10:15
本发明专利技术公开了一种基于预分类的短文本关键词提取方法及系统,该系统包括划分单元、生成单元、累计计算单元及提取处理单元。该方法包括:将短文本全量数据集划分为多个短文本子数据集;采用短文本预分类方式以及通用条数最优值,生成得到每一个短文本子数据集所对应的关键词特征词典;对每一个短文本子数据集进行关键词权重系数的累计计算;对短文本全量数据集进行关键词提取处理。通过使用本发明专利技术的方法和系统,能将整个计算过程拓展到分布式系统中,大大提高处理效率,而且利用短文本预分类方式还能提升短文本的TF‑IDF特征的表达效果,从而提高提取效果。本发明专利技术作为一种基于预分类的短文本关键词提取方法及系统可广泛应用于关键词提取领域中。

【技术实现步骤摘要】
一种基于预分类的短文本关键词提取方法及系统
本专利技术涉及文本关键词挖掘分析技术,尤其涉及一种基于预分类的短文本关键词提取方法及系统。
技术介绍
技术词解释:TF-IDF值:即词频-逆文档频率值,结合一个词在文本中出现的次数以及包含该词的文本数而计算出来的一个权重;TF-IDF值与一个词在文档中的出现次数成正比,与包含该词的文本数成反比。随着社交媒体的兴起,移动短信、Tweet和微博等短文本层出不穷,并且由于短文本发布的参与者多以及发布频率快,短文本的规模更是飞速增长。对于短文本,其在搜索引擎、自动问答和话题跟踪等领域发挥着重要的作用,而且随着电子政务建设的推行和不断深化,政府部门也面临着对大量短文本的处理问题。因此由此可见,在短文本数据的处理中,如何实现对大量短文本数据进行简便、有效的关键词提取具有重要的意义。目前常用的一种海量文本关键词提取方式是,首先对每个文本文件进行分词处理,统计并计算每个单词的词频-逆文档频率值,然后将每个单词的词频-逆文档频率值从大到小排列,并提取排名靠前的结果,最后将该提取结果保存在Hadoop平台上的SequenceFile这一原始文件中,以供查询。然而传统关键词提取方式却存有不少的问题,例如:1、在短文本中,文本特征较少,而且在应用TF-IDF算法提取文本特征时,短文本数据集中具有相同关键词的文本会相互干扰,使得这些关键词计算出来的TF-IDF值大大降低,弱化了这些词语对同类的短文本特征表达效果,进而影响了关键词提取的效果;2、无法拓展到分布式系统并提升计算效率,大部分现有的技术解决方案都无法有效地拓展到分布式系统,若需要处理海量数据同时又有较高的效率要求,则现有的技术解决方案均无法取得一个较好的解决效果。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种可拓展适用于分布式系统、提高处理效率、效果好的基于预分类的短文本关键词提取方法。本专利技术的另一目的是提供一种可拓展适用于分布式系统、提高处理效率、效果好的基于预分类的短文本关键词提取系统。本专利技术所采用的技术方案是:一种基于预分类的短文本关键词提取方法,该方法包括的步骤有:将短文本全量数据集划分为多个短文本子数据集;采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理。进一步,所述短文本子数据集所对应的关键词特征词典,其生成步骤包括有:从短文本子数据集中选取出一个包含有s条短文本的短文本微数据集,其中,s的数值为通用条数最优值;对短文本微数据集中所包含的短文本进行分类,然后将属于同一类别的短文本拼接成相对应的长文本;采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算,计算出每一条长文本中词语的TF-IDF值;根据预设的第一阈值,对每一条长文本的词语的TF-IDF值进行阈值判断,然后将每一条长文本中TF-IDF值大于第一阈值的词语提取出来;将提取出来的词语及其对应的TF-IDF值存储至关键词特征词典中时,判断关键词特征词典中是否已存储有该词语,若否,则将该词语及其对应的TF-IDF值存储至关键词特征词典中;反之,则判断该待存储的词语所对应的TF-IDF值是否大于已存储在关键词特征词典中的该词语所对应的TF-IDF值,若是,则采用该待存储的词语所对应的TF-IDF值替换已存储在关键词特征词典中的该词语所对应的TF-IDF值,反之,则不改变已存储在关键词特征词典中的该词语所对应的TF-IDF值。进一步,所述通用条数最优值,其确定获取步骤包括有:计算每一个短文本子数据集所对应的条数最优值,然后从计算得出的所有条数最优值中选取数值最大的条数最优值作为通用条数最优值。进一步,所述短文本子数据集所对应的条数最优值,其计算步骤包括有:从短文本子数据集中选取出一个包含有n条短文本的短文本微数据集,其中,n值小于等于s0,s0表示为短文本子数据集所包含的短文本的总条数;根据选取出的短文本微数据集,生成该短文本子数据集所对应的关键词特征词典;判断当前生成的关键词特征词典与前一次生成的关键词特征词典之间的差异是否满足预设的判定标准,若是,则将前一次的n值作为该短文本子数据集所对应的条数最优值;反之,则对当前n值进行减小处理后得到新的n值,利用新的n值返回重新执行上述从短文本子数据集中选取出一个包含有n条短文本的短文本微数据集这一步骤。进一步,所述对当前n值进行减小处理后得到新的n值这一步骤,其具体为:将当前n值与10的相除结果作为新的n值。进一步,所述对短文本子数据集进行关键词权重系数的累计计算,其所采用的计算公式为:Wi=ai*wi,i=1、2、……、m其中,m表示为关键词特征词典中所包含的词语的总个数,Wi表示第i个关键词的权重系数累计计算结果,ai表示在关键词特征词典中所存储的第i个词语在短文本子数据集所包含的所有短文本中所出现的次数,wi表示为在关键词特征词典中所存储的第i个词语所对应的TF-IDF值。进一步,所述根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理这一步骤,其具体为:对每一个短文本子数据集的关键词权重系数累计计算结果进行降序,从而获得每一个短文本子数据集的关键词排序结果,然后对所有短文本子数据集的关键词排序结果进行汇总计算,接着对汇总计算结果进行排序和阈值过滤操作,从而得到短文本全量数据集的关键词提取结果。进一步,所述对短文本微数据集中所包含的短文本进行分类这一步骤,其具体为:利用SVM分类器,对短文本微数据集中所包含的短文本进行分类。进一步,所述将短文本全量数据集划分为多个短文本子数据集这一步骤之前设有数据预处理步骤,所述数据预处理步骤为:对短文本全量数据集进行数据预处理。本专利技术所采用的另一技术方案是:一种基于预分类的短文本关键词提取系统,该系统包括:划分单元,用于将短文本全量数据集划分为多个短文本子数据集;生成单元,用于采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;累计计算单元,用于利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;提取处理单元,用于根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理。本专利技术的有益效果是:本专利技术的关键词提取方法是将短文本全量数据集划分为多个短文本子数据集后,分别单独对每一个短文本子数据集进行相应的关键词提取处理,接着再利用所有短文本子数据集的关键词提取结果来实现短文本全量数据集的关键词提取,这样则能将整个计算过程拓展到分布式系统中,大大提高处理效率。而且利用短文本预分类方式,先对短文本进行分类,然后将同一类的短文本拼接成长文本后再应用TF-IDF算法进行关键词提取,这样能够有效提升短文本的TF-IDF特征的表达效果,从而有效地提高短文本关键词的提取效果。另外,本专利技术的方法本文档来自技高网
...
一种基于预分类的短文本关键词提取方法及系统

【技术保护点】
一种基于预分类的短文本关键词提取方法,其特征在于:该方法包括的步骤有:将短文本全量数据集划分为多个短文本子数据集;采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理。

【技术特征摘要】
1.一种基于预分类的短文本关键词提取方法,其特征在于:该方法包括的步骤有:将短文本全量数据集划分为多个短文本子数据集;采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理。2.根据权利要求1所述一种基于预分类的短文本关键词提取方法,其特征在于:所述短文本子数据集所对应的关键词特征词典,其生成步骤包括有:从短文本子数据集中选取出一个包含有s条短文本的短文本微数据集,其中,s的数值为通用条数最优值;对短文本微数据集中所包含的短文本进行分类,然后将属于同一类别的短文本拼接成相对应的长文本;采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算,计算出每一条长文本中词语的TF-IDF值;根据预设的第一阈值,对每一条长文本的词语的TF-IDF值进行阈值判断,然后将每一条长文本中TF-IDF值大于第一阈值的词语提取出来;将提取出来的词语及其对应的TF-IDF值存储至关键词特征词典中时,判断关键词特征词典中是否已存储有该词语,若否,则将该词语及其对应的TF-IDF值存储至关键词特征词典中;反之,则判断该待存储的词语所对应的TF-IDF值是否大于已存储在关键词特征词典中的该词语所对应的TF-IDF值,若是,则采用该待存储的词语所对应的TF-IDF值替换已存储在关键词特征词典中的该词语所对应的TF-IDF值,反之,则不改变已存储在关键词特征词典中的该词语所对应的TF-IDF值。3.根据权利要求2所述一种基于预分类的短文本关键词提取方法,其特征在于:所述通用条数最优值,其确定获取步骤包括有:计算每一个短文本子数据集所对应的条数最优值,然后从计算得出的所有条数最优值中选取数值最大的条数最优值作为通用条数最优值。4.根据权利要求3所述一种基于预分类的短文本关键词提取方法,其特征在于:所述短文本子数据集所对应的条数最优值,其计算步骤包括有:从短文本子数据集中选取出一个包含有n条短文本的短文本微数据集,其中,n值小于等于s0,s0表示为短文本子数据集所包含的短文本的总条数;根据选取出的短文本微数据集,生成该短文本子数据集所对应的关键词特征词典;判断当前生成的关键词特征词典与前一次生成的关键词特征词典之间的差异是否满足预设的判定标准,若是,则将前一次的n值作为该短文本子数...

【专利技术属性】
技术研发人员:蔡禹纪晓阳孔祥明张一帆林成创
申请(专利权)人:广东广业开元科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1