一种基于预分类的短文本关键词提取方法及系统技术方案

技术编号：15704889 阅读：106 留言：0更新日期：2017-06-26 10:15

本发明专利技术公开了一种基于预分类的短文本关键词提取方法及系统，该系统包括划分单元、生成单元、累计计算单元及提取处理单元。该方法包括：将短文本全量数据集划分为多个短文本子数据集；采用短文本预分类方式以及通用条数最优值，生成得到每一个短文本子数据集所对应的关键词特征词典；对每一个短文本子数据集进行关键词权重系数的累计计算；对短文本全量数据集进行关键词提取处理。通过使用本发明专利技术的方法和系统，能将整个计算过程拓展到分布式系统中，大大提高处理效率，而且利用短文本预分类方式还能提升短文本的TF‑IDF特征的表达效果，从而提高提取效果。本发明专利技术作为一种基于预分类的短文本关键词提取方法及系统可广泛应用于关键词提取领域中。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预分类的短文本关键词提取方法及系统
本专利技术涉及文本关键词挖掘分析技术，尤其涉及一种基于预分类的短文本关键词提取方法及系统。
技术介绍
技术词解释：TF-IDF值：即词频-逆文档频率值，结合一个词在文本中出现的次数以及包含该词的文本数而计算出来的一个权重；TF-IDF值与一个词在文档中的出现次数成正比，与包含该词的文本数成反比。随着社交媒体的兴起，移动短信、Tweet和微博等短文本层出不穷，并且由于短文本发布的参与者多以及发布频率快，短文本的规模更是飞速增长。对于短文本，其在搜索引擎、自动问答和话题跟踪等领域发挥着重要的作用，而且随着电子政务建设的推行和不断深化，政府部门也面临着对大量短文本的处理问题。因此由此可见，在短文本数据的处理中，如何实现对大量短文本数据进行简便、有效的关键词提取具有重要的意义。目前常用的一种海量文本关键词提取方式是，首先对每个文本文件进行分词处理，统计并计算每个单词的词频-逆文档频率值，然后将每个单词的词频-逆文档频率值从大到小排列，并提取排名靠前的结果，最后将该提取结果保存在Hadoop平台上的SequenceFile这一原始...
一种基于预分类的短文本关键词提取方法及系统

【技术保护点】
一种基于预分类的短文本关键词提取方法，其特征在于：该方法包括的步骤有：将短文本全量数据集划分为多个短文本子数据集；采用短文本预分类方式以及通用条数最优值，对多个短文本子数据集分别进行关键词特征词典的生成处理，从而生成得到每一个短文本子数据集所对应的关键词特征词典；利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算；根据每一个短文本子数据集的关键词权重系数累计计算结果，对短文本全量数据集进行关键词提取处理。

【技术特征摘要】
1.一种基于预分类的短文本关键词提取方法，其特征在于：该方法包括的步骤有：将短文本全量数据集划分为多个短文本子数据集；采用短文本预分类方式以及通用条数最优值，对多个短文本子数据集分别进行关键词特征词典的生成处理，从而生成得到每一个短文本子数据集所对应的关键词特征词典；利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算；根据每一个短文本子数据集的关键词权重系数累计计算结果，对短文本全量数据集进行关键词提取处理。2.根据权利要求1所述一种基于预分类的短文本关键词提取方法，其特征在于：所述短文本子数据集所对应的关键词特征词典，其生成步骤包括有：从短文本子数据集中选取出一个包含有s条短文本的短文本微数据集，其中，s的数值为通用条数最优值；对短文本微数据集中所包含的短文本进行分类，然后将属于同一类别的短文本拼接成相对应的长文本；采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算，计算出每一条长文本中词语的TF-IDF值；根据预设的第一阈值，对每一条长文本的词语的TF-IDF值进行阈值判断，然后将每一条长文本中TF-IDF值大于第一阈值的词语提取出来；将提取出来的词语及其对应的TF-IDF值存储至关键词特征词典中时，判断关键词特征词典中是否已存储有该词语，若否，则将该词语及其对应的TF-IDF值存储至关键词特征词典中；反之，则判断该待存储的词语所对应的TF-IDF值是否大于已存储在关键词特征词典中的该词语所对应的TF-IDF值，若是，则采用该待存储的词语所对应的TF-IDF值替换已存储在关键词特征词典中的该词语所对应的TF-IDF值，反之，则不改变已存储在关键词特征词典中的该词语所对应的TF-IDF值。3.根据权利要求2所述一种基于预分类的短文本关键词提取方法，其特征在于：所述通用条数最优值，其确定获取步骤包括有：计算每一个短文本子数据集所对应的条数最优值，然后从计算得出的所有条数最优值中选取数值最大的条数最优值作为通用条数最优值。4.根据权利要求3所述一种基于预分类的短文本关键词提取方法，其特征在于：所述短文本子数据集所对应的条数最优值，其计算步骤包括有：从短文本子数据集中选取出一个包含有n条短文本的短文本微数据集，其中，n值小于等于s0，s0表示为短文本子数据集所包含的短文本的总条数；根据选取出的短文本微数据集，生成该短文本子数据集所对应的关键词特征词典；判断当前生成的关键词特征词典与前一次生成的关键词特征词典之间的差异是否满足预设的判定标准，若是，则将前一次的n值作为该短文本子数...

【专利技术属性】
技术研发人员：蔡禹，纪晓阳，孔祥明，张一帆，林成创，
申请(专利权)人：广东广业开元科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人