一种基于改进FP-Growth算法的微博类短文本的新词发现方法技术

技术编号：18525863 阅读：26 留言：0更新日期：2018-07-25 12:43

本发明专利技术公开一种基于改进的FP‑Growth算法的微博类短文本的新词发现方法，包括：获取文本语料，利用jieba进行分词、词性标注等预处理；通过优化的FP‑Growth算法获得频繁项集词集，并对每个频繁项有序化；利用N‑grams模型获取重复串，并与频繁项集取交集；通过词性过滤，过滤掉一些在构词结构上不常用的词性；利用改进的互信息，滑动迭代计算互信息来过滤新词；利用词性组合规则库再进行一次过滤；验证该方法获取新词的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进FP-Growth算法的微博类短文本的新词发现方法
本专利技术属于文本信息处理领域，具体是涉及一种基于改进FP-Growth算法的微博类短文本的新词发现方法。
技术介绍
微博是目前全球范围内使用最广泛的社交平台之一，每天用户在微博上会发布大量的文本信息，这成为网络新词的主要来源之一。微博和一般文本的区别在于，微博是短文本，每个用户发布的信息不会超过140个字符，内容比较随意，形式具有多样性。所以研究微博这类短文本相对比较困难。但是海量微博文本中蕴含的知识对于舆情监测，新词发现等领域的研究具有重要的意义。目前新词发现的研究主要是基于传统文本的人名、地名、机构名等命名实体的识别，而基于微博短文本的新词发现研究相对较少，并且和传统的文本相比较，由于微博具有文本短、不规则等特点，传统的新词发现方法在微博类短文本中的效果不尽人意。FP-Growth算法通过两次扫描数据库得到数据中的频繁项集，是一种高效的获取频繁项集的算法，可以用于新词的获取，但是在微博类短文本中的应用存在缺陷。传统的FP-Growth算法在新词的发现中忽略了词性对成词的影响，为此提出一种改进的FP-Growth算法，并结合N-grams模型、改进的互信息和规则来发现新词。
技术实现思路
针对FP-Growth算法在微博类短文本的新词发现的缺陷，提出一种改进的FP-Growth算法，把词性考虑进去，不仅可以通过频繁项有效的表示成词词语之间的关联性，还可以削减词性不平衡带来的识别困难，通过结合N-grams模型的集成学习方法来提高得到的新词的准确率，同时通过词性、改进的互信息和词性组合规则库进行...

【技术保护点】
1.一种基于改进FP‑Growth算法的微博类短文本的新词发现方法，其特征在于，包括以下步骤：步骤(1)、微博语料获取和预处理利用微博的API接口或采集爬虫获取微博语料，对文件进行正则匹配获取其中的微博正文内容，删除其中的URL，然后按标点符号进行断句，对得到的纯文本进行分词、词性标注，得到预处理后的语料，记为G；步骤(2)、利用改进的FP‑Growth算法处理语料G，获取频繁项集Cfp步骤(3)、利用N‑grams模型获取新词候选集Cgrams从语料中统计N个词同时出现的次数，由N‑grams模型得到词同时出现的频率P(w1,w2,w3,......wn)。选取满足条件α2＜P(w1,w2,w3,......wn)＜β2的N元重复串作为新词候选集Cgrams，α2,β2是共现频率阈值。步骤(4)、取频繁项集Cfp和新词候选集Cgrams的交集，得到新词候选项集C1＝{c1,c2,…,cm},ci＝(w1,w2,..wn),ci表示候选新词，wj表示构成新词的原词。步骤(5)、在新词候选项集C1中，利用词性标记对其中含有过滤词性的词进行筛选，得到新词候选集C2步骤(6)、利用改进的互信...

【技术特征摘要】
1.一种基于改进FP-Growth算法的微博类短文本的新词发现方法，其特征在于，包括以下步骤：步骤(1)、微博语料获取和预处理利用微博的API接口或采集爬虫获取微博语料，对文件进行正则匹配获取其中的微博正文内容，删除其中的URL，然后按标点符号进行断句，对得到的纯文本进行分词、词性标注，得到预处理后的语料，记为G；步骤(2)、利用改进的FP-Growth算法处理语料G，获取频繁项集Cfp步骤(3)、利用N-grams模型获取新词候选集Cgrams从语料中统计N个词同时出现的次数，由N-grams模型得到词同时出现的频率P(w1,w2,w3,......wn)。选取满足条件α2＜P(w1,w2,w3,......wn)＜β2的N元重复串作为新词候选集Cgrams，α2,β2是共现频率阈值。步骤(4)、取频繁项集Cfp和新词候选集Cgrams的交集，得到新词候选项集C1＝{c1,c2,…,cm},ci＝(w1,w2,..wn),ci表示候选新词，wj表示构成新词的原词。步骤(5)、在新词候选项集C1中，利用词性标记对其中含有过滤词性的词进行筛选，得到新词候选集C2步骤(6)、利用改进的互信息对新词候选集C2进行过滤，得到新词候选集合C3，若ci＝(w1,w2,..wn)，ci∈C2，对每个ci利用改进的互信息公式，对相邻的wj进行计算，改进的互信息计算公式如下：其中，p(wi,wi+1)表示词wi和词wi+1共同出现的频数，p(wi)表示词wi的频数，wi,i+1表示词wi和邻近的词wi+1组合成词的权重，npos(wi,wi+1)表示词wi，wi+1共现的词性组合的频数，表示词wi的词性出现的频数；在所有频繁项集中，选取满足条件I(wi,wi+1)＞β3的词作为新词集合C＝{c1,c2,c3,......cm}，每个新词都是c1＝(w1,w2,w3,......wn)构成，其中β3为设定的阈值；步骤(7)、通过词性组合过滤规则库R过滤候选新词集合C3，然后得到最终的新词集合C4，若ci＝(w1,w2,..wn)，ci∈C3，对于每一个ci，对于任意的(wi，wi+1)，其词性组合(pos(wi),pos(wi+1))，如果满足词性组合过滤规则库R中任意规则，则...

【专利技术属性】
技术研发人员：刘磊，贾亚璐，孙孟涛，陈浩，李静，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人