【技术实现步骤摘要】
一种基于改进FP-Growth算法的微博类短文本的新词发现方法
本专利技术属于文本信息处理领域,具体是涉及一种基于改进FP-Growth算法的微博类短文本的新词发现方法。
技术介绍
微博是目前全球范围内使用最广泛的社交平台之一,每天用户在微博上会发布大量的文本信息,这成为网络新词的主要来源之一。微博和一般文本的区别在于,微博是短文本,每个用户发布的信息不会超过140个字符,内容比较随意,形式具有多样性。所以研究微博这类短文本相对比较困难。但是海量微博文本中蕴含的知识对于舆情监测,新词发现等领域的研究具有重要的意义。目前新词发现的研究主要是基于传统文本的人名、地名、机构名等命名实体的识别,而基于微博短文本的新词发现研究相对较少,并且和传统的文本相比较,由于微博具有文本短、不规则等特点,传统的新词发现方法在微博类短文本中的效果不尽人意。FP-Growth算法通过两次扫描数据库得到数据中的频繁项集,是一种高效的获取频繁项集的算法,可以用于新词的获取,但是在微博类短文本中的应用存在缺陷。传统的FP-Growth算法在新词的发现中忽略了词性对成词的影响,为此提出一种改进的FP-Growth算法,并结合N-grams模型、改进的互信息和规则来发现新词。
技术实现思路
针对FP-Growth算法在微博类短文本的新词发现的缺陷,提出一种改进的FP-Growth算法,把词性考虑进去,不仅可以通过频繁项有效的表示成词词语之间的关联性,还可以削减词性不平衡带来的识别困难,通过结合N-grams模型的集成学习方法来提高得到的新词的准确率,同时通过词性、改进的互信息和词性组合规则库进行 ...
【技术保护点】
1.一种基于改进FP‑Growth算法的微博类短文本的新词发现方法,其特征在于,包括以下步骤:步骤(1)、微博语料获取和预处理利用微博的API接口或采集爬虫获取微博语料,对文件进行正则匹配获取其中的微博正文内容,删除其中的URL,然后按标点符号进行断句,对得到的纯文本进行分词、词性标注,得到预处理后的语料,记为G;步骤(2)、利用改进的FP‑Growth算法处理语料G,获取频繁项集Cfp步骤(3)、利用N‑grams模型获取新词候选集Cgrams从语料中统计N个词同时出现的次数,由N‑grams模型得到词同时出现的频率P(w1,w2,w3,......wn)。选取满足条件α2<P(w1,w2,w3,......wn)<β2的N元重复串作为新词候选集Cgrams,α2,β2是共现频率阈值。步骤(4)、取频繁项集Cfp和新词候选集Cgrams的交集,得到新词候选项集C1={c1,c2,…,cm},ci=(w1,w2,..wn),ci表示候选新词,wj表示构成新词的原词。步骤(5)、在新词候选项集C1中,利用词性标记对其中含有过滤词性的词进行筛选,得到新词候选集C2步骤(6)、利用改进的互信 ...
【技术特征摘要】
1.一种基于改进FP-Growth算法的微博类短文本的新词发现方法,其特征在于,包括以下步骤:步骤(1)、微博语料获取和预处理利用微博的API接口或采集爬虫获取微博语料,对文件进行正则匹配获取其中的微博正文内容,删除其中的URL,然后按标点符号进行断句,对得到的纯文本进行分词、词性标注,得到预处理后的语料,记为G;步骤(2)、利用改进的FP-Growth算法处理语料G,获取频繁项集Cfp步骤(3)、利用N-grams模型获取新词候选集Cgrams从语料中统计N个词同时出现的次数,由N-grams模型得到词同时出现的频率P(w1,w2,w3,......wn)。选取满足条件α2<P(w1,w2,w3,......wn)<β2的N元重复串作为新词候选集Cgrams,α2,β2是共现频率阈值。步骤(4)、取频繁项集Cfp和新词候选集Cgrams的交集,得到新词候选项集C1={c1,c2,…,cm},ci=(w1,w2,..wn),ci表示候选新词,wj表示构成新词的原词。步骤(5)、在新词候选项集C1中,利用词性标记对其中含有过滤词性的词进行筛选,得到新词候选集C2步骤(6)、利用改进的互信息对新词候选集C2进行过滤,得到新词候选集合C3,若ci=(w1,w2,..wn),ci∈C2,对每个ci利用改进的互信息公式,对相邻的wj进行计算,改进的互信息计算公式如下:其中,p(wi,wi+1)表示词wi和词wi+1共同出现的频数,p(wi)表示词wi的频数,wi,i+1表示词wi和邻近的词wi+1组合成词的权重,npos(wi,wi+1)表示词wi,wi+1共现的词性组合的频数,表示词wi的词性出现的频数;在所有频繁项集中,选取满足条件I(wi,wi+1)>β3的词作为新词集合C={c1,c2,c3,......cm},每个新词都是c1=(w1,w2,w3,......wn)构成,其中β3为设定的阈值;步骤(7)、通过词性组合过滤规则库R过滤候选新词集合C3,然后得到最终的新词集合C4,若ci=(w1,w2,..wn),ci∈C3,对于每一个ci,对于任意的(wi,wi+1),其词性组合(pos(wi),pos(wi+1)),如果满足词性组合过滤规则库R中任意规则,则...
【专利技术属性】
技术研发人员:刘磊,贾亚璐,孙孟涛,陈浩,李静,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。