The invention belongs to the field of electronic information technology, in particular to an efficient text range thermal word inquiry method. The existing algorithms of hot word extraction are generally oriented to mining tasks and have high temporal complexity, so they can not be directly applied to the online query processing of hot words. The method of the invention comprises two stages: utilizing the idea of time sequence division and range inquiry, and analyzing the original text data
【技术实现步骤摘要】
一种高效的文本区间热词查询方法
本专利技术属于信息检索
,具体涉及一种从文本数据中提取热词的方法。
技术介绍
互联网的普及和高速发展满足了人们对信息获取的需求。如何从海量Web文本数据中提取有价值的热门话题成为人们关注的一个焦点问题。为了有效进行话题检测和跟踪(Topicdetectionandtracking,TDT),研究者开展了大量研究工作,其中从文本数据中提取热词成为当前研究的热点问题之一。在已有的热词提取的研究中,TF-IDF(TermFrequency-InverseDocumentFrequency)用于词权重计算,TF-IDF综合考虑词频和反文档频率,弱化频繁出现在多个文本中的词的重要性。TF-PDF(TF-ProportionalDocumentFrequency)方法综合考虑词频和文档频率,将更高的权重赋予出现在多个文本中的词。Chen算法在TF-PDF方法的基础上,考虑词频随时间的波动情况,并重新定义词权重的计算方法。上述方法能够有效提取与话题相关的词,即满足算法的有效性,但时间复杂度较高,当处理的文本数量庞大时,这些算法的时间消耗较高,因此难以直接应用于热词在线查询问题。为此,本专利技术对文本数据的区间热词在线查询问题展开研究。我们认为,热词的在线查询处理方法需要同时满足两个特性:(1)能够有效提取与话题相关的词,即在线查询的有效性;(2)能够快速获得查询时间范围内的热词,即在线查询的时效性。因此,设计同时满足有效性和时效性的热词在线查询方法依然是一个具有挑战性的问题。针对上述方法时效性不足的缺点,本专利技术提出一种对文本数据 ...
【技术保护点】
一种高效的文本区间热词查询方法,其特征在于,包括两个阶段:一、利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;二、数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围R
【技术特征摘要】
1.一种高效的文本区间热词查询方法,其特征在于,包括两个阶段:一、利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;二、数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围Rq=[m:n]以及需要提取的热词个数k,计算确定所需热词;其中,利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理的具体步骤为:(1)为原始文本数据构建数据结构首先,统计每个单位时间间隔内不同单词的出现次数,并为全部单位时间间隔建立索引,索引范围为[1:S],其中S表示文本数据D中单位时间间隔的数目;随后在每个单位时间间隔s内,为不同单词依次构建索引,索引范围为[1:ST],其中T表示文本数据D中不同单词的数目;最后为上述数据建立数据结构,它包括:单位时间间间隔si及其索引i,si中出现的单词tij,单词tij的索引j,单词出现的次数nij;假设单词tij在si上不出现时,它的计数为0;(2)为上述的数据结构构建完全二叉树,并对数据进行划分基于以上数据结构,对数据集构建概念上的完全二叉树,其中根节点是整数数组[1:S],每个子节点都是父节点的子数组,而叶子节点的长度为1,对一个节点[a:b],它的左子节点是[a:b]的左半部分,即右子节点是[a:b]的右半部份,即假设S是2的幂,则这棵树一共有lgS+1层,每层l有2l个节点,每个节点的长度是这颗二叉树是用来概念上划分查询范围对应的四元组,不需要实际存储;随后,对于上述二叉树的每一层l,令2≤l≤lgS,每隔两个子节点将连续四个子节点划分为一个四元组U,则第l层有2l-1-1个四元组;设Up是第l层划分的第p个四元组,范围是[a:b],长度是有1≤p≤2l-1-1,那么:(3)获取所有四元组的候选单词列表假设四元组Up对应的时间间隔中一共有σ个不同的单词,σ<T,通过遍历这些单词,计算每个单词的词频;其中Up对应的四个子节点中包含的单词数目依次为c1,c2,c3和c4;令c=min(c1,c2,c3,c4),则若单词t在Up中的出现次数大于α×c,那么将t加入到...
【专利技术属性】
技术研发人员:赵志洲,路畅,何震瀛,王晓阳,韩伟力,
申请(专利权)人:复旦大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。