当前位置: 首页 > 专利查询>复旦大学专利>正文

一种高效的文本区间热词查询方法技术

技术编号:15691023 阅读:73 留言:0更新日期:2017-06-24 03:53
本发明专利技术属于电子信息技术领域,具体为高效的文本区间热词查询方法。现有的热词提取算法一般面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。本发明专利技术方法包括两个阶段:利用时间序列划分和范围查询的思想,对原始文本数据

An efficient text interval query method for hot words

The invention belongs to the field of electronic information technology, in particular to an efficient text range thermal word inquiry method. The existing algorithms of hot word extraction are generally oriented to mining tasks and have high temporal complexity, so they can not be directly applied to the online query processing of hot words. The method of the invention comprises two stages: utilizing the idea of time sequence division and range inquiry, and analyzing the original text data

【技术实现步骤摘要】
一种高效的文本区间热词查询方法
本专利技术属于信息检索
,具体涉及一种从文本数据中提取热词的方法。
技术介绍
互联网的普及和高速发展满足了人们对信息获取的需求。如何从海量Web文本数据中提取有价值的热门话题成为人们关注的一个焦点问题。为了有效进行话题检测和跟踪(Topicdetectionandtracking,TDT),研究者开展了大量研究工作,其中从文本数据中提取热词成为当前研究的热点问题之一。在已有的热词提取的研究中,TF-IDF(TermFrequency-InverseDocumentFrequency)用于词权重计算,TF-IDF综合考虑词频和反文档频率,弱化频繁出现在多个文本中的词的重要性。TF-PDF(TF-ProportionalDocumentFrequency)方法综合考虑词频和文档频率,将更高的权重赋予出现在多个文本中的词。Chen算法在TF-PDF方法的基础上,考虑词频随时间的波动情况,并重新定义词权重的计算方法。上述方法能够有效提取与话题相关的词,即满足算法的有效性,但时间复杂度较高,当处理的文本数量庞大时,这些算法的时间消耗较高,因此难以直接应用于热词在线查询问题。为此,本专利技术对文本数据的区间热词在线查询问题展开研究。我们认为,热词的在线查询处理方法需要同时满足两个特性:(1)能够有效提取与话题相关的词,即在线查询的有效性;(2)能够快速获得查询时间范围内的热词,即在线查询的时效性。因此,设计同时满足有效性和时效性的热词在线查询方法依然是一个具有挑战性的问题。针对上述方法时效性不足的缺点,本专利技术提出一种对文本数据的区间热词在线查询处理算法(EHWE),该算法可以在已划分的数据上进行快速区间查询处理。与现有的面向挖掘的算法相比,EHWE算法能够保证计算结果准确率的前提下,根据用户指定的查询时间范围,降低提取热词的时间消耗,实现热词的在线查询。
技术实现思路
本专利技术的目的是针对从文本数据中提取热词复杂度高,难以在大数据集上实际应用的不足,提出一种高效的文本区间热词查询方法,以降低从文本数据中提取热词的复杂度,提升用户体验。本方法提出的高效的文本区间热词查询方法,利用时间序列划分和范围查询的思想,对原始文本数据进行预处理,建立一种数据结构,并采用优化算法EHWE,使得从文本数据中提取热词的时间复杂度降低。主要贡献包括:1、本文提出文本区间热词的在线查询处理问题,和面向挖掘的热词提取问题相比,更加关注在线查询的两个特性:有效性和时效性;2、针对热词的在线查询问题,提出EHWE算法,该算法能够在保证计算结果准确率的前提下,降低了提取热词的时间复杂度;3、理论分析已有算法和EHWE算法的时间复杂度,并在实际数据集上进行验证。首先对一些基本概念进行定义:定义1.话题:话题被定义为一个特定事件或活动,它通常由多个相关联的事件或活动组成和描述;定义2.热门话题:热门话题是指在一段时间内,频繁出现在网络上的、受到人们广泛关注并讨论的话题。在新闻报道中,它的热度取决于两个因素:在一篇报道中热词出现的频率以及包含这些热词的新闻报道的数量;定义3.热词:热词是指在一段时间内频繁出现的词语。它用来描述热门话题,并且会随着热门话题的生命周期而不断变化.。热词具有的两个属性:广泛性和时事性。广泛性强调单词在文本数据中出现的频繁程度,时事性刻画单词在时间轴上使用频率的变化情况。Chen算法在抽取热词并计算单词权重时主要分为三个步骤:(1)计算所有单词的频率,并获得满足指定频率阈值条件的单词列表(下文中简称跟踪列表);(2)针对跟踪列表中的每一个单词,计算单词权重;(3)根据权重将单词排序,选取权重最大的k个作为热词。步骤(1)为了获取跟踪列表,Chen算法需要遍历整个时间范围上的所有单词,它的时间复杂度为O(ST)。经过筛选后,跟踪列表中单词数目的上限和α有关,为步骤(2)计算这些单词的权重时需要分别计算他们的TFPDF值和Var值,这个过程的时间复杂度是步骤(3)获得每个单词权重后,排序并且取最大的k个单词需要的时间。综上,Chen算法在计算单词权重并抽取热词的时间复杂度为对于给定的常数α∈(0,1),也是一个常数,所以计算给定时间范围R内的单词权重的时间复杂度为O(ST)。本专利技术方法需要解决的问题形式化表述如下:问题1.对获得跟踪列表的优化,减少获得跟踪列表时,需要计算的单词数目通过对上述Chen算法进行复杂度分析,我们发现,对于一个给定的查询q,在获得满足频率阈值α的单词列表时,需要计算q中所有单词在Rq中的频率,这个过程的时间复杂度是O(ST)。为了减少这一过程中需要计算的单词数目,我们通过时间序列划分的思想,将查询q与一个四元组U相关联。在获得跟踪列表时,只需要判断U对应的候选单词列表C中单词是否满足在Rq中的频率大于α的条件。一般而言,因为C的长度要远小于Rq中不同单词的个数Tq,所以达到了优化目标。具体步骤如下:(1)将查询q与一个四元组U相关联为了能够将查询q与一个四元组U相关联,需要文本数据中所有单位时间间隔构建完全二叉树。为了方便说明,假设S是2的幂,则这棵树一共有lgS+1层,每层l有2l个节点,每个节点的长度是对于二叉树的每一层l,令2≤l≤lgS,每隔两个子节点将连续四个子节点划分为一个四元组U,则第l层有2l-1-1个四元组。例如,当Rq=[1:16],l=3时,一共有8个节点,每个节点的长度为2;;可以划分为3个四元组,每个四元组的长度是8,它的划分规则如图1:基于以上的划分,我们发现对于在整个时间范围上的任意范围的查询q,都可以找到一个特定的层l和四元组Up,使得查询q至少包含这个四元组中的一个节点,至多包含两个非兄弟节点。例如图1中的查询q1和q2,q1对应于l=3,p=1;q2对应于l=3,p=3,我们称这样的查询q是和Up相关的;(2)获取四元组Up中的候选单词列表Cp设四元组Up对应的时间间隔中一共有σ个不同的单词(σ<T),通过遍历这些单词,我们可以计算每个单词的词频。其中Up对应的四个子节点中包含的单词数目依次为c1,c2,c3和c4。令c=min(c1,c2,c3,c4),则若单词t在Up中的出现次数大于α×c,那么将t加入到Up对应的候选单词列表Cp中,通过遍历这个四元组内的所有单词,可以获得这个四元组对应的候选单词列表;需要注意的是,若c1=c2=c3=c4,即每个单位时间间隔内出现的单词总数相等,那么四元组Up对应的候选单词列表Cp的长度上限为如果每个单位时间间隔内出现的单词总数是随机的,那么极端情况下,不妨设c1=1,c2=c3=c4=T,则Cp的长度为Tq,即没有减少候选列表的单词总数。为了使在极端情况下依然达到优化目标,我们需要将单词总数很少的连续时间间隔合并后,重新构建完全二叉树并划分四元组,以保证重新划分的时间间隔内单词总数大致相等,或者单词总数在整个时间范围上的方差小于一个经验值。问题2:对查询q中单词计数的时间复杂度优化为了获得满足条件的单词列表,需要遍历Cp中每一个单词,并计算它们在Rq中的词频,如果满足条件,则将其加入到跟踪列表中。在计算一个单词的词频时,需要遍历Rq内的所有单词,这个过程的时间复杂度是O(ST)。为了优化计本文档来自技高网
...
一种高效的文本区间热词查询方法

【技术保护点】
一种高效的文本区间热词查询方法,其特征在于,包括两个阶段:一、利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;二、数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围R

【技术特征摘要】
1.一种高效的文本区间热词查询方法,其特征在于,包括两个阶段:一、利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;二、数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围Rq=[m:n]以及需要提取的热词个数k,计算确定所需热词;其中,利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理的具体步骤为:(1)为原始文本数据构建数据结构首先,统计每个单位时间间隔内不同单词的出现次数,并为全部单位时间间隔建立索引,索引范围为[1:S],其中S表示文本数据D中单位时间间隔的数目;随后在每个单位时间间隔s内,为不同单词依次构建索引,索引范围为[1:ST],其中T表示文本数据D中不同单词的数目;最后为上述数据建立数据结构,它包括:单位时间间间隔si及其索引i,si中出现的单词tij,单词tij的索引j,单词出现的次数nij;假设单词tij在si上不出现时,它的计数为0;(2)为上述的数据结构构建完全二叉树,并对数据进行划分基于以上数据结构,对数据集构建概念上的完全二叉树,其中根节点是整数数组[1:S],每个子节点都是父节点的子数组,而叶子节点的长度为1,对一个节点[a:b],它的左子节点是[a:b]的左半部分,即右子节点是[a:b]的右半部份,即假设S是2的幂,则这棵树一共有lgS+1层,每层l有2l个节点,每个节点的长度是这颗二叉树是用来概念上划分查询范围对应的四元组,不需要实际存储;随后,对于上述二叉树的每一层l,令2≤l≤lgS,每隔两个子节点将连续四个子节点划分为一个四元组U,则第l层有2l-1-1个四元组;设Up是第l层划分的第p个四元组,范围是[a:b],长度是有1≤p≤2l-1-1,那么:(3)获取所有四元组的候选单词列表假设四元组Up对应的时间间隔中一共有σ个不同的单词,σ<T,通过遍历这些单词,计算每个单词的词频;其中Up对应的四个子节点中包含的单词数目依次为c1,c2,c3和c4;令c=min(c1,c2,c3,c4),则若单词t在Up中的出现次数大于α×c,那么将t加入到...

【专利技术属性】
技术研发人员:赵志洲路畅何震瀛王晓阳韩伟力
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1