【技术实现步骤摘要】
用于文本处理的方法和系统
本专利技术涉及文本处理技术,并且更具体地,涉及用于快速地确定哪些单词频繁地出现在特定的单词附近的技术。
技术介绍
伴随着信息处理技术的扩展,大量的不同的文本数据现在被分析以便用于在各种领域中的新的发现。例子包括分析通过网络的微博数据、在制造商处的产品信息数据、在销售商处的产品销售数据和在医疗机构处的临床数据。当处理文本数据时,针对所谓的前k个问题已经建议了各种方法,包括本专利技术人的那些(专利文献1和2),该前k个问题是从频繁出现的单词中提取前k个。已经提出附近搜索技术,其使用倒排索引来确定哪些单词频繁地出现在给定关键词的附近中(专利文献3到14)。引用列表专利文献专利文献1公开专利公开号2007-156739专利文献2公开专利公开号2009-211263专利文献3公开专利公开号2010-198425专利文献4公开专利公开号2008-243074专利文献5公开专利公开号06-348757专利文献6公开专利公开号2009-199151专利文献7公开专利公开号08-287105专利文献8公开专利公开号07-182354专利文献9公开专利公开号 ...
【技术保护点】
一种由计算机处理包括多个单词的多个句子的集合的方法,所述方法包括步骤:层级地标识所述句子的集合中的至少一些单词的出现;基于针对每个单词标识的出现的高层级来创建所述至少一些单词的每个单词的第一索引;接收查询的单词的输入;层级地标识查询的单词在所述句子的集合中的出现;基于针对查询的单词标识的出现的高层级来创建第二索引;比较所述第一索引和所述第二索引以计算针对单词在查询的单词附近出现的次数的估计值;以及在所述估计值等于或大于预定的次数的条件下,基于出现的高层级和低层级来计算单词在查询的单词附近出现的次数的实际值。
【技术特征摘要】
2012.08.10 JP 2012-1786001.一种由计算机处理包括多个单词的多个句子的集合的方法,所述方法包括步骤:层级地标识所述句子的集合中的至少一些单词的出现;基于针对每个单词标识的出现的高层级来创建所述至少一些单词的每个单词的第一索引;接收查询的单词的输入;层级地标识查询的单词在所述句子的集合中的出现;基于针对查询的单词标识的出现的高层级来创建第二索引;比较所述第一索引和所述第二索引以计算针对单词在查询的单词附近出现的次数的估计值;以及在所述估计值等于或大于预定的次数的条件下,基于出现的高层级和低层级来计算单词在查询的单词附近出现的次数的实际值,其中所述第一索引和所述第二索引具有由1/N压缩的高层级位集合,其中N为自然数,并且在一个或多个未压缩的位是真的条件下,压缩的位是真,其中计算估计值的步骤存储相应的高层级的元素,并且在两个或多个未压缩的位是真的条件下,基于所述元素来计算单词在查询的单词附近出现的次数的所述估计值。2.根据权利要求1所述的方法,其中通过位计算执行所述第一索引和所述第二索引的比较。3.根据权利要求1所述的方法,其中计算估计值的步骤存储相应的高层级的元素的数目,并且在两个或多个未压缩的位是真的条件下,基于所述元素的数目来计算单词在查询的单词附近出现的次数的所述估计值。4.根据权利要求3所述的方法,其中所述方法进一步包括步骤:创建具有对应于由1/N压缩的每个单词的标识的出现的高层级位集合的第三索引,其中N为自然数,在两个或多个未压缩的位是真的条件下,压缩的位是真;以及通过由1/N创建具有对应于查询的单词的标识的出现的高层级位集合的第四索引,在两个或多个未压缩的位是真的条件下,压缩的位是真;计算所述估计值的步骤通过位计算来比较所述第三索引和所述第四索引。5.根据权利要求1所述的方法,其中在所述估计值不满足预定的数目的条件下,计算所述至少一些单词中的下一单词出现次数的估计值。6.根据权利要求1所述的方法,其中在所述估计值不满足预定的数目的条件下,忽略计算单词的出现的次数的所述实际值的步骤。7.根据权利要求1所述的方法,其中所述方法进一步包括:存储在查询的单词附近出现的单词中K个临时最为频繁出现的单词,其中K为自然数;以及在所述估计值等于或大于第K个临时最为频繁出现的单词的条件下,计算单词的出现的次数的实际值的步骤基于出现的高层级和低层级来计算单词在查询的单词附近中出现的次数的所述实际...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。