文本串的二次散列提取制造技术

技术编号：5408948 阅读：215 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及数据压缩和关键词识别。第一遍走查文本串、生成各个项、为每个生成项计算散列值。对于每个散列值，创建一个散列桶，其中维护相关联的出现计数。散列桶可以根据出现计数进行排序，并且少数几个排在前面的桶得到保留。一旦知道了这些排在前面的桶，则第二遍可以走查该文本串、生成各个项、为每个生成项计算散列值。如果项的散列值与某一个保留的桶的散列值匹配，则可以认为这个项是频繁项。因此，这个项就连同相对应的频率计数一起添加到词典中。然后，可以对词典进行审查，移除并非频繁但是由于散列冲突而出现的那些项。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】文本串的二次散列提取背景在信息理论中，数据压缩或源编码是一个通过使用特定编码方案来以少于未编码表示的位数将信息进行编码的过程。例如，如果接受将“compression”一词编码成“comp. ” 的约定，则文本可以用较少的位来编码。许多计算机用户都熟悉的一个常规压缩实例是 “ZIP”文件格式，它在提供压缩的同时还充当档案库存储器，将许多文件存储成单个输出文件。与任何通信一样，只有当信息的发出方和接收方都理解编码方案时压缩数据通信方可奏效。例如，只有当接收方理解要将文本解释为表示英语的字符的时候，这个文本才有意义。类似地，只有当解码方法为接收方所知晓时，压缩数据才能够被理解。数据压缩之所以有用，是因为它帮助减少诸如存储器或传输带宽等宝贵资源的消耗。不利方面是压缩数据必须经过解压才能够查看(或收听)。这个额外的解压处理对于一些应用程序而言可能是有害的。例如，视频压缩方案可能需要昂贵的硬件才能使该视频能够足够快的得到解压以便在解压的时候进行观看(选择在观看该视频前进行完全解压可能是不方便的，并且需要存储空间来存放解压视频)。因此，数据解压方案涉及各种因素之间的折中，包括存储器、压缩程度、所引入的失真量(如果使用的是有损压缩方案)、以及压缩和解压数据所需要的计算资源。概述提供本概述部分是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并非旨在标识出所要求保护的主题的关键特征或必要特征。本概述亦非旨在用于限制所要求保护的主题的范围。提供数据压缩和关键词识别。第一遍走查文本串，生成各个项，为每个生成项计算散列值。针对每个散列值，...

【技术保护点】
一种用于识别文本的方法，所述方法包括：生成用在文本串（１０５）中的多个生成项（３０５）；从所述多个生成项（３０５）计算多个散列值；创建分别与所述多个散列值相对应的多个散列桶（３１０）；维护分别对应于所述多个散列桶（３１０）的多个出现计数值，所述多个出现计数值中的每一个分别指示所述多个生成项（３０５）中的具有分别对应于所述多个出现计数值各自的散列桶的散列值的那些项在所述文本串（１０５）中出现的次数；舍弃所述多个散列桶（３１０）中其各自的出现计数值小于第一预定值的那些桶；将词典项添加到词典（１２０）中，所述词典项包括所述多个生成项（３０５）中具有分别对应于分别与剩余的多个散列桶（３１０）相对应的所述多个散列值中的任意一个的散列值的那些项，所述词典（１２０）包括分别指示所述词典项中的每一个在所述文本串（１０５）中出现的次数的多个频率计数值。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：D普赞，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人