一种海量文本数据关键词的快速查找方法技术

技术编号:6545947 阅读:858 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了数据检索技术领域中的一种海量文本数据关键词的快速查找方法。所述方法包括:设定关键词;对设定的关键词进行预处理,生成第一哈希数据结构和第二哈希数据结构;对文本进行扫描,获取其中的关键词。本发明专利技术将字符转换为数值,而后利用哈希数据结构进行关键词定位查找,提高了海量文本数据查找的速度,节省了计算资源。

【技术实现步骤摘要】

本专利技术属于数据检索
,尤其涉及。
技术介绍
随着互联网的普及和TOB2.0技术的兴起,用户生成内容开始充斥着互联网,而移动互联网的蓬勃兴起将加速这一趋势。每个人都可以方便的发布自己的观点,互联网已经成为最有影响力的新媒体,但是带来的问题是恶意的人会发布非法的内容,比如政治、色情的内容。为了净化互联网,有必要对用户生成内容进行审查,但是在每个人都可以方便的产生内容的情况下,人工审核显然不可能,工作量太大。一个可行的方法是维护一份词表, 包含非法内容的核心关键词或短语,称为关键词表。使用程序来查找用户生成内容的关键词,这样仍然需要极大的计算能力,本专利技术提出一种新的实现快速扫描关键词的方法。
技术实现思路
本专利技术的目的在于,提供,用以在海量文本数据快速查找关键词。为了上述目的,本专利技术提出的技术方案是,,其特征是所述方法包括步骤1 设定关键词;步骤2 对设定的关键词进行预处理,生成第一哈希数据结构和第二哈希数据结构;步骤3 对文本进行扫描,获取其中的关键词。所述步骤2具体包括如下步骤步骤21 取每个关键词的第一个字符,计算所述字符的哈希值;步骤22 建立所述哈希值到关键词本文档来自技高网...

【技术保护点】
1.一种海量文本数据关键词的快速查找方法,其特征是所述方法包括:步骤1:设定关键词;步骤2:对设定的关键词进行预处理,生成第一哈希数据结构和第二哈希数据结构;步骤3:对文本进行扫描,获取其中的关键词。

【技术特征摘要】
1.一种海量文本数据关键词的快速查找方法,其特征是所述方法包括 步骤1 设定关键词;步骤2 对设定的关键词进行预处理,生成第一哈希数据结构和第二哈希数据结构; 步骤3 对文本进行扫描,获取其中的关键词。2.根据权利要求1所述的一种海量文本数据关键词的快速查找方法,其特征是所述步骤2具体包括如下步骤步骤21 取每个关键词的第一个字符,计算所述字符的哈希值; 步骤22 建立所述哈希值到关键词长度的映射,记为第一映射; 步骤23 将第一映射装载到哈希数据结构中,从而生成第一哈希数据结构; 步骤M 将长度相同的关键词放入同一个集合中,记为同长度关键词集合; 步骤25 建立关键词长度到同长度关键词集合的映射,记为第二映射; 步骤沈将第二映射装载到哈希数据结构中,从而生成第二哈希数据结构。3.根据权利要求2所述的一种海...

【专利技术属性】
技术研发人员:马苗苗刘向杰
申请(专利权)人:华北电力大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1