【技术实现步骤摘要】
本专利技术属于数据检索
,尤其涉及。
技术介绍
随着互联网的普及和TOB2.0技术的兴起,用户生成内容开始充斥着互联网,而移动互联网的蓬勃兴起将加速这一趋势。每个人都可以方便的发布自己的观点,互联网已经成为最有影响力的新媒体,但是带来的问题是恶意的人会发布非法的内容,比如政治、色情的内容。为了净化互联网,有必要对用户生成内容进行审查,但是在每个人都可以方便的产生内容的情况下,人工审核显然不可能,工作量太大。一个可行的方法是维护一份词表, 包含非法内容的核心关键词或短语,称为关键词表。使用程序来查找用户生成内容的关键词,这样仍然需要极大的计算能力,本专利技术提出一种新的实现快速扫描关键词的方法。
技术实现思路
本专利技术的目的在于,提供,用以在海量文本数据快速查找关键词。为了上述目的,本专利技术提出的技术方案是,,其特征是所述方法包括步骤1 设定关键词;步骤2 对设定的关键词进行预处理,生成第一哈希数据结构和第二哈希数据结构;步骤3 对文本进行扫描,获取其中的关键词。所述步骤2具体包括如下步骤步骤21 取每个关键词的第一个字符,计算所述字符的哈希值;步骤22 建 ...
【技术保护点】
1.一种海量文本数据关键词的快速查找方法,其特征是所述方法包括:步骤1:设定关键词;步骤2:对设定的关键词进行预处理,生成第一哈希数据结构和第二哈希数据结构;步骤3:对文本进行扫描,获取其中的关键词。
【技术特征摘要】
1.一种海量文本数据关键词的快速查找方法,其特征是所述方法包括 步骤1 设定关键词;步骤2 对设定的关键词进行预处理,生成第一哈希数据结构和第二哈希数据结构; 步骤3 对文本进行扫描,获取其中的关键词。2.根据权利要求1所述的一种海量文本数据关键词的快速查找方法,其特征是所述步骤2具体包括如下步骤步骤21 取每个关键词的第一个字符,计算所述字符的哈希值; 步骤22 建立所述哈希值到关键词长度的映射,记为第一映射; 步骤23 将第一映射装载到哈希数据结构中,从而生成第一哈希数据结构; 步骤M 将长度相同的关键词放入同一个集合中,记为同长度关键词集合; 步骤25 建立关键词长度到同长度关键词集合的映射,记为第二映射; 步骤沈将第二映射装载到哈希数据结构中,从而生成第二哈希数据结构。3.根据权利要求2所述的一种海...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。