【技术实现步骤摘要】
一种基于互联网的关键词的数据收集和过滤系统
[0001]本专利技术涉及关键词检索
,尤其涉及一种基于互联网的关键词的数据收集和过滤系统。
技术介绍
[0002]检索是人们常见的获取信息的手段之一,随着信息技术的发展,海量的数据构成了极其庞大的数据库,通常需要从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出相关信息。
[0003]现有的检索系统通常使用关键词检索的方式,这种方式通常需要人工去分析切片,使得需要将检索的信息中的关键词信息一个个地提取出来,然后分别进行检索收集所需的数据,但是这一过程需要耗费工作人员大量的时间,并且由于工作人员的差异,提取的关键词也并不相同,这就对检索造成了挑战,使得检索效果不佳,难以满足信息收集的需求,并且由于分类检索下载需要较长的时间,人工检索需要耗费大量工时,并且检索的有效性也因为人力的疲劳而得不到保证。
[0004]未解决上述问题现有技术中,公开了了一种基于大数据的关键词检索收集系统,包括:信息输入模块、信息切片模块、关键 ...
【技术保护点】
【技术特征摘要】
1.一种基于互联网的关键词的数据收集和过滤系统,其特征在于,包括:处理器,所述处理器连接有输入单元、检索单元、排序单元和过滤单元;所述输入单元连接有错别字识别模块,所述错别字识别模块连接有输入法模块,所述输入法模块包括手动输入模块和语音识别模块;所述排序单元包括单个关键词排序单元和多个关键词排序单元;所述检索单元连接有搜索引擎,所述搜索引擎连接有网络信息数据库。2.根据权利要求1所述的基于互联网的关键词的数据收集和过滤系统,其特征在于,所述错别字识别模块包括同音字识别模块、同字根识别模块、同偏旁模块、声母识别模块和韵母识别模块,所述同音字识别模块、所述同字根识别模块、所述同偏旁模块、所述声母识别模块和所述韵母识别模块均与错别字识别数据库相连接。3.根据权利要求2所述的基于互联网的关键词的数据收集和过滤系统,其特征在于,所述错别字识别模块用于识别手动输入模块和语音输入模块。4.根据权利要求3所述的基于互联网的关键词的数据收集和过滤系统,其特征在于,所述多个关键词排序单元和所述单个关键词排序单元均包括点击量排序单元,所述多个关键词排序单元连接有关键词含量排序单元。5.根据权利要求4所述的基于互联网的关键词的数据收集和过滤系统,其特征在于,所述过滤单元包括网络变形辱骂型词语过滤单元、污言秽语过滤单元、禁忌词过滤单元和广告过滤单元,所述网络变形辱骂型词语过滤单元、所述污言秽语过滤单元、所述禁忌词过滤单元和所述广告过滤单元连接有同一个过滤数据库。6.根据权利要求5所述的基于互联网的关键词的数据收集和过滤系统,其特征在于,在对关键词进行收据和过滤时,具体包括以下步骤S1:通过输入法模块将关键词,进行输入;S2:对输入后的关键词进行错别字识别后,再通过输入单元传输至处理器;S3:处理器通过检索单元的搜索引擎在网络信息数据库中进行收集信息;S4:对收集后的信息进行过滤;S5:对过滤后的信息进行进行排序后进出输出显示。7.根据权利要求6所述的基于互联网的关键词的数据收集和过滤系统,其特征在于,所述S2中,对输入后的关键词进行错别字识别具体包括以下步骤:S21:对关键词中的两个以上字符组进行合并,以字符组的字符数的个数从多到少进行排序;S2...
【专利技术属性】
技术研发人员:舒文兵,
申请(专利权)人:宁波金智源营销策划有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。