当前位置: 首页 > 专利查询>魏尧专利>正文

一种数据采集软件的数据处理方法技术

技术编号:33244658 阅读:16 留言:0更新日期:2022-04-27 17:53
本发明专利技术涉及数据采集技术领域,且公开了一种数据采集软件的数据处理方法,包括输入模块,所述输入模块输出端连接有相关性联想模块,所述相关性联想模块连接端连接有目标预选模块,所述目标预选模块连接端连接有目标采集模块,所述目标采集模块连接端连接有审核处理模块以及领域规划模块,所述领域规划模块连接端连接有网页定位标注模块;本发明专利技术通过设置相关性联想模块,相关性联想模块对所输入的关键词的别名以及同义词进行检索,再通过目标预选模块选择所需要的采集目标,以此作为数据采集的原则,有效扩大数据检索的范围,避免遗漏相关数据,提高采集的准确性,并且不会进行多余数据的采集,简化用户操作,提高使用的便捷性。提高使用的便捷性。提高使用的便捷性。

【技术实现步骤摘要】
一种数据采集软件的数据处理方法


[0001]本专利技术涉及数据采集
,具体为一种数据采集软件的数据处理方法。

技术介绍

[0002]数据采集软件是一种能够根据用户需求在互联网上进行相应数据采集的软件,并将数据进行下载,然后利用软件将数据进行处理,用户根据自身需要将数据导出成文档、表格以及其他格式。
[0003]在现有技术中,用户使用软件进行数据采集时,通过数据关键词进行数据搜索,但是对于数据的检索范围不足,容易遗漏相关的数据,并且数据采集后用户需要对数据进行后期处理,删除不需要的数据,使用较为不便。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种数据采集软件的数据处理方法,解决了对于数据的检索范围不足,容易遗漏相关的数据,并且数据采集后用户需要对数据进行后期处理,删除不需要的数据,使用较为不便的问题。
[0006](二)技术方案
[0007]为实现上述目的,本专利技术提供如下技术方案:一种数据采集软件的数据处理方法,包括输入模块,所述输入模块输出端连接有相关性联想模块,所述相关性联想模块连接端连接有目标预选模块,所述目标预选模块连接端连接有目标采集模块,所述目标采集模块连接端连接有审核处理模块以及领域规划模块,所述领域规划模块连接端连接有网页定位标注模块,所述相关性联想模块包括多名称检索单元以及同义词检索单元,所述目标预选模块包括目标种类识别单元、常用目标罗列单元以及常用目标增选单元,所述审核处理模块包括逻辑公式选择单元、重复数据删除单元以及数据甄别对应单元,所述网页定位标注模块包括网页网址记录单元以及领域标签储存单元;
[0008]还包括以下步骤:
[0009]步骤一、输入需要采集的目标关键词;
[0010]步骤二、根据输入的目标关键词进行检索,检索关键词是否拥有别名以及同义词;
[0011]步骤三、按照输入的关键词、别名以及同义词互联网上进行数据搜索,并按照预选的目标种类进行采集;
[0012]步骤四、将采集到的数据进行审核处理,对具有逻辑关系的数据进行甄别,并从公式库寻找与该逻辑关系对应的逻辑公式,将数据代入到公式中进行计算,并删除重复数据;
[0013]步骤五、根据输入的关键词进行所属领域划分,并生成相应的领域标签,将网址记录在该领域标签下。
[0014]优选的,所述步骤一中输入的关键词的数量可为多个,且所述步骤一中还可输入指定的网页网址。
[0015]优选的,所述步骤二具体为通过相关性联想模块中的多名称检索单元在互联网上对所输入的关键词的别名进行检索,通过同义词检索单元在互联网上对所输入的关键词的同义词进行检索,并将关键词、关键词的同义词以及关键词的别名进行记录。
[0016]优选的,所述步骤三具体为通过目标预选模块中的目标种类识别单元根据所输入的关键词判断用户所需要的数据种类,并通过常用目标罗列单元罗列出常用的采集目标选项,通过常用目标增选单元选择所需要的采集目标,以此作为数据采集的原则。
[0017]优选的,所述步骤三中预选的目标种类包括种类库中储存的目标种类以及自定义目标种类。
[0018]优选的,所述步骤四具体为通过审核处理模块对采集到的数据进行审核处理,通过数据甄别对应单元先对所采集到的具有逻辑关系的数据进行甄别,通过逻辑公式选择单元从公式库寻找与该逻辑关系对应的逻辑公式,再通过数据甄别对应单元将数据代入到公式中进行计算,判断采集数据的合理性,并对错误数据进行标注和修改,通过重复数据删除单元对重复的数据进行删除。
[0019]优选的,所述步骤五具体为通过领域规划模块对输入的关键词进行所属领域划分,并生成相应的领域标签,再由网页定位标注模块中的网页网址记录单元对网址记录进行记录,并通过领域标签储存单元将网址归类到该标签下。
[0020]优选的,所述步骤五中所生成的领域标签储存在标签库中,且所述网页网址可归类到多个领域标签下。
[0021](三)有益效果
[0022]本专利技术提供了一种数据采集软件的数据处理方法,具备以下有益效果:
[0023](1)、本专利技术通过设置相关性联想模块,输入模块输入关键词,相关性联想模块对所输入的关键词的别名以及同义词进行检索,再通过目标预选模块根据所输入的关键词判断用户所需要的数据种类,并罗列出常用的采集目标选项,用户选择所需要的采集目标,以此作为数据采集的原则,有效扩大数据检索的范围,避免遗漏相关数据,提高采集的准确性,并且不会进行多余数据的采集,简化用户操作,提高使用的便捷性。
[0024](2)、本专利技术通过设置审核处理模块,审核处理模块对采集到的数据进行审核处理,通过数据甄别对应单元先对所采集到的具有逻辑关系的数据进行甄别,通过逻辑公式选择单元从公式库寻找与该逻辑关系对应的逻辑公式,再通过数据甄别对应单元将数据代入到公式中进行计算,判断采集数据的合理性,并对错误数据进行标注和修改,通过重复数据删除单元对重复的数据进行删除,提高数据的准确性,并且能够降低采集到的数据的重复性。
[0025](3)、本专利技术通过设置领域规划模块和网页定位标注模块,领域规划模块对输入的关键词进行所属领域划分,并生成相应的领域标签,再由网页定位标注模块中的网页网址记录单元对网址记录进行记录,并通过领域标签储存单元将网址归类到该标签下,使得后续进行相同领域的数据采集能够有效提高采集效率。
附图说明
[0026]图1为本专利技术系统模块框图;
[0027]图2为本专利技术相关性联想模块框图;
[0028]图3为本专利技术目标预选模块框图;
[0029]图4为本专利技术审核处理模块框图;
[0030]图5为本专利技术网页定位标注模块框图;
[0031]图6为本专利技术方法流程图。
[0032]图中:1、输入模块;2、相关性联想模块;3、目标预选模块;4、目标采集模块;5、审核处理模块;6、领域规划模块;7、网页定位标注模块;8、领域标签储存单元;9、多名称检索单元;10、同义词检索单元;11、目标种类识别单元;12、常用目标罗列单元;13、常用目标增选单元;14、逻辑公式选择单元;15、重复数据删除单元;16、数据甄别对应单元;17、网页网址记录单元。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]如图1

6所示,本专利技术提供一种技术方案:一种数据采集软件的数据处理方法,包括输入模块1,能够方便输入关键词和需要采集的网页网址,所述输入模块1输出端连接有相关性联想模块2,能够对关键词进行相关性联想,从而能够扩大搜索范围,所述相关性联想模块2连接端连接有目标预选模块3,目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据采集软件的数据处理方法,包括输入模块(1),其特征在于:所述输入模块(1)输出端连接有相关性联想模块(2),所述相关性联想模块(2)连接端连接有目标预选模块(3),所述目标预选模块(3)连接端连接有目标采集模块(4),所述目标采集模块(4)连接端连接有审核处理模块(5)以及领域规划模块(6),所述领域规划模块(6)连接端连接有网页定位标注模块(7),所述相关性联想模块(2)包括多名称检索单元(9)以及同义词检索单元(10),所述目标预选模块(3)包括目标种类识别单元(11)、常用目标罗列单元(12)以及常用目标增选单元(13),所述审核处理模块(5)包括逻辑公式选择单元(14)、重复数据删除单元(15)以及数据甄别对应单元(16),所述网页定位标注模块(7)包括网页网址记录单元(17)以及领域标签储存单元(8);还包括以下步骤:步骤一、输入需要采集的目标关键词;步骤二、根据输入的目标关键词进行检索,检索关键词是否拥有别名以及同义词;步骤三、按照输入的关键词、别名以及同义词互联网上进行数据搜索,并按照预选的目标种类进行采集;步骤四、将采集到的数据进行审核处理,对具有逻辑关系的数据进行甄别,并从公式库寻找与该逻辑关系对应的逻辑公式,将数据代入到公式中进行计算,并删除重复数据;步骤五、根据输入的关键词进行所属领域划分,并生成相应的领域标签,将网址记录在该领域标签下。2.根据权利要求1所述的一种数据采集软件的数据处理方法,其特征在于:所述步骤一中输入的关键词的数量可为多个,且所述步骤一中还可输入指定的网页网址。3.根据权利要求1所述的一种数据采集软件的数据处理方法,其特征在于:所述步骤二具体为通过相关性联想模块(2)中的多名称检索单元(9)在互联网上对所输入...

【专利技术属性】
技术研发人员:魏尧刘晰涵佟佳鸿刘佳蔡仁祺杨茗池权灏张旭旭李宗原吕会涛田佳琳
申请(专利权)人:魏尧
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1