System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种计算机人工智能信息搜集方法及系统技术方案_技高网

一种计算机人工智能信息搜集方法及系统技术方案

技术编号:39980953 阅读:9 留言:0更新日期:2024-01-09 01:31
本发明专利技术涉及计算机人工智能信息搜集技术领域,且公开了一种计算机人工智能信息搜集方法,包括用于定义需要搜集的信息类型和数据来源的数据定义模块,数据定义模块定义搜集的信息类型和数据来源传输给数据源采集模块,数据源采集模块使用Python编程语言中的Scrapy框架利用爬虫技术自动化地搜集信息,数据采集模块搜集信息传输给信息数据预处理模块,信息数据预处理模块将整理分类完成的信息传输至数据分析模块,数据分析模块分析完成数据之后将信息传输至数据存储模块,数据存储模块从数据库中调用相关信息传输至数据可视化模块,数据可视化模块利用数据可视化技术将收集到的信息转换成图表以及图形等方式呈现给用户。

【技术实现步骤摘要】

本专利技术涉及计算机人工智能信息搜集,具体为一种计算机人工智能信息搜集方法及系统


技术介绍

1、计算机人工智能信息搜集方法及系统发源与早期的信息检索和数据挖掘技术。早在20世纪50年代,信息检索技术就已经出现,主要是通过关键词匹配来查找相关信息。随着计算机技术的发展,信息检索技术逐渐演化为现在的搜索引擎和信息检索系统,数据挖掘技术则是在20世纪80年代开始发展的,它通过分析数据中的规律和模式来获取隐藏的信息。随着科学技术的发展,各种信息搜集方法和系统也开始出现,如网络爬虫、数据抓取、文本挖掘等,人工智能技术被广泛应用于信息搜集、数据预处理和分析过程中,随着互联网和人工智能技术的发展,信息搜集方法和系统不断演进和完善,成为现代信息技术中不可或缺的一部分,但是如何在庞大的网络数据信息中准确的检索到我们需要的相关信息是需要我们值得深入开发的问题,所以,在此提出了一种计算机人工智能信息搜集方法及系统。

2、在现有的技术中,计算机人工智能信息搜集方法及系统通常都是基于用户提供的关键词,根据关键词直接检索相关数据信息,在检索出来的关键信息中,由于是将全部的相关信息都检索出来没有细化分类,所以无法准确直接的找到需要的关键信息,需要进一步的手动搜寻,一定程度上的影响检索效率,所以在此提出了一种计算机人工智能信息搜集方法及系统,在用户提供关键搜索信息之后,首先对其进行相关的数据采集,采集完成之后根据用户的喜好进行分化整合处理,然后利用可视化模块将分化之后的数据信息呈现给用户,让检索的信息更加贴合用户的喜好以及节省用户检索出有用信息的时间。


技术实现思路

1、针对现有技术中由于是将全部的相关信息都检索出来没有细化分类,所以无法准确直接的找到需要的关键信息的不足,本专利技术提供了一种计算机人工智能信息搜集方法及系统,具备采集完成之后根据用户的喜好进行分化整合处理,然后利用可视化模块将分化之后的数据信息呈现给用户,让检索的信息更加贴合用户的喜好以及节省用户检索出有用信息的时间。

2、为实现上述目的,本专利技术提供如下技术方案:一种计算机人工智能信息搜集方法;

3、包括用于定义需要搜集的信息类型和数据来源的数据定义模块;

4、所述数据定义模块定义搜集的信息类型和数据来源传输给数据源采集模块;

5、所述数据采集模块搜集信息传输给信息数据预处理模块;

6、所述信息数据预处理模块用于对数据源采集模块搜集到的信息根据用户的搜索内容进行整理和分类;

7、所述信息数据预处理模块将整理分类完成的信息传输至数据分析模块;

8、所述数据分析模块分析完成数据之后将信息传输至数据存储模块;

9、所述数据存储模块将数据分析模块分析的结果存储在相关数据库中;

10、所述数据存储模块从数据库中调用相关信息传输至数据可视化模块;

11、所述数据可视化模块利用数据可视化技术将收集到的信息转换成图表以及图形等方式呈现给用户。

12、所述数据源采集模块使用python编程语言中的scrapy框架利用爬虫技术自动化地搜集信息。

13、首先通过设置了相关计算机人工智能信息搜集方法,在数据源采集模块方面利用了python编程语言中的scrapy框架利用爬虫技术自动化地搜集信息,其优点是能够更好的构建出具有高度可定制性的爬虫程序,并且在处理网页解析、数据提取、异步处理等方面更加的高效,能够使用户的检索速度更快以及范围更加的广泛。

14、一种计算机人工智能信息搜集方法所使用的系统;

15、所述数据源采集模块中的实体模块用来定义需要爬取的相关的目标数据,所述数据源采集模块中的爬虫模块定义了如何访问和解析网页的逻辑以及需要爬取的网页,所述数据源采集模块中的调度器模块用于管理爬虫模块要爬取的实体,控制爬虫模块的请求顺序和频率,所述数据源采集模块中的中间件模块用于处理爬虫模块和调度器模块之间的请求和响应,所述数据源采集模块中的管道模块用于处理从爬虫模块中提取的实体,可以将数据存储到数据库中,所述数据源采集模块中的命令行工具模块用于启动和停止爬虫模块和查看爬虫模块的状态以及参数信息。

16、所述信息数据预处理模块模块包括了用于去除异常数据的数据清洗模块,所述数据清洗模块将数据源采集模块采集的数据信息进行缺失值、异常值以及重复值的去除,然后传输至数据标准化模块。

17、所述数据标准化模块接收数据清洗模块清洗完成的数据之后将数据信息传输至数据划分模块,所述数据划分模块将数据分划成训练集模块、验证集模块和测试集模块,所述训练集模块将数据用于训练模型之后传输至数据分类存储模块,所述验证集模块将数据用于参数调整之后传输至数据分类存储模块,所述测试集模块将数据用于模型测试之后传输至数据分类存储模块,所述数据分类存储模块接收到训练集模块、验证集模块和测试集模块传输的数据信息之后将其存储然后传输至数据特征提取模块。

18、所述数据特征提取模块接收到数据分类存储模块传输的信息数据之后会根据用户的搜索内容将需要的数据特征提取出,然后传输至数据集成模块。

19、所述数据集成模块将多个数据特征提取模块提取出的数据进行整合传输至数据输出模块,所述数据输出模块将数据集成模块整合完成的数据传输至数据分析模块。

20、所述数据分析模块对信息数据处理模块传输的数据进行分析处理,所述数据分析模块将分析处理完成的数据信息传输至数据存储模块。

21、通过优化了计算机人工智能信息搜集系统的信息数据预处理模块,在采集方面利用了爬虫技术自动化地搜集信息,采集完成之后通过数据划分模块能够根据用户的喜好进行分化整合处理,然后利用可视化模块将分化之后的数据信息呈现给用户,让检索的信息更加贴合用户的喜好以及节省用户检索出有用信息的时间。

22、有益效果:

23、1、该计算机人工智能信息搜集方法及系统,首先通过设置了相关计算机人工智能信息搜集方法,在数据源采集模块方面利用了python编程语言中的scrapy框架利用爬虫技术自动化地搜集信息,其优点是能够更好的构建出具有高度可定制性的爬虫程序,并且在处理网页解析、数据提取、异步处理等方面更加的高效,能够使用户的检索速度更快以及范围更加的广泛。

24、2、该计算机人工智能信息搜集系统,通过优化了信息数据预处理模块的模块程序,在采集方面利用了爬虫技术自动化地搜集信息,采集完成之后通过数据划分模块能够根据用户的喜好进行分化整合处理,然后利用可视化模块将分化之后的数据信息呈现给用户,让检索的信息更加贴合用户的喜好以及节省用户检索出有用信息的时间。

本文档来自技高网...

【技术保护点】

1.一种计算机人工智能信息搜集方法,其特征在于:

2.根据权利要求1所述的一种计算机人工智能信息搜集方法,其特征在于:所述数据源采集模块(2)使用Python编程语言中的Scrapy框架利用爬虫技术自动化地搜集信息。

3.根据权利要求1-2任意一项所述的一种计算机人工智能信息搜集方法所使用的系统,其特征在于:所述数据源采集模块(2)的组成包括了实体模块(7)、爬虫模块(8)、调度器模块(9)、中间件模块(10)、管道模块(11)以及命令行工具模块(12)。

4.根据权利要求3所述的一种计算机人工智能信息搜集系统,其特征在于:所述数据源采集模块(2)中的实体模块(7)用来定义需要爬取的相关的目标数据,所述数据源采集模块(2)中的爬虫模块(8)定义了如何访问和解析网页的逻辑以及需要爬取的网页,所述数据源采集模块(2)中的调度器模块(9)用于管理爬虫模块(8)要爬取的实体,控制爬虫模块(8)的请求顺序和频率,所述数据源采集模块(2)中的中间件模块(10)用于处理爬虫模块(8)和调度器模块(9)之间的请求和响应,所述数据源采集模块(2)中的管道模块(11)用于处理从爬虫模块(8)中提取的实体,可以将数据存储到数据库中,所述数据源采集模块(2)中的命令行工具模块(12)用于启动和停止爬虫模块(8)和查看爬虫模块(8)的状态以及参数信息。

5.根据权利要求4所述的一种计算机人工智能信息搜集系统,其特征在于:所述信息数据预处理模块(3)模块包括了用于去除异常数据的数据清洗模块(13),所述数据清洗模块(13)将数据源采集模块(2)采集的数据信息进行缺失值、异常值以及重复值的去除,然后传输至数据标准化模块(14)。

6.根据权利要求5所述的一种计算机人工智能信息搜集系统,其特征在于:所述数据标准化模块(14)接收数据清洗模块(13)清洗完成的数据之后将数据信息传输至数据划分(15)模块,所述数据划分(15)模块将数据分划成训练集模块(16)、验证集模块(17)和测试集模块(18),所述训练集模块(16)将数据用于训练模型之后传输至数据分类存储模块(19),所述验证集模块(17)将数据用于参数调整之后传输至数据分类存储模块(19),所述测试集模块(18)将数据用于模型测试之后传输至数据分类存储模块(19),所述数据分类存储模块(19)接收到训练集模块(16)、验证集模块(17)和测试集模块(18)传输的数据信息之后将其存储然后传输至数据特征提取模块(20)。

7.根据权利要求6所述的一种计算机人工智能信息搜集系统,其特征在于:所述数据特征提取模块(20)接收到数据分类存储模块(19)传输的信息数据之后会根据用户的搜索内容将需要的数据特征提取出,然后传输至数据集成(21)模块。

8.根据权利要求7所述的一种计算机人工智能信息搜集系统,其特征在于:所述数据集成(21)模块将多个数据特征提取模块(20)提取出的数据进行整合传输至数据输出模块(22),所述数据输出模块(22)将数据集成(21)模块整合完成的数据传输至数据分析模块(4)。

...

【技术特征摘要】

1.一种计算机人工智能信息搜集方法,其特征在于:

2.根据权利要求1所述的一种计算机人工智能信息搜集方法,其特征在于:所述数据源采集模块(2)使用python编程语言中的scrapy框架利用爬虫技术自动化地搜集信息。

3.根据权利要求1-2任意一项所述的一种计算机人工智能信息搜集方法所使用的系统,其特征在于:所述数据源采集模块(2)的组成包括了实体模块(7)、爬虫模块(8)、调度器模块(9)、中间件模块(10)、管道模块(11)以及命令行工具模块(12)。

4.根据权利要求3所述的一种计算机人工智能信息搜集系统,其特征在于:所述数据源采集模块(2)中的实体模块(7)用来定义需要爬取的相关的目标数据,所述数据源采集模块(2)中的爬虫模块(8)定义了如何访问和解析网页的逻辑以及需要爬取的网页,所述数据源采集模块(2)中的调度器模块(9)用于管理爬虫模块(8)要爬取的实体,控制爬虫模块(8)的请求顺序和频率,所述数据源采集模块(2)中的中间件模块(10)用于处理爬虫模块(8)和调度器模块(9)之间的请求和响应,所述数据源采集模块(2)中的管道模块(11)用于处理从爬虫模块(8)中提取的实体,可以将数据存储到数据库中,所述数据源采集模块(2)中的命令行工具模块(12)用于启动和停止爬虫模块(8)和查看爬虫模块(8)的状态以及参数信息。

5.根据权利要求4所述的一种计算机人工智能信息搜集系统,其特征在于:所述信息数据预处理模块(3)模块包括了用于去除异常数据的数...

【专利技术属性】
技术研发人员:张富林
申请(专利权)人:四川工商学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1