System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种定向数据采集规整方法、系统及存储介质技术方案_技高网

一种定向数据采集规整方法、系统及存储介质技术方案

技术编号:41237394 阅读:3 留言:0更新日期:2024-05-09 23:51
本申请公开了一种定向数据采集规整方法、系统及存储介质,涉及数据处理技术领域,该方法包括:获取若干待采集的链接地址;根据所述链接地址的数据结构类型,确定数据采集策略;根据所述数据采集策略,对所述链接地址内预设的数据内容进行数据抽取,得到第一数据集合;对所述第一数据集合进行完整性检查和修复,得到第二数据集合;输出从所有所述链接地址得到的所述第二数据集合。本申请能够提高了信息获取的便捷性,以及用户的使用体验。

【技术实现步骤摘要】

本申请涉及数据处理,特别涉及一种定向数据采集规整方法、系统及存储介质


技术介绍

1、随着互联网技术的发展,网站的数据变得繁杂,用户有时想了解关于国内国外对某件事情的相关整体报道资讯,需要去浏览器上搜索相应的网站的某一个版块的数据或者全网站的数据,才能阅读到相应的数据信息。但用户需要从不同的链接地址去翻找相关咨询才能阅读完对某一事件的相关报道资讯,即现有的数据获取方式较为零散,不方便用户的查看。


技术实现思路

1、本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种定向数据采集规整方法、系统及存储介质,能够提高了信息获取的便捷性,以及用户的使用体验。

2、第一方面,本申请提供了一种定向数据采集规整方法,包括;

3、获取若干待采集的链接地址;

4、根据所述链接地址的数据结构类型,确定数据采集策略;

5、根据所述数据采集策略,对所述链接地址内预设的数据内容进行数据抽取,得到第一数据集合;

6、对所述第一数据集合进行完整性检查和修复,得到第二数据集合;

7、输出从所有所述链接地址得到的所述第二数据集合。

8、根据本申请第一方面实施例的定向数据采集规整方法,至少具有如下有益效果:获取用户输入的若干个待采集的链接地址,根据链接地址的数据结构类型,确定数据采集策略,根据数据采集策略,对所述链接地址内预设的数据内容进行数据抽取,得到第一数据集合,对所述第一数据集合进行完整性检查和修复,得到第二数据集合,输出从所有所述链接地址得到的所述第二数据集合。通过上述的定向数据采集规整方法能够自动从提供的链接地址上采集到关于报道资讯的第一数据集合,并对第一数据集合进行优化以提高完整性并形成第二数据集合,将所有链接地址得到的第二数据集合输出,将不同链接地址零散的报道资讯规整集中汇总在一起,提高了信息获取的便捷性,以及用户的使用体验。

9、根据本申请第一方面的一些实施例,所述数据结构类型为静态网页结构;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:对所述链接地址内预设的内容进行直接渲染并数据抽取,得到第一数据集合。

10、根据本申请第一方面的一些实施例,所述数据结构类型为动态网页结构;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:对所述链接地址内预设的内容进行异步渲染并数据抽取,得到第一数据集合。

11、根据本申请第一方面的一些实施例,所述数据结构类型为加密网页结构,所述数据采集策略为根据所述链接地址的加密类型而定制的解码策略;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:对所述链接地址内预设的内容进行数据抽取,得到加密数据集合;对所述加密数据集合采用预设的所述解码策略进行内容转换,得到第一数据集合。

12、根据本申请第一方面的一些实施例,所述数据内容包括文章链接、文章发布时间、文章标题和文章正文;所述根据所述数据采集策略,对所述链接地址内预设的数据内容进行数据抽取,得到第一数据集合,包括:根据所述数据采集策略,分别搜寻所述文章链接、所述文章发布时间、所述文章标题和所述文章正文的数据位置;根据所述数据位置,分别将所述文章链接、所述文章发布时间、所述文章标题和所述文章正文的内容进行数据抽取,得到第一数据集合。

13、根据本申请第一方面的一些实施例,所述对所述第一数据集合进行完整性检查和修复,得到第二数据集合,包括:判断所述第一数据集合的所述文章链接、所述文章发布时间、所述文章标题和所述文章正文的内容是否为空;当所述文章链接、所述文章发布时间、所述文章标题和所述文章正文的内容均不为空,则将所述第一数据集合作为所述第二数据集合;当所述文章链接、所述文章发布时间、所述文章标题或所述文章正文中存在一个的内容为空,对内容为空的所述数据内容采用预设的局部采集策略重新进行数据抽取,形成所述第二数据集合。

14、根据本申请第一方面的一些实施例,所述对所述第一数据集合进行完整性检查和修复,得到第二数据集合,包括:对所述第一数据集合进行完整性检查和修复,得到原始数据集合;当所述原始数据集合的所述文章标题和所述文章正文的语种为中文,将所述原始数据集合作为所述第二数据集合;当所述原始数据集合的所述文章标题和所述文章正文的语种为非中文,调用预设的语言翻译接口对所述文章标题和所述文章正文的内容进行翻译,形成所述第二数据集合。

15、根据本申请第一方面的一些实施例,所述输出从所有所述链接地址得到的所述第二数据集合,包括:以预设的第一时间间隔为周期,将所述第一时间间隔内从不同所述链接地址处采集的所述第二数据集合进行打包并输出。

16、第二方面,本申请还提供了一种定向数据采集系统,包括:至少一个存储器;至少一个处理器;至少一个程序;所述程序被存储在所述存储器中,所述处理器执行至少一个所述程序以实现如第一方面任一项实施例所述的定向数据采集规整方法。

17、第三方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行信号,所述计算机可执行信号用于执行如第一方面任一项实施例所述的定向数据采集规整方法。

18、本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种定向数据采集规整方法,其特征在于,包括:

2.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述数据结构类型为静态网页结构;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:

3.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述数据结构类型为动态网页结构;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:

4.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述数据结构类型为加密网页结构,所述数据采集策略为根据所述链接地址的加密类型而定制的解码策略;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:

5.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述数据内容包括文章链接、文章发布时间、文章标题和文章正文;所述根据所述数据采集策略,对所述链接地址内预设的数据内容进行数据抽取,得到第一数据集合,包括:

6.根据权利要求5所述的定向数据采集规整方法,其特征在于,所述对所述第一数据集合进行完整性检查和修复,得到第二数据集合,包括:</p>

7.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述对所述第一数据集合进行完整性检查和修复,得到第二数据集合,包括:

8.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述输出从所有所述链接地址得到的所述第二数据集合,包括:

9.一种定向数据采系统,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行信号,所述计算机可执行信号用于执行如权利要求1至8任一项所述的定向数据采集规整方法。

...

【技术特征摘要】

1.一种定向数据采集规整方法,其特征在于,包括:

2.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述数据结构类型为静态网页结构;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:

3.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述数据结构类型为动态网页结构;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:

4.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述数据结构类型为加密网页结构,所述数据采集策略为根据所述链接地址的加密类型而定制的解码策略;所述对所述链接地址内预设的内容进行数据抽取,得到第一数据集合,包括:

5.根据权利要求1所述的定向数据采集规整方法,其特征在于,所述数据内容包括文章链接、文章发布时间、文章标题和...

【专利技术属性】
技术研发人员:陈志群刘双陈锦冰
申请(专利权)人:深圳中泓在线股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1