System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于浏览器插件的智能数据提取分析方法技术_技高网

一种基于浏览器插件的智能数据提取分析方法技术

技术编号:41107449 阅读:4 留言:0更新日期:2024-04-25 14:01
本申请公开了一种基于浏览器插件的智能数据提取分析方法,属于互联网技术领域,包括:服务器接收来自浏览器插件的访问请求,目标网页向浏览器插件提供至少一个AP I;浏览器插件根据获取的AP I与目标网页进行交互,并生成第一数据集;对第一数据集中的目标网页数据进行特征优化,并生成第二数据集;根据第二数据集对目标网页数据进行文本解析,并输出解析结果,在本发明专利技术的技术方案实施过程中,通过浏览器插件根据获取的AP I与目标网页进行交互,并生成第一数据集,然后对第一数据集中的目标网页数据进行特征优化,并生成第二数据集,经过特征优化的数据不仅会降低数据量,还会使数据之间具有关联性,提高分析效果。

【技术实现步骤摘要】

本申请涉及互联网,具体为一种基于浏览器插件的智能数据提取分析方法


技术介绍

1、随着移动互联网的发展,越来越多的网页、app得到应用,其中,有大量app是基于web技术开发的,因此可以通过浏览器访问和使用。

2、基于web技术开发的app具有跨平台、可更新性、开发成本低等优点,并且这种app中会包含各种可提取的数据或信息,对于提高用户体验,优化app运行具有重要意义,目前常用的对app的数据或信息进行提取的方法包括应用程序接口、浏览器插件等形式,在浏览器插件的方法中,由于不同系统的页面样式、数据结构、操作方式等普遍存在差异,在需要将多个应用中提取的数据整合到一起时,存在大量问题,因此需要进行优化。

3、所以有必要提供一种基于浏览器插件的智能数据提取分析方法来解决上述问题。

4、需要说明的是,本
技术介绍
部分中公开的以上信息仅用于理解本申请构思的
技术介绍
,并且因此,它可以包含不构成现有技术的信息。


技术实现思路

1、基于现有技术中存在的上述问题,本申请所要解决的问题是:提供一种基于浏览器插件的智能数据提取分析方法,达到能够对浏览器网页中所提取的数据进行优化的效果。

2、本申请解决其技术问题所采用的技术方案是:一种基于浏览器插件的智能数据提取分析方法,该方法包括:

3、服务器接收来自浏览器插件的访问请求,目标网页向浏览器插件提供至少一个api;

4、浏览器插件根据获取的api与目标网页进行交互,并生成第一数据集;</p>

5、对第一数据集中的目标网页数据进行特征优化,并生成第二数据集;

6、根据第二数据集对目标网页数据进行文本解析,并输出解析结果。

7、在本专利技术的技术方案实施过程中,通过浏览器插件根据获取的api与目标网页进行交互,并生成第一数据集,然后对第一数据集中的目标网页数据进行特征优化,并生成第二数据集,经过特征优化的数据不仅会降低数据量,还会使数据之间具有关联性,提高分析效果。

8、进一步的,所述浏览器插件根据获取的api与目标网页进行交互进一步包括:

9、接收用户的操作行为信号,并根据操作行为信号发送启动信号到浏览器插件,其中启动信号包含目标网页信息;

10、浏览器插件接收到启动信号后,根据启动信号携带的目标网页信息对目标网页进行数据提取;

11、通过页面dom加载目标网页的结构和内容,并将浏览器插件引导至页面dom提供的编程接口处;

12、浏览器插件根据编程接口将目标网页的所有信息获取。

13、进一步的,其特征在于:对第一数据集中的目标网页数据进行特征优化包括:

14、对第一数据集进行特征提取,形成特征数据,并将该特征数据作为第二数据集;

15、对第二数据集中的特征数据进行数据分析,并根据数据分析结果判断特征数据之间的关联性;

16、根据生成的分析结果对特征数据进行数值表示,该数值大小表示特征数据的关联性;

17、根据特征数据的关联性选择压缩比,该压缩比与特征数据的关联性呈负相关。

18、进一步的,对第二数据集中的数据进行文本解析包括:

19、使用ner对第二数据集进行文本解析,生成第一解析数据;

20、对目标网页进行dom变换事件识别,并根据识别结果对第一解析数据进行跨页面通信;

21、将跨页面通信完毕的第一解析数据输出并打包为目标文件。

22、进一步的,所述第二数据集中的特征数据具有线性关系。

23、进一步的,根据生成的分析结果对特征数据进行数值表示采用相关系数分析法进行。

24、进一步的,所述目标文件为综合文本信息后形成的渲染数据。

25、一种基于浏览器插件的智能数据提取分析系统,该系统包括:

26、接收模块,用于服务器接收来自浏览器插件的访问请求,目标网页向浏览器插件提供至少一个api;

27、交互模块,用于浏览器插件根据获取的api与目标网页进行交互,并生成第一数据集;

28、特征优化模块,用于对第一数据集中的目标网页数据进行特征优化,并生成第二数据集;

29、文本解析模块,用于根据第二数据集对目标网页数据进行文本解析,并输出解析结果。

30、本申请的有益效果是:本申请提供的一种基于浏览器插件的智能数据提取分析方法,通过浏览器插件根据获取的api与目标网页进行交互,并生成第一数据集,然后对第一数据集中的目标网页数据进行特征优化,并生成第二数据集,经过特征优化的数据不仅会降低数据量,还会使数据之间具有关联性,提高分析效果。

31、除了上面所描述的目的、特征和优点之外,本申请还有其它的目的、特征和优点。下面将参照图,对本申请作进一步详细的说明。

本文档来自技高网...

【技术保护点】

1.一种基于浏览器插件的智能数据提取分析方法,其特征在于:该方法包括:

2.根据权利要求1所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:所述浏览器插件根据获取的API与目标网页进行交互进一步包括:

3.根据权利要求1所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:对第一数据集中的目标网页数据进行特征优化包括:

4.根据权利要求1所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:对第二数据集中的数据进行文本解析包括:

5.根据权利要求3所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:所述第二数据集中的特征数据具有线性关系。

6.根据权利要求3所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:根据生成的分析结果对特征数据进行数值表示采用相关系数分析法进行。

7.根据权利要求4所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:所述目标文件为综合文本信息后形成的渲染数据。

8.一种基于浏览器插件的智能数据提取分析系统,其特征在于:该系统包括:

9.根据权利要求8所述的一种基于浏览器插件的智能数据提取分析系统,其特征在于:用于实施如权利要求1至7所述的基于浏览器插件的智能数据提取分析方法。

...

【技术特征摘要】

1.一种基于浏览器插件的智能数据提取分析方法,其特征在于:该方法包括:

2.根据权利要求1所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:所述浏览器插件根据获取的api与目标网页进行交互进一步包括:

3.根据权利要求1所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:对第一数据集中的目标网页数据进行特征优化包括:

4.根据权利要求1所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于:对第二数据集中的数据进行文本解析包括:

5.根据权利要求3所述的一种基于浏览器插件的智能数据提取分析方法,其特征在于...

【专利技术属性】
技术研发人员:凌世播张卫潼蔡超章峰张勇
申请(专利权)人:南京论之语网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1