System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及seo的,尤其涉及一种基于服务器端渲染网页技术的seo方案及相关装置。
技术介绍
1、在互联网应用,进行适度的seo(search engine optimization,搜索引擎优化)非常重要,通过搜索引擎收录网站页面、关联关键词和提升网站搜索排名,从而使用户更容易发现该网站,增加产品的曝光率。
2、相关技术中,搜索引擎在实际应用过程中,通过会通过网络爬虫定期访问、提取和存储各个服务器端地址对应的网页内容,再根据搜索关键词的相关性等因素对爬取到的网页进行排名展示,为用户提供准确、多样且有用的搜索结果。
3、然而,在目前的技术中,存在网络爬虫无法解析javascript,导致搜索引擎爬虫无法完整地获取网页html内容,以及网站响应爬虫请求速度慢等难题,不利于网页在搜索引擎中的排名展示,因此,进行适度的seo(search engine optimization,搜索引擎优化)非常重要,以解决上述的问题。
技术实现思路
1、本专利技术旨在解决上述
技术介绍
中的技术问题。为此,本专利技术提出一种基于服务器端渲染网页技术的seo方案及相关装置,服务器端能够快速且完整地获取爬虫请求对应的网页html内容。
2、第一方面,本申请实施例提供了一种基于服务器端渲染网页技术的seo方案,包括:
3、获取搜索引擎爬虫发出的爬虫请求;
4、获取预先创建的工程项目,并与预先安装好的浏览器建立连接,其中,所述工程项目是基于devto
5、基于所述搜索引擎爬虫发出的爬虫请求,通过所述工程项目调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页html内容;
6、将获取的网页html内容返还到网络爬虫。
7、根据本专利技术的一些实施例,所述获取搜索引擎爬虫发出的爬虫请求之后,所述seo方案还包括:
8、获取预先设置的缓存服务文件;其中,所述缓存服务文件用于存储网页html内容;
9、判断所述缓存服务文件中是否存在与所述爬虫请求相对应的网页html内容;
10、若存在,判断所述爬虫请求对应的网页html内容是否过期;
11、若未过期,读取所述缓存服务文件中与所述爬虫请求相对应的网页html内容,并返还到网络爬虫。
12、根据本专利技术的一些实施例,所述获取预先设置的缓存服务文件之后,所述seo方案还包括:
13、若所述缓存服务文件中不存在与所述爬虫请求相对应的网页html内容,或,若所述缓存服务文件中与所述爬虫请求相对应的网页html内容已过期,执行所述基于所述搜索引擎爬虫发出的爬虫请求,通过所述工程项目调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页html内容的步骤。
14、根据本专利技术的一些实施例,所述基于所述搜索引擎爬虫发出的爬虫请求,通过所述工程项目调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页html内容之后,所述seo方案还包括:
15、将获取的网页html内容插存于所述缓存服务文件中,并设定缓存时间。
16、根据本专利技术的一些实施例,所述获取搜索引擎爬虫发出的爬虫请求,包括:
17、获取预先建立的网站项目,其中,所述网站项目创建有自定义的过滤器;
18、通过所述网站项目接收http请求;
19、判断所述http请求是否为搜索引擎爬虫发出的爬虫请求;
20、若否,允许http请求正常访问网站;
21、若是,通过所述过滤器拦截所述搜索引擎爬虫发出的爬虫请求,并发送至所述工程项目。
22、根据本专利技术的一些实施例,所述工程项目基于devtools protocol创建浏览器page对象池;
23、所述基于所述搜索引擎爬虫发出的爬虫请求,通过所述工程项目调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页html内容,包括:
24、判断所述浏览器page对象池中是否有空闲的page实例;
25、若有,调用所述浏览器page对象池中空闲的page实例,并标记正在使用,基于所述搜索引擎爬虫发出的爬虫请求,通过所述page实例调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页html内容。
26、根据本专利技术的一些实施例,所述判断所述浏览器page对象池中是否有空闲的page实例之后,所述搜索方法还包括:
27、若否,等待所述浏览器page对象池中出现空闲的page实例;
28、判断所述爬虫请求的等待时间是否超过预先配置的时间,若超过,将响应错误的信号返还到网络爬虫。
29、根据本专利技术的一些实施例,包括网站项目与工程项目,其中:
30、所述网站项目用于接收搜索引擎爬虫发出的爬虫请求,并反馈到所述工程项目;
31、所述工程项目是基于devtools protocol预先创建的,所述工程项目用于与预先安装好的浏览器建立连接,基于所述搜索引擎爬虫发出的爬虫请求,通过所述工程项目调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页html内容,并返还到网络爬虫。
32、第二方面,本申请实施例提供了一种服务器装置,包括网站项目与工程项目,其中:
33、所述网站项目用于接收搜索引擎爬虫发出的爬虫请求,并反馈到所述工程项目;
34、所述工程项目是基于devtools protocol预先创建的,所述工程项目用于与预先安装好的浏览器建立连接,基于所述搜索引擎爬虫发出的爬虫请求,通过所述工程项目调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页html内容,并返还到网络爬虫。
35、第三方面,本申请实施例提供了一种电子设备,包括存储器与处理器,其中:
36、存储器,用于存储可被所述处理器执行的程序和/或指令;
37、处理器,所述处理器被配置为执行所述程序和/或指令,以实现上述的搜索方法。
38、第四方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序和/或指令,所述程序和/或所述指令被处理器执行时实现如上述的搜索方法。
39、从以上技术方案可以看出,本申请实施例具有以下优点:在接收到搜索引擎爬虫的爬虫请求后,工程项目远程调用websocket连接后的浏览器。根据爬虫请求对应的目标url,工程项目远程控制浏览器加载相应的网页,并进行渲染,由此,模拟出真实的浏览器行为,来得到完整的网页html内容。可以理解的是,现有技术中动态加载、网页加载延迟等问题经常导致搜索引擎爬虫检索不完整且相应速度慢等问题,服务器端采用上述的步骤获取网页html内容,保证了搜索引擎爬虫完整地获取网页html内容,并且响应爬虫请求速度快。
本文档来自技高网...【技术保护点】
1.一种基于服务器端渲染网页技术的SEO方案,其特征在于,包括:
2.根据权利要求1所述的一种基于服务器端渲染网页技术的SEO方案,其特征在于,所述获取搜索引擎爬虫发出的爬虫请求之后,所述SEO方案还包括:
3.根据权利要求2所述的一种基于服务器端渲染网页技术的SEO方案,其特征在于,所述获取预先设置的缓存服务文件之后,所述SEO方案还包括:
4.根据权利要求2或3中任意一项所述的一种基于服务器端渲染网页技术的SEO方案,其特征在于,所述基于所述搜索引擎爬虫发出的爬虫请求,通过所述工程项目调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页HTML内容之后,所述SEO方案还包括:
5.根据权利要求2或3中任意一项所述的一种基于服务器端渲染网页技术的SEO方案,其特征在于,所述获取搜索引擎爬虫发出的爬虫请求,包括:
6.根据权利要求1所述的一种基于服务器端渲染网页技术的SEO方案,其特征在于,所述工程项目基于DevTools Protocol创建浏览器Page对象池;
7.根据权利要求6所述的一种基于服务器
8.一种服务器装置,其特征在于,包括网站项目与工程项目,其中:
9.一种电子设备,其特征在于,包括存储器与处理器,其中:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序和/或指令,所述程序和/或所述指令被处理器执行时实现如权利要求1至8中任一项所述的搜索方法。
...【技术特征摘要】
1.一种基于服务器端渲染网页技术的seo方案,其特征在于,包括:
2.根据权利要求1所述的一种基于服务器端渲染网页技术的seo方案,其特征在于,所述获取搜索引擎爬虫发出的爬虫请求之后,所述seo方案还包括:
3.根据权利要求2所述的一种基于服务器端渲染网页技术的seo方案,其特征在于,所述获取预先设置的缓存服务文件之后,所述seo方案还包括:
4.根据权利要求2或3中任意一项所述的一种基于服务器端渲染网页技术的seo方案,其特征在于,所述基于所述搜索引擎爬虫发出的爬虫请求,通过所述工程项目调用浏览器进行访问、渲染网页,获取所述爬虫请求对应的网页html内容之后,所述seo方案还包括:
5.根据权利要求2或3中任意一项所述的一种基于服务器端渲染网页技术的seo方案,其...
【专利技术属性】
技术研发人员:张衍炳,戴裕文,张楠,赵志瑞,许丹昊,杨建明,
申请(专利权)人:深圳证券信息有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。