搜索引擎优化方法及装置、电子设备及可读存储介质制造方法及图纸

技术编号:33559359 阅读:37 留言:0更新日期:2022-05-26 22:56
本发明专利技术公开了一种搜索引擎优化方法及装置、电子设备及可读存储介质。其中,该方法包括:获取目标页面的视觉信息;根据视觉信息确定目标页面中的页面标题以及核心文本;根据页面标题以及核心文本对目标页面进行收录。本发明专利技术解决了由于相关技术中目标页面中没有进行搜索引擎优化,而导致无法准确获取目标页面的内容信息的技术问题。内容信息的技术问题。内容信息的技术问题。

【技术实现步骤摘要】
搜索引擎优化方法及装置、电子设备及可读存储介质


[0001]本专利技术涉及搜索引擎优化
,具体而言,涉及一种搜索引擎优化方法及装置、电子设备及可读存储介质。

技术介绍

[0002]为了提升搜索词的准确度,通过对网站内的HTML页面和客户端上的native页面进行遍历,从中获取关键信息,并通过关键词匹配,选出合适的页面,在搜索列表中展示标题、核心文本等信息,并分发给用户。
[0003]目前业界通用的页面采集技术,只采集页面的结构信息和内容信息。如果页面只提供了用户所见即所得的信息,那么在大多数情况下,这些信息不足以判断页面是否合适在一个搜索关键词下分发,更不足以挖掘出合适的标题、核心文本等信息以展示给用户。传统搜索引擎的搜索效果,重度依赖于被采集网站本身的SEO(Search Engine Optimization,搜索引擎优化)实现。即一个网站只有建立了良好的SEO,才能在传统搜索引擎中得到较好的展现,而搜索引擎在大多数时候要做的,只是直接读取网站提供的SEO信息来判断页面是否要收录,并将SEO信息中的建议标题和核心文本直接展示给用户。
[0004]申请人在实现本专利技术的过程中,发现相关技术中至少存在以下技术问题。
[0005]从上述现有技术方案可以看出,网站能否在搜索结果中实现标题和核心文本的良好展现,甚至能否作为搜索结果分发给用户,很大程度上依赖于网站本身是否有良好的SEO。如果页面本身SEO做得不够好,则其往往很容易被搜索引擎误过滤。即使被分发,由于抽取到的标题和核心文本的质量比较低,其在搜索结果中的排名和展示也会比较差。
[0006]由于移动终端的应用程序App中的搜索从未有过这样的检索能力,网站内的大多数页面也没有被外部搜索引擎收录的需求,因此网站内大多数页面的SEO手段都比较弱;另外,SEO的规则都是针对HTML文档,对于客户端上的native页面,甚至完全没有SEO的规范,页面维护方自然也不会做SEO。这就导致了,若只使用业界通用的技术只针对网页端进行SEO,不对APP端进行SEO,是绝对无法达到传统搜索引擎的搜索效果的。
[0007]可见,相关技术中针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0008]本专利技术实施例提供了一种搜索引擎优化方法及装置、电子设备及可读存储介质,以至少解决由于相关技术中目标页面中没有进行搜索引擎优化,而导致无法准确获取目标页面的内容信息的技术问题。
[0009]根据本专利技术实施例的一个方面,提供了一种搜索引擎优化方法,包括:获取目标页面的视觉信息;根据所述视觉信息确定目标页面中的页面标题以及核心文本;根据所述页面标题以及所述核心文本对目标页面进行收录。
[0010]进一步地,获取目标页面的视觉信息,包括:在所述目标信息界面注入预设脚本;根据所述预设脚本获取所述目标页面的页面文档,其中,所述页面文档包括所述视觉信息;
根据所述页面文档获取所述视觉信息。
[0011]进一步地,在所述目标信息界面注入预设脚本,包括:在所述目标页面为HTML页面的情况下,将预设脚本注入至所述HTML页面的预设接口;或,在所述目标页面为应用程序页面的情况下,在所述应用程序页面对应的应用程序源码中增加预设脚本。
[0012]进一步地,根据所述预设脚本获取所述目标页面的页面文档,包括:遍历所述页面文档中的视图树;获取所述视图树中的每个节点的节点属性;根据所述节点属性生成所述页面文档。
[0013]进一步地,根据所述页面文档获取所述视觉信息,包括:确定所述页面文档中关键字位于所述目标页面的关键字位置;根据所述关键字位置获取所述视觉信息。
[0014]进一步地,根据所述视觉信息确定目标页面中的页面标题以及核心文本,包括:将所述视觉信息对应的视觉信息特征、所述目标页面的页面特征、所述目标页面的文本语言特征输入至预先训练完成的页面标题预测模型,以得到所述目标页面的页面标题;将所述视觉信息特征、所述目标页面中核心区域的内容特征输入至预先训练完成的核心文本预测模型,以得到所述目标页面的核心文本。
[0015]进一步地,所述页面特征包括以下至少之一:所述目标页面的HTML页面特征、DOM特征;所述内容特征包括以下至少之一:所述核心区域的文本特征、图片特征以及链接特征。
[0016]根据本专利技术实施例的另一方面,还提供了一种搜索引擎优化装置,包括:获取单元,用于获取目标页面的视觉信息;确定单元,用于根据所述视觉信息确定目标页面中的页面标题以及核心文本;优化单元,用于根据所述页面标题以及所述核心文本对目标页面进行收录。
[0017]根据本专利技术实施例的另一方面,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的搜索引擎优化方法的步骤。
[0018]根据本专利技术实施例的另一方面,还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的搜索引擎优化方法的步骤。
[0019]在本专利技术实施例中,通过获取目标页面的视觉信息;根据视觉信息确定目标页面中的页面标题以及核心文本;根据页面标题以及核心文本对目标页面进行收录,通过目标视觉信息来确定目标页面中的页面标题以及核心文本,进而实现通过页面标题以及核心文本对目标页面进行收录,实现对搜索引擎的优化,进而解决了由于相关技术中目标页面中没有进行搜索引擎优化,而导致无法准确获取目标页面的内容信息的技术问题。
附图说明
[0020]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0021]图1是根据本专利技术实施例的一种可选的搜索引擎优化方法的流程示意图;
[0022]图2a是根据本专利技术实施例的一种可选的应用页面的示意图;
[0023]图2b是根据本专利技术实施例的一种可选的页面代码的示意图;
[0024]图2c是根据本专利技术实施例的一种可选的页面视觉信息的示意图;
[0025]图3a是根据本专利技术实施例的一种可选的应用页面的示意图;
[0026]图3b是根据本专利技术实施例的又一种可选的应用页面的示意图;
[0027]图3c是根据本专利技术实施例的又一种可选的应用页面的示意图;
[0028]图4是根据本专利技术实施例的一种可选的搜索引擎优化装置的结构示意图。
具体实施方式
[0029]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0030]需要说明的是,本专利技术的说明书和权利要求书及上述附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索引擎优化方法,其特征在于,包括:获取目标页面的视觉信息;根据所述视觉信息确定目标页面中的页面标题以及核心文本;根据所述页面标题以及所述核心文本对目标页面进行收录。2.根据权利要求1所述的方法,其特征在于,获取目标页面的视觉信息,包括:遍历所述目标页面的页面内容,以得到所述目标页面的页面文档;在所述页面文档中注入预设脚本,以得到所述目标页面对应的视图树;根据所述视图树得到所述视觉信息。3.根据权利要求2所述的方法,其特征在于,在所页面文档中注入预设脚本,以得到所述目标页面对应的视图树,包括:在所述目标页面为HTML页面的情况下,将预设脚本注入至所述HTML页面的预设接口;或,在所述目标页面为应用程序页面的情况下,在所述应用程序页面对应的应用程序源码中增加预设脚本。4.根据权利要求2所述的方法,其特征在于,根据所述视图树得到所述视觉信息,包括:遍历所述视图树;获取所述视图树中的每个节点的节点属性;根据所述节点属性生成所述目标页面对应的视觉文档,其中,所述视觉文档中包括所述视觉信息。5.根据权利要求4所述的方法,其特征在于,在根据所述节点属性生成所述目标页面对应的视觉文档之后,还包括:获取所述视觉文档中每个节点的可见性信息;根据所述可见性信息对所述每个节点对应的页面内容进行筛选。6.根据权利要求1所述的方法,其特征在于,根据所...

【专利技术属性】
技术研发人员:华嘉炜胡杨陆源源余婷婷朱茵茵华镇虞金花汪沁
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1