System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种关键词提取方法、装置、电子设备及存储介质。
技术介绍
1、搜索引擎优化(search engine optimization,seo)是一种通过分析搜索引擎的排名规律,对网页内容进行有针对性的优化,从而提高网页在搜索引擎中的排名,以提高网页访问量的技术。
2、搜索引擎利用复杂的算法对网页内容进行分析和排序,如果网页的关键词(keywords)与用户输入的搜索词高度匹配,则该网页在搜索结果中的排名就可能更高。因此,在seo中,可以通过对关键词的优化,提高网页在搜索引擎中的排名,加大网页的曝光度。
3、但是,现有技术中,通常基于网页内容本身进行关键词提取,没有考虑用户的搜索需求和偏好,导致提取的关键词与用户实际搜索需求并不能很好的匹配,网页的seo优化效果并不理想。
技术实现思路
1、为解决上述技术问题,本申请示出了一种关键词提取方法、装置、电子设备及存储介质,以至少解决相关技术中提取的关键词与用户实际搜索需求并不能很好的匹配,网页的seo优化效果并不理想的问题。本公开的技术方案如下:
2、第一方面,本申请示出了一种关键词提取方法,所述方法包括:
3、对目标网页进行特征提取,得到所述目标网页的特征词;
4、将所述特征词输入至预设搜索引擎中,查询所述特征词关联的搜索建议词;所述搜索建议词基于用户搜索历史数据对所述特征词进行分析得到;
5、对所述搜索建议词进行分词处理,得到多个分词,并
6、响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎,以使所述预设搜索引擎基于所述目标关键词收录所述目标网页。
7、可选地,所述对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
8、对所述分词进行词频统计,根据预设词频权重及预设词长度权重,确定所述分词的词频及词长度的加权和,作为所述分词的排序分数;
9、按照所述排序分数从大到小的顺序,从所述分词中选取预设数量个目标分词;
10、对所述预设数量个目标分词进行组合,得到目标关键词。
11、可选地,所述对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
12、对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定第一关键词;
13、对所述搜索建议词进行自然语言处理,生成所述搜索建议词对应的第二关键词;
14、将所述第一关键词及所述第二关键词作为所述目标关键词。
15、可选地,所述分词作为目标关键词的概率与所述分词的词频及词长度为正相关。
16、可选地,所述响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎之前,还包括:
17、生成所述目标关键词对应的键值对;所述键值对的值为所述目标关键词,所述键值对的键为所述目标网页的内容标识;
18、将所述键值对存储至预设数据库中;
19、所述响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎,包括:
20、响应于所述预设搜索引擎对所述目标网页的信息爬取请求,根据所述目标网页的内容标识,从所述预设数据库中查询所述键值对;所述信息爬取请求中携带目标网页的内容标识;
21、将所述键值对所包含的所述目标关键词返回至所述预设搜索引擎。
22、可选地,所述对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
23、对所述搜索建议词进行去停用词处理,并过滤所述搜索建议词内的标点符号,得到待分析词;
24、对所述待分析词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词。
25、可选地,所述方法还包括:
26、按照预设周期,返回所述对目标网页进行特征提取,得到所述目标网页的特征词的步骤。
27、可选地,所述目标网页包括流媒体网页,所述对目标网页进行特征提取,得到所述目标网页的特征词,包括:
28、提取流媒体网页的视频标题,作为所述流媒体网页的特征词。
29、可选地,所述将所述特征词输入至预设搜索引擎中,查询所述特征词关联的搜索建议词,包括:
30、调用所述预设搜索引擎的搜索建议词接口,将所述特征词作为所述搜索建议词接口的输入参数,以使得所述预设搜索引擎查询所述特征词关联的搜索建议词。
31、可选地,所述预设搜索引擎用于将所述目标关键词及所述目标网页的网页标识对应存储,并在接收到对所述目标关键词的搜索请求后,返回所述目标网页的网页标识。
32、第二方面,本专利技术实施例提供了一种关键词提取装置,包括:
33、提取模块,用于对目标网页进行特征提取,得到所述目标网页的特征词;
34、查询模块,用于将所述特征词输入至预设搜索引擎中,查询所述特征词关联的搜索建议词;所述搜索建议词基于用户搜索历史数据对所述特征词进行分析得到;
35、分析模块,用于对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词;
36、响应模块,用于响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎,以使所述预设搜索引擎基于所述目标关键词收录所述目标网页。
37、可选地,所述分析模块,具体用于:
38、对所述分词进行词频统计,根据预设词频权重及预设词长度权重,确定所述分词的词频及词长度的加权和,作为所述分词的排序分数;
39、按照所述排序分数从大到小的顺序,从所述分词中选取预设数量个目标分词;
40、对所述预设数量个目标分词进行组合,得到目标关键词。
41、可选地,所述分析模块,具体用于:
42、对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定第一关键词;
43、对所述搜索建议词进行自然语言处理,生成所述搜索建议词对应的第二关键词;
44、将所述第一关键词及所述第二关键词作为所述目标关键词。
45、可选地,所述分词作为目标关键词的概率与所述分词的词频及词长度为正相关。
46、可选地,所述装置还包括存储模块,用于:
47、生成所述目标关键词对应的键值对;所述键值本文档来自技高网...
【技术保护点】
1.一种关键词提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
4.根据权利要求1~3任一项所述的方法,其特征在于,所述分词作为目标关键词的概率与所述分词的词频及词长度为正相关。
5.根据权利要求1所述的方法,其特征在于,所述响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎之前,还包括:
6.根据权利要求1所述的方法,其特征在于,所述对所述搜索建议词进行分词处理,得到多个分词,包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,所述目标网页包括流媒体网页,所述对目标网页进行特征提取,得到所述目标网页的特征词,包括:
...【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
4.根据权利要求1~3任一项所述的方法,其特征在于,所述分词作为目标关键词的概率与所述分词的词频及词长度为正相关。
5.根据权利要求1所述的方法,其特征在于,所述响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎之前,还包括:
6.根据权利要求1所述的方法,其特征在于,所述对所述搜索建议词进行分词处理,得到多个分词,包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1...
【专利技术属性】
技术研发人员:刘文才,邵明星,朱朴,唐宇,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。