一种基于网站内容搜索引擎的方法及系统技术方案

技术编号:36184923 阅读:20 留言:0更新日期:2022-12-31 20:46
本发明专利技术涉及搜索引擎技术领域,具体公开了一种基于网站内容搜索引擎的方法及系统。本发明专利技术通过根据历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;对网站数据库中的相关信息进行提取和组织,更新网站索引库;接收用户输入的关键词,进行内容检索;剔除广告内容,得到优化检索结果;根据优化检索结果与关键词的相关性进行排序,生成并展示排序检索结果。能够根据用户的历史搜索数据,对搜索引擎的网站数据库和网站索引库进行个性化的更新调整,使得内容检索结果不会出现很多无关的内容,从而更加符合用户的个性化需求,并且能够进行广告的识别与剔除,大大缩短用户从检索结果中确定目标内容的时间,且能够提升用户的使用体验感。用体验感。用体验感。

【技术实现步骤摘要】
一种基于网站内容搜索引擎的方法及系统


[0001]本专利技术属于搜索引擎
,尤其涉及一种基于网站内容搜索引擎的方法及系统。

技术介绍

[0002]搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术,它指在提高人们获取搜集信息的速度,为人们提供更好的网络使用环境。搜索引擎是伴随互联网的发展而产生和发展的,互联网已成为人们学习、工作和生活中不可缺少的平台,几乎每个人上网都会使用搜索引擎。
[0003]现有的搜索引擎不能够根据用户的历史数据进行个性化的调整,导致进行网站内容的检索时,往往具有很多与用户需求不相关的内容,且检索结果中通常充斥着大量的广告,不仅影响用户用检索结果中确定目标内容的时间,且严重降低了用户对于这种搜索引擎使用的体验感。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种基于网站内容搜索引擎的方法及系统,旨在解决
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术实施例提供如下技术方案:一种基于网站内容搜索引擎的方法,所述方法具体包括以下步骤:获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;对所述网站数据库中的相关信息进行提取和组织,更新网站索引库;接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果;对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果;根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果。
[0006]作为本专利技术实施例技术方案进一步的限定,所述获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库具体包括以下步骤:获取用户的历史搜索数据;对所述历史搜索数据进行分析,生成多个更新标签;根据多个更新标签,进行相关网站的爬行和抓取,得到多个网页信息;根据多个所述网页信息,更新网站数据库。
[0007]作为本专利技术实施例技术方案进一步的限定,所述对所述网站数据库中的相关信息
进行提取和组织,更新网站索引库具体包括以下步骤:剔除所述网站数据库中的重复网页,得到第一优化索引库;对所述第一优化索引库进行网页的相关内容提取,得到第二优化索引库;对所述第二优化索引库进行内容组织,更新生成网站索引库。
[0008]作为本专利技术实施例技术方案进一步的限定,所述接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果具体包括以下步骤:接收用户输入的关键词;根据所述关键词在网站索引库中进行检索标记,生成检索标记数据;按照所述检索标记数据进行内容整合,生成内容检索结果。
[0009]作为本专利技术实施例技术方案进一步的限定,所述对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果具体包括以下步骤:基于大数据技术,获取广告标签数据;根据所述广告标签数据,对所述内容检索结果进行内容预识别,生成预识别结果;按照所述预识别结果,对对所述内容检索结果进行广告标记,生成广告标记数据;按照所述广告标记数据,将所述内容检索结果中的广告内容剔除,得到优化检索结果。
[0010]作为本专利技术实施例技术方案进一步的限定,所述根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果具体包括以下步骤:基于大数据技术,获取与所述关键词相应的多个对应词;计算所述优化检索结果中每个网页内容在出现关键词或对应词的次数,生成次数统计数据;按照所述次数统计数据,计算优化检索结果中每个网页的相关性得分;按照多个所述相关性得分,对所述优化检索结果进行排序,生成并展示排序检索结果。
[0011]一种基于网站内容搜索引擎的系统,所述系统包括网站爬行抓取单元、信息提取组织单元、网站内容检索单元、广告识别剔除单元和相关排序展示单元,其中:网站爬行抓取单元,用于获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;信息提取组织单元,用于对所述网站数据库中的相关信息进行提取和组织,更新网站索引库;网站内容检索单元,用于接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果;广告识别剔除单元,用于对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果;相关排序展示单元,用于根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果。
[0012]作为本专利技术实施例技术方案进一步的限定,所述网站爬行抓取单元具体包括:历史获取模块,用于获取用户的历史搜索数据;数据分析模块,用于对所述历史搜索数据进行分析,生成多个更新标签;
爬行抓取模块,用于根据多个更新标签,进行相关网站的爬行和抓取,得到多个网页信息;数据更新模块,用于根据多个所述网页信息,更新网站数据库。
[0013]作为本专利技术实施例技术方案进一步的限定,所述信息提取组织单元具体包括:重复剔除模块,用于剔除所述网站数据库中的重复网页,得到第一优化索引库;内容提取模块,用于对所述第一优化索引库进行网页的相关内容提取,得到第二优化索引库;内容组织模块,用于对所述第二优化索引库进行内容组织,更新生成网站索引库。
[0014]作为本专利技术实施例技术方案进一步的限定,所述相关排序展示单元具体包括:对应词获取模块,用于基于大数据技术,获取与所述关键词相应的多个对应词;次数统计模块,用于计算所述优化检索结果中每个网页内容在出现关键词或对应词的次数,生成次数统计数据;相关性评价模块,用于按照所述次数统计数据,计算优化检索结果中每个网页的相关性得分;结果排序模块,用于按照多个所述相关性得分,对所述优化检索结果进行排序,生成并展示排序检索结果。
[0015]与现有技术相比,本专利技术的有益效果是:本专利技术实施例通过根据历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;对网站数据库中的相关信息进行提取和组织,更新网站索引库;接收用户输入的关键词,进行内容检索;剔除广告内容,得到优化检索结果;根据优化检索结果与关键词的相关性进行排序,生成并展示排序检索结果。能够根据用户的历史搜索数据,对搜索引擎的网站数据库和网站索引库进行个性化的更新调整,使得内容检索结果不会出现很多无关的内容,从而更加符合用户的个性化需求,并且能够进行广告的识别与剔除,大大缩短用户从检索结果中确定目标内容的时间,且能够提升用户的使用体验感。
附图说明
[0016]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例。
[0017]图1示出了本专利技术实施例提供的方法的流程图。
[0018]图2示出了本专利技术实施例提供的方法中相关网站爬行抓取的流程图。
[0019]图3示出了本专利技术实施例提供的方法中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网站内容搜索引擎的方法,其特征在于,所述方法具体包括以下步骤:获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库;对所述网站数据库中的相关信息进行提取和组织,更新网站索引库;接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果;对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果;根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果。2.根据权利要求1所述的基于网站内容搜索引擎的方法,其特征在于,所述获取用户的历史搜索数据,根据所述历史搜索数据进行相关网站的爬行和抓取,更新网站数据库具体包括以下步骤:获取用户的历史搜索数据;对所述历史搜索数据进行分析,生成多个更新标签;根据多个更新标签,进行相关网站的爬行和抓取,得到多个网页信息;根据多个所述网页信息,更新网站数据库。3.根据权利要求1所述的基于网站内容搜索引擎的方法,其特征在于,所述对所述网站数据库中的相关信息进行提取和组织,更新网站索引库具体包括以下步骤:剔除所述网站数据库中的重复网页,得到第一优化索引库;对所述第一优化索引库进行网页的相关内容提取,得到第二优化索引库;对所述第二优化索引库进行内容组织,更新生成网站索引库。4.根据权利要求1所述的基于网站内容搜索引擎的方法,其特征在于,所述接收用户输入的关键词,根据所述关键词在网站索引库中进行内容检索,生成内容检索结果具体包括以下步骤:接收用户输入的关键词;根据所述关键词在网站索引库中进行检索标记,生成检索标记数据;按照所述检索标记数据进行内容整合,生成内容检索结果。5.根据权利要求1所述的基于网站内容搜索引擎的方法,其特征在于,所述对所述内容检索结果进行内容预识别,剔除所述内容检索结果中的广告内容,得到优化检索结果具体包括以下步骤:基于大数据技术,获取广告标签数据;根据所述广告标签数据,对所述内容检索结果进行内容预识别,生成预识别结果;按照所述预识别结果,对对所述内容检索结果进行广告标记,生成广告标记数据;按照所述广告标记数据,将所述内容检索结果中的广告内容剔除,得到优化检索结果。6.根据权利要求1所述的基于网站内容搜索引擎的方法,其特征在于,所述根据所述优化检索结果与所述关键词的相关性进行排序,生成并展示排序检索结果具体包括以下步骤:基于大数据技术,获取与...

【专利技术属性】
技术研发人员:计建
申请(专利权)人:上海天擎天拓软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1