当前位置: 首页 > 专利查询>苏州大学专利>正文

一种相似网站查找方法、系统、设备及介质技术方案

技术编号:17705042 阅读:37 留言:0更新日期:2018-04-14 17:58
本申请公开了一种相似网站查找方法,包括:获取目标网站的目标信息;提取目标信息中的关键词;将关键词输入至目标引擎进行搜索,得到搜索网站;将目标网站与搜索网站的相似度进行比较,得到相似度列表;查找相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。在本发明专利技术中,利用关键词对网站进行搜索,扩大了网站的搜索范围,所以提高了查找相似网站的查全率;然后再将检索到的搜索网站按照预设的筛选条件进行筛选,最后得到相似网站,进而提高了查找相似网站的准确率。相应的,本发明专利技术还公开了一种相似网站查找系统、一种相似网站查找设备及一种计算机可读存储介质,同样具有以上有益效果。

【技术实现步骤摘要】
一种相似网站查找方法、系统、设备及介质
本专利技术涉及互联网
,特别涉及一种相似网站查找方法、系统、设备及介质。
技术介绍
随着互联网技术的快速发展,互联网已经成为目前最大的电子信息资源平台,它为信息工作人员搜集信息提供了重要的参考途径,但是在现有技术当中,利用搜索引擎搜索相关领域的网站时,会出现大量无关的冗余信息,严重干扰了信息工作人员对有用信息的准确分辨和正确选择,所以必须要提高对有用信息的获取能力,增强对网络资源的利用率。在国内,对于相似网站发现技术的研究起步较晚,一些人工分类的中文导航目录,如hao123、2345网站、360安全网站,在这些网站中可以找到一些相似网站的站点,但是,这些相似网站的发现主要还是基于标签和用户评注,极少能实现对网站里给定的某个网页发现与其内容相似的网站。而且,在搜索的过程中,相似网站的推荐完全是基于人工分类的,利用这种搜索方法进行搜索时,不仅搜索到的网页数量和主题有限,而且内容上也会出现大量的冗余,进而导致相似网站查询的准确率和查全率较低。所以,怎样提高查找相似网站的准确率和查全率,是本领域技术人员亟待解决的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种相似网站查找方法,以提高在查找相似网站过程中的准确率和查全率。本专利技术的另一目的是提供一种相似网站查找系统、一种相似网站查找设备及一种计算机可读存储介质。为解决上述技术问题,本专利技术提供的一种相似网站查找方法,包括:获取目标网站的目标信息;提取目标信息中的关键词;将关键词输入至目标引擎进行搜索,得到搜索网站;将所述目标网站与搜索网站的相似度进行比较,得到相似度列表;查找所述相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。优选的,所述获取目标网站的目标信息的过程,包括:筛选所述目标网站中的目录型页面,并提取目录型页面中预设区域的信息,得到第一目标信息;筛选所述目标网站中的主题型页面,并利用逻辑行和/或最大接纳距离的方法提取主题型页面中的主题信息,得到第二目标信息。优选的,所述提取目标信息中的关键词的过程,包括:利用TF-IDF方法提取目标信息中的关键词,得到第一关键词;利用TopicModel方法提取目标信息中的关键词,得到第二关键词;利用SVM方法提取目标信息中的关键词,得到第三关键词。优选的,所述利用TF-IDF方法提取目标信息中的关键词,得到第一关键词的过程,包括:利用TF-IDF方法提取目标信息中的TF-IDF值,得到第一目标词汇;选取第一目标词汇中符合第一预设范围的关键词,得到第二目标词汇;将第二目标词汇进行随机拆分,并将拆分后的第二目标词汇进行随机组合,得到第一关键词。优选的,所述利用TopicModel方法提取目标信息中的关键词,得到第二关键词的过程,包括:利用LDA主题模型预测目标信息中的主题,得到第一目标主题;根据第一目标主题查找对应的关键词,得到第一目标关键词;选取第一目标关键词中符合第二预设范围的关键词,得到第二关键词。优选的,所述利用SVM方法提取目标信息中的关键词,得到第三关键词的过程,包括:利用SVM方法预测目标信息中的主题,得到第二目标主题;根据第二目标主题查找对应的训练语料,得到目标训练语料;利用TF-IDF方法提取目标训练语料的关键词,得到第二目标关键词;选取第二目标关键词中符合第三预设范围的关键词,得到第三关键词。优选的,所述将所述目标网站与搜索网站的相似度进行比较,得到相似度列表的过程,包括:对所述目标网站的主页和搜索网站的主页进行解析,得到目标文档和搜索文档;提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量;利用余弦定理计算目标文档向量和搜索文档向量的相似度,并按计算值的大小进行排序,得到所述相似度列表。优选的,所述提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量的过程,包括:利用TF-IDF/Doc2Vec提取目标文档和搜索文档的向量,得到目标文档向量和搜索文档向量。优选的,所述将关键词输入至目标引擎进行搜索,得到搜索网站的过程,包括:将关键词输入至目标引擎进行搜索,得到搜索网页;利用Jsoup对搜索网页进行解析,得到解析网页;将解析网页按网站域名去重,得到搜索网站。相应的,本专利技术还公开了一种相似网站查找系统,包括:信息获取模块,用于获取目标网站的目标信息;关键词提取模块,用于提取目标信息中的关键词;网站搜索模块,用于将关键词输入至目标引擎进行搜索,得到搜索网站;相似度比较模块,用于将所述目标网站与搜索网站的相似度进行比较,得到相似度列表;相似网站搜索模块,用于查找所述相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。相应的,本专利技术还公开了一种相似网站查找设备,包括:存储器,用于存储指令;其中,所述指令包括前述公开的一种相似网站查找方法的每个动作的指令;处理器,用于执行所述存储器中的指令。相应的,本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述公开的一种相似网站查找方法的步骤。在本专利技术中,一种相似网站查找方法,包括:获取目标网站的目标信息;提取目标信息中的关键词;将关键词输入至目标引擎进行搜索,得到搜索网站;将目标网站与搜索网站的相似度进行比较,得到相似度列表;查找相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。可见,在本专利技术中,首先是提取目标网站中的目标信息,再在目标信息中提取关键词,通过在目标信息中提取关键词的方法,提高了提取关键词的准确性。其次,利用关键词对网站进行搜索,扩大了网站的搜索范围,所以提高了查找相似网站的查全率;然后再将检索到的搜索网站,按照与目标网站的相似度进行排序,得到相似度列表,再在相似度列表中按照预设的筛选条件进行筛选,最后得到相似网站,进而提高了查找相似网站的准确率,综上所述,通过本专利技术中的方法,可以提高查找相似网站时的查全率和准确率。相应的,本专利技术还公开了一种相似网站查找系统、一种相似网站查找设备以及一种计算机可读存储介质,同样具有以上有益效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例一提供的一种相似网站查找方法流程图;图2为本专利技术实施例二提供的一种相似网站查找方法流程图;图3为本专利技术提供的一种相似网站查找系统结构图;图4为本专利技术提供的一种相似网站查找设备结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例一公开了一种相似网站查找方法,如图1所示,该方法包括:步骤S11:获取目标网站的目标信息。步骤S12:提取目标信息中的关键词。可以理解的是,目标信息是用以反映目标网站主题内容的词语,提取目标信息的过程实际上可以看成是对目标网站整体内容进行本文档来自技高网...
一种相似网站查找方法、系统、设备及介质

【技术保护点】
一种相似网站查找方法,其特征在于,包括:获取目标网站的目标信息;提取目标信息中的关键词;将关键词输入至目标引擎进行搜索,得到搜索网站;将所述目标网站与搜索网站的相似度进行比较,得到相似度列表;查找所述相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。

【技术特征摘要】
1.一种相似网站查找方法,其特征在于,包括:获取目标网站的目标信息;提取目标信息中的关键词;将关键词输入至目标引擎进行搜索,得到搜索网站;将所述目标网站与搜索网站的相似度进行比较,得到相似度列表;查找所述相似度列表中排名达到预设筛选条件的搜索网站,得到相似网站。2.根据权利要求1所述的方法,其特征在于,所述获取目标网站的目标信息的过程,包括:筛选所述目标网站中的目录型页面,并提取目录型页面中预设区域的信息,得到第一目标信息;筛选所述目标网站中的主题型页面,并利用逻辑行和/或最大接纳距离的方法提取主题型页面中的主题信息,得到第二目标信息。3.根据权利要求1所述的方法,其特征在于,所述提取目标信息中的关键词的过程,包括:利用TF-IDF方法提取目标信息中的关键词,得到第一关键词;利用TopicModel方法提取目标信息中的关键词,得到第二关键词;利用SVM方法提取目标信息中的关键词,得到第三关键词。4.根据权利要求3所述的方法,其特征在于,所述利用TF-IDF方法提取目标信息中的关键词,得到第一关键词的过程,包括:利用TF-IDF方法提取目标信息中的TF-IDF值,得到第一目标词汇;选取第一目标词汇中符合第一预设范围的关键词,得到第二目标词汇;将第二目标词汇进行随机拆分,并将拆分后的第二目标词汇进行随机组合,得到第一关键词。5.根据权利要求3所述的方法,其特征在于,所述利用TopicModel方法提取目标信息中的关键词,得到第二关键词的过程,包括:利用LDA主题模型预测目标信息中的主题,得到第一目标主题;根据第一目标主题查找对应的关键词,得到第一目标关键词;选取第一目标关键词中符合第二预设范围的关键词,得到第二关键词。6.根据权利要求3所述的方法,其特征在于,所述利用SVM方法提取目标信息中的关键词,得到第三关键词的过程,包括:利用SVM方法预测目标信息中的主题,得到第二目标主题;根据第二目标主题查找对应的训练语料,得到目...

【专利技术属性】
技术研发人员:熊德意张诗奇
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1