【技术实现步骤摘要】
一种互联网视听、文本及图像的全媒体搜索方法及装置
本专利技术涉及互联网搜索技术,特别涉及一种互联网视听、文本及图像的全媒体搜索方法及装置。
技术介绍
随着互联网技术的迅速发展,人们可以通过搜索引擎搜索到各种信息。对于互联网的目标网站进行搜索,传统方法首先需要人为的搜集目标网站的“种子”站点,并根据搜集的“种子”站点建立搜索词库;然后通过对“种子”站点中的“外链”进行逐步扩散搜索;最后对搜索到的站点逐层深入的进行搜索。然而对于现有技术的搜索方法,容易受限于硬件设备与带宽,扩散搜索的广度以及垂直搜索的深度有限,因此查全率低下。
技术实现思路
(一)解决的技术问题本专利技术解决的技术问题是:如何提供一种互联网视听、文本及图像的全媒体搜索方法及装置,解决查全率低的问题。(二)技术方案为解决上述技术问题,本专利技术实施例提供了一种互联网视听、文本及图像的全媒体搜索方法,包括:根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站;根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;根据预先学习的搜索框特征,识别所述第一可疑 ...
【技术保护点】
一种互联网视听、文本及图像的全媒体搜索方法,其特征在于,包括:根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站;根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框;在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名保存到库中。
【技术特征摘要】
1.一种互联网视听、文本及图像的全媒体搜索方法,其特征在于,包括:根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站;根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站;根据预先学习的搜索框特征,识别所述第一可疑网站和所述第二可疑网站中是否包含搜索框;在包含所述搜索框的所述第一可疑网站和所述第二可疑网站中,根据所述搜索词库在搜索框内进行站内搜索,得到所述目标网页,并将所述目标网页的网页链接以及网站域名保存到库中;所述根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站,进一步包括:对搜索到的网站的网页链接进行URL地址分析,解析出所述URL地址所属的网站域名,并对搜索到的网站的网站域名进行重复性排除;对进行重复性排除后的网站域名进行访问,根据目标特征对访问的网站进行研判,判断是否包含有目标网页,如果有,且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站标记为第一可疑网站。2.如权利要求1所述的方法,其特征在于,所述根据所述目标特征对访问的网站进行研判,具体包括:获取所述访问的网站的首页链接地址,并解析所述首页中是否包括目标网站特征;将包括目标网站特征的所述访问的网站标记为目标网站,并解析该目标网站中是否包括目标网页特征,将包含有目标网页特征且包含有目标网页的访问的网站数量超过预设阀值则将该包含有目标网页的访问的网站为第一可疑网站。3.如权利要求1或2所述的方法,其特征在于,所述目标特征包括:所述目标网站特征和所述目标网页特征。4.如权利要求1所述的方法,其特征在于,根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二可疑网站,具体包括:解析所述第一可疑网站的链接中的主域名,判别该主域名与所述目标网站的域名是否相同,若不相同,则标记为外链;对所述外链所属的网站进行重复性排除,并对重复性排除后的外链进行研判,判断是否包含有目标网站,如果有则标记所述第二可疑网站。5.一种互联网视听、文本及图像的全媒体搜索装置,其特征在于,包括:搜索模块,用于根据预设的搜索词库,利用各种搜索引擎搜索包含有目标网页的第一可疑网站,并将所述第一可疑网站发送给分析模块;所述分析模块,用于根据所述第一可疑网站,对所述第一可疑网站的外链进行分析,得到包含有所述目标网页的第二...
【专利技术属性】
技术研发人员:陈鑫玮,姜洪臣,徐波,
申请(专利权)人:北京中科模识科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。