The invention discloses a method, device and system for obtaining information of web pages based on topic similarity. The web information acquisition method based on topic similarity: in response to user interaction sends the target topic request to generate web pages; the web access request to the target server; all the target page to receive the target server; analyze each of the target page to obtain at least one web information; topic similarity according to the preset and the target subject corresponding to the calculation model of each of the web information calculation, topic similarity obtained between each of the \information on the subject and the target theme; the theme of each similarity is greater than the preset threshold information returned to the web page the end user interaction. The use of the invention can improve the pertinence and accuracy of the acquired web information.
【技术实现步骤摘要】
基于主题相似度的网页信息获取方法、装置及系统
本专利技术涉及计算机
,尤其涉及一种基于主题相似度的网页信息获取方法、装置及系统。
技术介绍
网络爬虫,是一种智能程序,它根据给定策略,智能抓取互联网上各类信息,常在搜索引擎中作为搜索引擎的核心之一。网络爬虫通过预置的种子URL,利用网络访问引擎发送HTTP网络协议来进行网页访问与内容抓取,然后以抓取到的URL为新的起点,继续爬取。网络爬虫一般会往高效高可用方向发展,即在下载尽可能多的相关性高的实用信息的同时,消耗尽可能短的时间。然而,传统的通用网络爬虫负责面对所有的用户查询需求,不断地抓取全互联网的信息,返回的结果过于繁多,有时候不太适合特定信息的需求者使用。这类网络爬虫的抓取结果,往往追求大而全的结果,缺少清晰化的、领域相关的模型,也缺少精准化的搜索结果。
技术实现思路
本专利技术实施例提出一种基于主题相似度的网页信息获取方法、装置及系统,能够提高所获取的网页信息的针对性和准确度。本专利技术实施例提供的一种基于主题相似度的网页信息获取方法,具体包括:响应于用户交互端发送的目标主题,生成网页获取请求;将所述网页获取 ...
【技术保护点】
一种基于主题相似度的网页信息获取方法,其特征在于,包括:响应于用户交互端发送的目标主题,生成网页获取请求;将所述网页获取请求发送至目标服务器,以使所述目标服务器根据所述网页获取请求获取至少一个目标网页;接收所述目标服务器返回的所有所述目标网页;对每个所述目标网页进行解析,获得至少一个网页信息;根据预先设置的与所述目标主题相对应的主题相似度计算模型,对每个所述网页信息进行计算,获得每个所述网页信息的主题与所述目标主题之间的主题相似度;将所述主题相似度大于预设阈值的每个所述网页信息返回至所述用户交互端。
【技术特征摘要】
1.一种基于主题相似度的网页信息获取方法,其特征在于,包括:响应于用户交互端发送的目标主题,生成网页获取请求;将所述网页获取请求发送至目标服务器,以使所述目标服务器根据所述网页获取请求获取至少一个目标网页;接收所述目标服务器返回的所有所述目标网页;对每个所述目标网页进行解析,获得至少一个网页信息;根据预先设置的与所述目标主题相对应的主题相似度计算模型,对每个所述网页信息进行计算,获得每个所述网页信息的主题与所述目标主题之间的主题相似度;将所述主题相似度大于预设阈值的每个所述网页信息返回至所述用户交互端。2.如权利要求1所述的基于主题相似度的网页信息获取方法,其特征在于,在所述将所述网页获取请求发送至目标服务器,以使所述目标服务器根据所述网页获取请求获取至少一个目标网页之前,还包括:对与本地相连的每个服务器的运行状态进行检测,并将其中运行状态为空闲的任意一个服务器设置为所述目标服务器。3.如权利要求1所述的基于主题相似度的网页信息获取方法,其特征在于,所述网页获取请求中包含预先设置的目标网页列表中的各个网页地址;则所述将所述网页获取请求发送至目标服务器,以使所述目标服务器根据所述网页获取请求获取至少一个目标网页,具体包括:将所述网页获取请求发送至所述目标服务器,以使所述目标服务器根据所述网页获取请求中的每个所述网页地址查找到对应的所述目标网页。4.如权利要求1所述的基于主题相似度的网页信息获取方法,其特征在于,所述目标网页为HTML格式的网页;所述网页信息为所述目标网页中的ASCII码文本内容。5.如权利要求1所述的基于主题相似度的网页信息获取方法,其特征在于,所述主题相似度计算模型包括主题生成模型和词向量获取模型;则所述根据预先设置的与所述目标主题相对应的主题相似度计算模型,对每个所述网页信息进行计算,获得每个所述网页信息的主题与所述目标主题之间的主题相似度,具体包括:获取与所述目标主题相对应的所述主题相似度计算模型;利用所述主题相似度计算模型中的主题生成模型对每个所述网页信息进行计算,获得每个所述网页信息的主题;根据所述主题相似度计算模型中的词向量获取...
【专利技术属性】
技术研发人员:胡勇军,李奕臻,谭钻华,刘洁怡,
申请(专利权)人:广州大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。