The invention discloses an industry oriented subject search method. Including the initialization and the establishment of the initial to climb from the queue, respectively, judging whether to reach the crawler crawling time and the crawling queue is empty, the Shark Search Advanced algorithm correlation value calculation between the web pages, using PageRank Advanced algorithm connection value and web page ranking score calculation, judging whether to reach the crawler again crawling time interval. The accuracy and reliability of the invention can improve search results effectively, so as to obtain efficient retrieval results of high accuracy, high coverage, in response to user search engine can ensure high efficiency, high accuracy and high coverage for specific industry search needs.
【技术实现步骤摘要】
面向行业的主题搜索方法
本专利技术属于信息检索
,尤其涉及一种面向行业的主题搜索方法。
技术介绍
互联网已经成为人们最重要的信息传播和内容获取方式。以谷歌、百度、必应为代表的通用搜索引擎,为人们在互联网上快速、准确地获取信息提供了巨大的便利。然而,通用搜索引擎需要建立庞大的搜索数据库,搜索内容面向全网,在用户需要对特定行业进行垂直搜索时,其查准率相对偏低、资源耗费大。与此同时,以去哪儿、搜狗购物为代表的垂直搜索引擎,针对特殊领域专门建立自己的数据库,行业约束大、应用灵活性不足,查全率方面也不能尽如人意。通过对现有垂直搜索引擎技术的分析可以发现,针对给定主题的搜索算法,通常利用基于内容的搜索方式(如Fish-Search,Shark-Search等),计算网页与主题的相关度从而过滤掉与主题无关的网页;然后利用基于网络连接结构的搜索算法(如相关度排序算法、PageRank算法等),计算得到的网页可信度分值排序从而建立索引库。这种方式能够建立冗余度小的主题数据库,但若采用相关度大小排序,虽然检索结果与主题相关度很高,却降低了全局性,且不能保证内容的可靠性;若按照网 ...
【技术保护点】
一种面向行业的主题搜索方法,其特征在于,包括以下步骤:A、初始化爬行站点seedUrls、爬虫爬取时间t1、主题关键词向量vectortopic和爬虫再次爬取的时间间隔t2,通过爬行站点seedUrls建立初始待爬取队列Url_queue;B、判断是否到达爬虫爬取时间t1,若是则结束操作,若否则进一步判断步骤A中建立的待爬取队列Url_queue是否为空;若待爬取队列Url_queue为空则结束操作,若待爬取队列Url_queue不为空则进行下一步骤;C、采用Shark‑Search‑Advanced算法计算网页与主题的相关度值potential_score;D、采用Pag ...
【技术特征摘要】
1.一种面向行业的主题搜索方法,其特征在于,包括以下步骤:A、初始化爬行站点seedUrls、爬虫爬取时间t1、主题关键词向量vectortopic和爬虫再次爬取的时间间隔t2,通过爬行站点seedUrls建立初始待爬取队列Url_queue;B、判断是否到达爬虫爬取时间t1,若是则结束操作,若否则进一步判断步骤A中建立的待爬取队列Url_queue是否为空;若待爬取队列Url_queue为空则结束操作,若待爬取队列Url_queue不为空则进行下一步骤;C、采用Shark-Search-Advanced算法计算网页与主题的相关度值potential_score;D、采用PageRank-Advanced算法计算网页的连接值PR和网页排序分值rank;E、判断是否到达爬虫再次爬取的时间间隔t2,若是则返回步骤C,若否则重复步骤E。2.如权利要求1所述的面向行业的主题搜索方法,其特征在于,所述步骤C采用Shark-Search-Advanced算法计算网页与主题的相关度值potential_score具体包括以下分步骤:C1、初始化待爬取队列Url_queue中各网页的深度depth和相关度值potential_score;C2、从待爬取队列Url_queue队首弹出一个网页并将其设定为current_node;C3、判断步骤C2中的current_node对应的深度depth是否大于0,若是则进行下一步骤,若否则返回步骤C2;C4、采用Shark-Search算法计算步骤C2中的current_node与主题的相关度值potential_score。C5、采用Shark-Search算法计算步骤C2中的current_node网页内容与主题的相关度值simcurr,并选取当前网页的前N个子网页;C6、根据当前所有网页构建网络图,采用PageRank算法计算每一个网页的PR值;C7、采用Shark-Search算法计算子网页的simi值和深度depth;C8、计算每个网页的联合分值scorei,再根据每个网页的联合分值scorei计算当前已爬取网页的平均分值及网页相关性判定系数δ;C9、判断每个网页的联合分值scorei是否大于网页相关性判定系数δ;若是则将该网页加入待爬取队列Url_queue队尾,若否则将该...
【专利技术属性】
技术研发人员:刘道桂,韦云凯,刘强,李源颢,蒲勇全,陈怡瑾,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。