一种基于知识图谱的爬取种子列表更新方法及装置制造方法及图纸

技术编号：15878692 阅读：86 留言：0更新日期：2017-07-25 16:40

本发明专利技术公开了一种基于知识图谱的爬取种子列表更新方法及装置，该方法从初始的爬取种子列表中选取一个种子，爬取该种子的网页，从该种子的网页中提取出所有链接的URL作为新种子，爬取新种子的网页，并基于知识图谱计算出新种子对应的网页内容与搜索主题的相似度，然后用新种子的相似度与设定的相似度阈值进行比对，如果新种子的相似度大于设定的相似度阈值，则将该新种子加入爬取种子列表中，否则直接丢弃该新种子。本发明专利技术的装置包括种子选取模块、新种子提取模块、相似度计算模块和相似度比对模块。本发明专利技术能有效过滤与搜索主题相似度不高的网页，逐步调整网页爬取的方向，提高了爬取网页的准确度以及爬取网页的效率。

Method and device for updating list of crawling seeds based on Knowledge Map

The invention discloses a knowledge map crawling seed list updating method and device based on the method from the initial climb from the seed list to select a seed, the seed of web crawling, extract all the links of the URL as a new seed from the seed pages, crawling new seeds \, based on the knowledge map and calculate the similarity of web contents and search topics corresponding to the new seeds, and then use the similarity of new seeds and compare the similarity threshold, if the similarity threshold similarity is greater than the set of new seeds, the new sub join crawling seed list, otherwise discard the new seeds. The device of the invention comprises a seed selection module, a new seed extraction module, a similarity calculation module and a similarity comparison module. The invention can effectively filter and search the webpage with similar similarity of the subject, and gradually adjust the direction of the crawling of the web page, thereby improving the accuracy of crawling pages and the efficiency of crawling web pages.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱的爬取种子列表更新方法及装置
本专利技术属于数据采集领域，尤其涉及一种基于知识图谱的爬取种子列表更新方法及装置。
技术介绍
网络爬虫是一种自动提取网页的程序，它协助搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。传统网络爬虫从一个或若干初始URL开始，爬取初始URL的网页并获取初始URL的网页上链接的URL，在爬取网页的过程中，不断从当前网页上获取新的URL放入待爬取队列,直到满足系统的一定停止条件。为满足海量数据爬取的需求，网络爬虫系统一般采用大规模分布式架构。在这种架构中，如何过滤与搜索主题无关的网页成为提高网络爬虫系统爬取方向精确性和爬取效率的关键。传统的分布式网络爬虫系统通常采用简单的网页去重机制。这种机制虽然能避免爬取重复的网页，但没有考虑爬取的网页内容与搜索主题的相关性，因此无法做到精确、高效的网页爬取，从而影响了分布式网络爬虫系统爬取网页的性能以及爬取网页的质量。
技术实现思路
本专利技术的目的是提供一种基于知识图谱的爬取种子列表更新方法及装置，通过在网页爬取的过程中，不断计算爬取网页内容与搜索主题的相似度，并过滤掉与搜索主题相似度...

【技术保护点】
一种基于知识图谱的爬取种子列表更新方法，用于爬虫系统在爬取网页的过程中获取爬取种子，其特征在于，所述基于知识图谱的爬取种子列表更新方法，包括：从初始的爬取种子列表中选取一个种子，所述初始的爬取种子列表中的种子对应的网页内容与搜索主题的相似度大于设定的相似度阈值；爬取该种子的网页，从该种子的网页中提取出所有链接的URL作为新种子；爬取新种子的网页，基于知识图谱计算出所述新种子对应的网页内容与搜索主题的相似度；用所述新种子的相似度与设定的相似度阈值进行比对，如果所述新种子的相似度大于设定的相似度阈值，则将该新种子加入爬取种子列表中，否则直接丢弃该新种子。

【技术特征摘要】
1.一种基于知识图谱的爬取种子列表更新方法，用于爬虫系统在爬取网页的过程中获取爬取种子，其特征在于，所述基于知识图谱的爬取种子列表更新方法，包括：从初始的爬取种子列表中选取一个种子，所述初始的爬取种子列表中的种子对应的网页内容与搜索主题的相似度大于设定的相似度阈值；爬取该种子的网页，从该种子的网页中提取出所有链接的URL作为新种子；爬取新种子的网页，基于知识图谱计算出所述新种子对应的网页内容与搜索主题的相似度；用所述新种子的相似度与设定的相似度阈值进行比对，如果所述新种子的相似度大于设定的相似度阈值，则将该新种子加入爬取种子列表中，否则直接丢弃该新种子。2.根据权利要求1所述的基于知识图谱的爬取种子列表更新方法，其特征在于，所述基于知识图谱计算出新种子对应的网页内容与搜索主题的相似度，包括：将搜索主题输入到知识图谱中，查找到知识图谱中该搜索主题对应的实体K；利用知识图谱中的搜索工具，在知识图谱中查找到与实体K相关的n个实体K1,K2,...,Kn；从知识图谱中获取实体K1,K2,...,Kn到实体K的距离d1,d2,...,dn，即获取实体K1,K2,...,Kn的权重d1,d2,...,dn；统计新种子对应的网页内容中各实体K1,K2,...,Kn出现的次数l1,l2,...,ln，并结合各实体K1,K2,...,Kn的权重d1,d2,...,dn，通过如下公式计算出新种子对应的网页内容与搜索主题的相似度：其中，di为实体Ki的权重，li为实体Ki在新种子的网页内容中出现的次数，L为各实体K1,K2,...,Kn在新种子对应的网页内容中出现次数的总和，S为新种子对应的网页内容与搜索主题的相似度。3.根据权利要求1所述的基于知识图谱的爬取种子列表更新方法，其特征在于，所述基于知识图谱计算出新种子对应的网页内容与搜索主题的相似度，包括：将搜索主题输入到知识图谱中，查找到知识图谱中该搜索主题对应的实体K；利用知识图谱中的搜索工具，在知识图谱中查找到与实体K相关的n个实体K1,K2,...,Kn；从知识图谱中获取实体K1,K2,...,Kn到实体K的距离d1,d2,...,dn，即获取实体K1,K2,...,Kn的权重d1,d2,...,dn；查询新种子对应的网页内容中是否存在各实体K1,K2,...,Kn，如果存在某个实体Ki，则保持该实体的权重di不变，如果不存在某个实体Ki，则将该实体的权重di置为0，然后通过如下公式计算出新种子对应的网页内容与搜索主题的相似度：其中，di为实体Ki的权重，n为知识图谱中查找到的与实体K相关的实体的数量，S为新种子对应的网页内容与搜索主题的相似度。4.根据权利要求2或3所述的基于知识图谱的爬取种子列表更新方法，其特征在于，所述基于知识图谱计算出新种子对应的网页内容与搜索主题的相似度，还包括：根据所述新种子的父种子的相似度，对新种子对应的网页内容与搜索主题的相似度进行更新，更新公式为：更新后新种子的相似度＝父种子的相似度*新种子的相似度S/设定的相似度阈值。5.根据权利要求1所述的基于知识图谱的爬取种子列表更新方法，其特征在于，所述将新种子加入爬取种子列表中，包括：在将新的种子加入爬取种子列表中时，会按照新种子对应的网页内容与搜索主题的相似度由高到低的顺序，在爬取种子列表中进行排序。6.一种基于知识图谱的爬取种子列表更新装置，用于爬虫系统在爬取网页的过程中获取爬取种...

【专利技术属性】
技术研发人员：赵明，沈颂，林友勇，刘钊岐，张芬，
申请(专利权)人：中电海康集团有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人