基于Word2Vec的主题爬虫系统和方法技术方案

技术编号：19215723 阅读：26 留言：0更新日期：2018-10-20 06:43

基于Word2Vec的主题爬虫系统和方法。本发明专利技术公开了一种基于Word2Vec的主题爬虫系统抓取信息的方法，具体步骤包括：步骤1：通过种子配置模块上传种子链接，然后利用关键词模块进行关键词的交互与筛选，之后启动爬虫；步骤2：通过下载模块下载待抓取的URL链接，下载后利用解析模块对网页内容进行解析，包括提取网页正文，全部链接，全部代码，网页类型；步骤3：根据评分模块，利用解析的内容进行页面的主题相关度计算，并给出各个子链接的相关性评分预测。本发明专利技术让关键词集合之间通过Word2Vec训练出的向量进行相关度比较，有利于主题爬虫在爬行过程中更加精准地获取主题相关页面，进而保持较高的爬行准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于Word2Vec的主题爬虫系统和方法
本专利技术涉及互联网
，更具体的说是涉及基于Word2Vec的主题爬虫系统和方法。
技术介绍
近年来，互联网在全球范围快速发展，截至2017年6月，全球网民总数达38.9亿，普及率为51.7％。中国网民规模达7.51亿，互联网普及率为54.3％，中国网站总数达506万个，“.CN”下网站为270万个。互联网的快速发展和Web页面的爆炸式增长一方面让信息能够更加迅速便捷的传播，另一方面也造成了信息过载现象——信息的过于丰富远远超过了个人能够处理的范围，大量无关、冗余的数据直接影响了用户查找目标数据的体验。如何让用户从海量Web页面中迅速获取目标数据正变的愈发重要。在互联网发展初期，以Yahoo为代表的分类目录网站通过人工梳理的方法，将Web上众多优秀网站归类到各个目录中，用户可以通过层层点击的方法查找相关信息。这种方式的优点是能够为用户访问互联网起到导航作用，满足一部分用户宽泛的检索需求，向用户提供数量有限的相关信息。但是对于检索要求更高的用户来说，分类目录网站能够提供的有效检索信息少得可怜，而且由于采用人工分类，分类标准差异性很大，这对用户的检索体验也有很大影响。为了追求更好的检索体验，提高检索质量，通用搜索引擎应运而生。通用搜索引擎利用爬虫程序对互联网网站进行检索，当发现未处理过的网页之后，爬虫系统会尝试提取网页信息并存储到数据库中。用户通过提交查询词进行检索，搜索引擎会将数据库中的网页信息和用户提交的查询词进行比对，将相关度高的信息反馈给用户。通用搜索引擎检索的全面性，准确性和实时性相比于分类目录网站提高...

【技术保护点】
1.基于Word2Vec的主题爬虫系统，其特征在于，包括：种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块；其中，所述种子配置模块依靠人工选取种子链接，将所述种子链接上传至服务器；所述关键词模块在浏览器中输入用于描述主题的关键词，然后进行近义词深度等级选择，进行关键词扩展；所述下载模块，进行网页下载，并设置超时时间，响应时间大于所述超时间放弃所述网页的下载，然后将下载的所述网页封装成Html对象；所述解析模块，从封装的网页提取信息，并将所述信息赋值给所述Html对象的各个属性；所述评分模块，用于一是对网页与主题的相关性给予评分以便筛选网页，二是对链接进行预测评分以便排序；网页被判断为主题相关后会进入所述存储模块，若网页被判断为主题无关则直接丢弃；而链接在评分之后会作为待抓取URL等待下一轮的下载；所述存储模块，有选择的存储网页的ID、链接、标题和正文。

【技术特征摘要】
1.基于Word2Vec的主题爬虫系统，其特征在于，包括：种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块；其中，所述种子配置模块依靠人工选取种子链接，将所述种子链接上传至服务器；所述关键词模块在浏览器中输入用于描述主题的关键词，然后进行近义词深度等级选择，进行关键词扩展；所述下载模块，进行网页下载，并设置超时时间，响应时间大于所述超时间放弃所述网页的下载，然后将下载的所述网页封装成Html对象；所述解析模块，从封装的网页提取信息，并将所述信息赋值给所述Html对象的各个属性；所述评分模块，用于一是对网页与主题的相关性给予评分以便筛选网页，二是对链接进行预测评分以便排序；网页被判断为主题相关后会进入所述存储模块，若网页被判断为主题无关则直接丢弃；而链接在评分之后会作为待抓取URL等待下一轮的下载；所述存储模块，有选择的存储网页的ID、链接、标题和正文。2.根据权利要求1所述的基于Word2Vec的主题爬虫系统，其特征在于，所述种子配置模块按行保存种子链接，利用PHP语言，通过POST方式将种子文件上传至服务器；上传后所述服务器判断文件类型，成功上传种子文件继续操作。3.根据权利要求2所述的基于Word2Vec的主题爬虫系统，其特征在于，所述种子文件上传成功后，新的所述种子文件替代所述服务器上原有的种子文件。4.根据权利要求1所述的基于Word2Vec的主题爬虫系统，其特征在于，所述关键词模块利用脚本语言获取用户输入的关键词，交给PHP程序后通过SOCKET通信发送给处理程序进行处理，处理程序作为服务端始终处于监听状态，收到前台发送的关键词后，利用Word2Ve...

【专利技术属性】
技术研发人员：彭涛，包铁，宋健，赫枫龄，周世奇，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林,22

全部详细技术资料下载我是这个专利的主人