一种基于网络爬虫的文本信息爬取方法技术

技术编号：19778465 阅读：62 留言：0更新日期：2018-12-15 11:22

本发明专利技术提供了一种基于网络爬虫的文本信息爬取方法，通过服务器获取网络爬虫任务的配置文件和第一文本；所述服务器根据所述配置文件开启网络URL信息爬取，并将爬取的信息整合为待处理信息；所述服务器对所述待处理信息进行查重及删除重复内容处理后，得到第二文本；所述服务器计算第一文本与第二文本之间的相似度，若相似度超出预设阈值，则输出第二文本。本发明专利技术基于网络爬虫进行信息获取，并针对第一文本和第二文本的相似度判定本次爬取的信息是否符合要求，所以提高了信息爬取的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网络爬虫的文本信息爬取方法
本专利技术数据处理领域，尤其涉及一种基于网络爬虫的文本信息爬取方法。
技术介绍
现代社会是信息爆炸的社会，互联网上存在着海量的数据。现有技术中，用户可能根据一个文本的内容从网络的海量数据中进行比较的需求，例如出版社收到一份投稿之后，需要比对一下该稿件是否为抄袭的稿件，比如从大量信息中获取所需要信息。现有技术中的比较方法一般是由人工将稿件阅读完后总结出该稿件的核心思想，然后归纳出关键词，使用这些关键词在互联网上进行爬取，但是，如果稿件中的信息量较大，阅读需要花费大量的时间，影响了工作效率。因此，现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处，本专利技术的目的在于为用户提供一种基于网络爬虫的文本信息爬取方法，克服现有技术中从网络的海量数据中获取信息效率低的缺陷。本专利技术公开了一种基于网络爬虫的文本信息爬取方法，其中，所述方法包括：服务器获取网络爬虫任务的配置文件和第一文本；所述配置文件含有的任务为：获取网络中与第一文本所含内容相似度超出预定第一阈值的信息；所述服务器根据所述配置文件开启网络URL信息爬取，并将爬取的信息整合为待处理信息；所述服务器对所述待处理信息进行查重及删除重复内容处理后，得到第二文本；所述服务器计算第一文本与第二文本之间的相似度，若相似度低于第二预设阈值，则重新根据所述配置文件开启网络URL信息爬取，若相似度超出第二预设阈值，则输出第二文本。可选的，所述服务器计算第一文本与第二文本之间的相似度的步骤包括:所述服务器对所述第一文本进行拆解得到若干候选句子；所述服务器确定各候选句子的重...

【技术保护点】
1.一种基于网络爬虫的文本信息爬取方法，其特征在于，所述方法包括：服务器获取网络爬虫任务的配置文件和第一文本；所述配置文件含有的任务为：获取网络中与第一文本所含内容相似度超出预定第一阈值的信息；所述服务器根据所述配置文件开启网络URL信息爬取，并将爬取的信息整合为待处理信息；所述服务器对所述待处理信息进行查重及删除重复内容处理后，得到第二文本；所述服务器计算第一文本与第二文本之间的相似度，若相似度低于第二预设阈值，则重新根据所述配置文件开启网络URL信息爬取，若相似度超出第二预设阈值，则输出第二文本。

【技术特征摘要】
1.一种基于网络爬虫的文本信息爬取方法，其特征在于，所述方法包括：服务器获取网络爬虫任务的配置文件和第一文本；所述配置文件含有的任务为：获取网络中与第一文本所含内容相似度超出预定第一阈值的信息；所述服务器根据所述配置文件开启网络URL信息爬取，并将爬取的信息整合为待处理信息；所述服务器对所述待处理信息进行查重及删除重复内容处理后，得到第二文本；所述服务器计算第一文本与第二文本之间的相似度，若相似度低于第二预设阈值，则重新根据所述配置文件开启网络URL信息爬取，若相似度超出第二预设阈值，则输出第二文本。2.根据权利要求1所述的基于网络爬虫的文本信息爬取方法，其特征在于，所述服务器计算第一文本与第二文本之间的相似度的步骤包括:所述服务器对所述第一文本进行拆解得到若干候选句子；所述服务器确定各候选句子的重要性分数；所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息；所述服务器将所述第一文本的关键信息与第二文本的关键信息进行对比得出相似度。3.根据权利要求2所述的基于网络爬虫的文本信息爬取方法，其特征在于，所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中，对第一文本进行拆分的方法为：按照标点符号进行拆解；其中，所述标点符号为分号、逗号、句号时，进行拆解，当标点符号为顿号、冒号、引号时，不进行拆解。4.根据权利要求3所述的基于网络爬虫的文本信息爬取方法，其特征在于，所述服务器确定各候选句子的重要性分数的步骤包括：判断所述候选句子中是否包含中文句子和/或网页链接地址；若仅仅含有中文句子，则将中文句子中各词组的权值之和作为所述候选句子的重要性分数；若仅仅含有网页链接地址，则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数；若同时含有中文句子和网页链接地址，则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页面元素的权值之和的加权平均值作为所述候选句子的重要性分数。5.根据权利要求4所述的基于网络爬虫的文本信息爬取方法，其特征在于，所述将中文句子中各词组的权值之和作为所述候选句子的重要性分数的步骤包括：按照语义分析的方式再将每个候选句子拆分为若干个词组...

【专利技术属性】
技术研发人员：向湘杰，
申请(专利权)人：东莞市华睿电子科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人