站点信息获取方法及装置制造方法及图纸

技术编号:12929826 阅读:86 留言:0更新日期:2016-02-29 01:01
本发明专利技术实施例公开了一种站点信息获取方法,所述方法包括:以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果;根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息;将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并根据所述数据记录生成站点信息获取结果。本发明专利技术实施例还公开了一种信息挖掘装置。本发明专利技术实施例能够自动地查找出符合要求的站点信息,不需要耗费太多的人力。

【技术实现步骤摘要】
【专利摘要】本专利技术实施例公开了一种站点信息获取方法,所述方法包括:以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果;根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息;将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并根据所述数据记录生成站点信息获取结果。本专利技术实施例还公开了一种信息挖掘装置。本专利技术实施例能够自动地查找出符合要求的站点信息,不需要耗费太多的人力。【专利说明】站点信息获取方法及装置
】 本专利技术涉及计算机
,特别涉及一种站点信息获取方法及装置。 【
技术介绍
】 为了查找出具有众多小说的网站,传统的技术方案有以下两种: 一、在Hub (枢纽)页面(例如,http://www. haol23. com/)中通过人工查找的方式 查找上述具有众多小说的站点; 二、在搜索引擎页面(例如,http://www. baidu. com/)上通过人工搜索的方式获取 上述具有众多小说的站点。 在实践中,专利技术人发现现有技术至少存在以下问题: 针对上述第一点,Hub页面中包含的小说数量较少,无法找到具有众多小说的站 占. 针对上述第二点,通过人工搜索的方式耗费的人力成本太高。 综上,传统的技术方案一般都需要人工查找才能获取符合要求的信息,无法实现 自动地查找出符合要求的信息。 故,有必要提出一种新的技术方案,以解决上述技术问题。 【
技术实现思路
】 本专利技术的目的在于提供一种站点信息获取方法和装置,其能自动地查找出符合要 求的站点信息,不需要耗费太多的人力。 为解决上述技术问题,本专利技术实施例的技术方案如下: 一种站点信息获取方法,所述方法包括:以基础数据集合中的元素的关键词进行 搜索,并获取相应的搜索结果;根据所述搜索结果中的页面链接信息获取相应站点的页面 中的预定部分信息;将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相 应的数据记录,并根据所述数据记录生成站点信息获取结果。 一种站点信息获取装置,所述装置包括:搜索模块,用于以基础数据集合中的元素 的关键词进行搜索,并获取相应的搜索结果;获取模块,用于根据所述搜索结果中的页面链 接信息获取相应站点的页面中的预定部分信息;整理模块,用于将与所述页面链接信息对 应的站点标识和所述预定部分信息整理成相应的数据记录,并用于根据所述数据记录生成 站点信息获取结果。 相对现有技术,本专利技术实施例由于利用了搜索模块、抓取模块和整理模块的组合 来挖掘互联网上的站点信息,因此可以实现自动地挖掘互联网上的站点信息,操作者只需 提供初始数据(例如,几部小说的信息)即可挖掘出符合要求(具有众多小说)的站点信息), 在挖掘该站点信息的过程中不需要耗费太多的人力。 为让本专利技术的上述内容能更明显易懂,下文特举优选实施例,并配合所附图式,作 详细说明如下: 【【专利附图】【附图说明】】 图1为本专利技术实施例的站点信息获取方法和装置的运行环境示意图; 图2是本专利技术的站点信息获取装置的第一实施例的框图; 图3是本专利技术的站点信息获取装置的第三实施例的框图; 图4是本专利技术的站点信息获取装置的第四实施例的框图; 图5是本专利技术的站点信息获取装置的第五实施例的框图; 图6是本专利技术的站点信息获取装置的第六实施例的框图; 图7是本专利技术的站点信息获取方法的第一实施例的流程图; 图8是本专利技术的站点信息获取方法的第二实施例的流程图; 图9是本专利技术的站点信息获取方法的第三实施例的流程图; 图10是本专利技术的站点信息获取方法的第四实施例的流程图; 图11是本专利技术的站点信息获取方法的第五实施例的流程图; 图12是本专利技术的站点信息获取方法的第六实施例的流程图。 【【具体实施方式】】 以下各实施例的说明是参考附加的图式,用以例示本专利技术可用以实施的特定实施 例。 在以下的说明中,本专利技术的具体实施例将参考由一部或多部计算机/移动设备所 执行的作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其 中有数次提到为由计算机/移动设备执行,包括了由代表了以一结构化型式中的数据的电 子信号的计算机/移动设备处理单元所操纵。此操纵转换该数据或将其维持在该计算机/ 移动设备的内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来 改变该计算机/移动设备的运作。该数据所维持的数据结构为该内存的实体位置,其具有 由该数据格式所定义的特定特性。但是,本专利技术原理以上述文字来说明,其并不代表为一种 限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。 本专利技术的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行作 业。所熟知适合用于本专利技术实施例的运算系统、环境与组态的范例可包括(但不限于)平板 电脑、移动电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、 及分布式运算环境,其中包括了任何的上述系统或装置。 如在此处使用的术语"模块"或"单元"可称之为在该运算系统上执行的软件对象 或例式。在此处所述的不同组件、模块、引擎及服务可实施为在该运算系统上执行的对象或 处理。而在此处所述的系统及方法优选地是实施成软件,在软件及硬件或硬件上的实施亦 有可能并进行考虑。 参考图1,本专利技术实施例的站点信息获取方法及装置可以运行于计算机/移动设 备中,该计算机可以是个人电脑、服务器等等中的一种或者一种以上组合而成的系统,该移 动设备可以是平板电脑、移动电话、PDA (Personal Digital Assistant,个人数字助理)、笔 记本电脑等等中的一种或者一种以上组合而成的系统。该计算机/移动设备中可以包括处 理器101、存储器102、传感器105、开关器件104、电源103、时钟信号生成器106、输入输出 设备107等中的任意组合100。上述计算机/移动设备中的处理器101、存储器102、传感器 105、开关器件104、电源103、时钟信号生成器106、输入输出设备107等中的任意组合100 用于实现本专利技术实施例的站点信息获取方法中的步骤及站点信息获取装置中的功能。 在本实施例中,所述站点信息获取装置所对应的软件程序指令存储于存储器102 中,并被处理器101执行,以实现操作系统中的进程管理。 另外,上述存储器102计算机可读取的存储介质,该存储介质可为磁碟、光盘、只 读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM) 等。 参考图2,图2是本专利技术的站点信息获取装置100的第一实施例的框图。 本实施例的站点信息获取装置100包括搜索模块201、获取模块202和整理模块 203。 其中,所述搜索模块201用于以基础数据集合中的元素的关键词进行搜索,并用 于获取相应的搜索结果。所述搜索模块201可以在数据库中搜索所述关键词,也可以在互 联网中搜索所述关键词。在本实施例中,所述基础数据集合包括文学作品集合、美术作品集 合、音乐作品集合、影视作品集合中任意一者或一者以上的组合。所述基础数据集合是至少 包括有N1个第一类型的作品和N2个第二类型的作品的集合,其中,Nl、N2是正整数,即, 所述基础数据集合是包括有本文档来自技高网...

【技术保护点】
一种站点信息获取方法,其特征在于,所述方法包括:以基础数据集合中的元素的关键词进行搜索,并获取相应的搜索结果;根据所述搜索结果中的页面链接信息获取相应站点的页面中的预定部分信息;将与所述页面链接信息对应的站点标识和所述预定部分信息整理成相应的数据记录,并根据所述数据记录生成站点信息获取结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:高健牛小彬章云龙
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1