自动收集网络信息的系统及其方法技术方案

技术编号:2828902 阅读:196 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自动收集网络信息的系统及其方法,该方法是分类搜寻网站至与各个兴趣及爱好对应的类别中,并分析使用者储存的档案内容或链接的网页内容以产生对应该使用者的兴趣及爱好的关键字词,在判断关键字词对应的类别后,使用关键字词对应的类别包含的搜寻网站搜寻与关键字词相关的链接,最后下载搜寻出的链接的网页。

【技术实现步骤摘要】

本专利技术涉及一种,特别是指一种自动分 析所得的使用者的兴趣及爱好,并以分析的结果收集网络信息的系统与方法。背聚技术随着网络的兴起,有越来越多的数据以网页的方式被发布在网络上,然而, 即使有那么多的数据被发布到了网络上,其它的使用者在没有网址的情况之 下,其它的使用者一样无法得到他们所需要的数据,因此,产生了只需要输入 关键字词便可以搜寻出相关网页的网址的搜寻网站,如此使用者便可以透过搜 寻所得的网址下载网页获得需要的数据。以往数据都是由使用者手动收集的,虽然使用者手动可以收集到符合需要 的资料,但也因为是手动收集,因此收集到的数据量就比较少,并且使用者需 要特别使用额外的许多的时间进行收集。为了减少使用者收集数据的时间,开 始有收集数据的程序被使用,收集数据的程序通常是由使用者输入关键字词 后,以使用者输入的关键字词向特定的搜寻网站发出请求,使得搜寻网站搜寻 出与关键字词相关的链接,收集数据的程序在取得链接后,会下载链接对应的 网页以完成数据的收集。综上分析,由于使用收集数据的程序需要使用者自行输入关键字词,因此 在使用者在希望收集目前尚未收集的数据时,必须要设定新的关键字词词,稍 嫌麻烦,另外,由于目前收集数据的程序使用特定的搜寻网站进行搜寻,因此 收集来的数据会随着搜寻网站的好坏而有不同程度的相关性,在收集来的数据 量大的情况下,使用者会对于不相关的数据产生困扰。
技术实现思路
本专利技术所要解决的技术问题在于提供一种自动收集网络信息的系统及其 方法,通过分析使用者储存的档案的内容或链接对应的网页的内容来产生对应 使用者的兴趣及爱好的关键字词,并使用与使用者的兴趣及爱好相关的搜寻网 站搜寻与关键字词相关的链接,如此便可以收集到与使用者的兴趣及爱好关联 度高的数据,藉以解决目前使用收集数据的程序收集数据的问题。为达上述目的,本专利技术可以藉由系统与方法两方面达成,本专利技术所提供的 系统,包括有储存模块、分类模块、分析模块、搜寻模块、下载模块。本专利技术所揭露的方法,包括有下列步骤储存至少一搜寻网站;分类搜寻 网站至各个兴趣及爱好对应的类别中;分析使用者储存的至少一数据以产生对 应使用者的兴趣及爱好的至少一关键字词;判断关键字词对应的类别;自关键 字词对应的类别所包含的搜寻网站中搜寻与关键字词相关的至少一链接;下载 链接对应的网页。有关本专利技术的详细特征与实作,兹配合附图在实施方式中详细说明如下, 其内容足以使任何熟悉相关技术的人了解本专利技术的
技术实现思路
并据以实施,且根 据本说明书所揭露的内容及图式,任何熟悉相关技术的人可轻易地理解本专利技术 相关的目的及优点。附图说明图1为本专利技术自动收集网络信息的系统架构图; 图2为本专利技术自动收集网络信息的方法流程图。 其中,附图标记为100 电子装置 110 储存模块 120 分类模块 130 分析模块 140 搜寻模块 150 下载模块 190 检测模块 步骤210 储存并分类搜寻网站步骤220 产生对应使用者兴趣及爱好的关键字词 步骤230 分类关键字词 步骤240 是否进行搜寻步骤250 自关键字词对应的分类所包含的搜寻网站搜寻相关链接 步骤260 下载链接对应的网页具体实施例方式以下先以图1本专利技术自动收集网络信息的系统架构图来说明本专利技术的系 统运作。如图1所示,本专利技术的系统含有分类模块120、分析模块130、搜寻 模块140、下载模块150。其中储存模块110负责储存至少一个搜寻网站;分 类模块120负责将储存在储存模块中的搜寻网站分类至各种兴趣及爱好所对 应的类别中;分析模块130负责由使用者储存的至少一数据中分析出该使用者 的兴趣及爱好,以产生相对应的至少一关键字词,其中使用者储存的数据包含 档案或链接,并判断其产生出的关键字词对应的兴趣及爱好对应的分类;搜寻 模块140负责自关键字词对应的类别所包含的搜寻网站中搜寻与使用这的兴 趣及爱好相对应的关键字词相关的至少一链接;下载模块150负责下载该链接 对应的一网页。接着以一个实施例来解说本专利技术的运作系统与方法,并请参照图2本专利技术 自动收集网络信息的方法流程图。本专利技术在收集数据之前,必须要先对搜寻网站依据各种不同的兴趣及喜好 进行分类,其中,要被分类的搜寻网站可以是预先储存于本专利技术的储存模块 110中,也可以由使用者自行输入而存入储存模块110中。若储存模块110中储存有第一搜寻网站与第二搜寻网站,则本专利技术的分类 模块120会将第一搜寻网站与第二搜寻网站分类至各种不同的兴趣及爱好所 对应的类别中(步骤210),分类的方法例如以特定的几个字词测试第一搜寻 网站与第二搜寻网站所搜寻到的结果来进行分类,但本专利技术提供的分类搜寻网 站的方法并不以此为限。在本实施例中,分类模块120将第一搜寻网站分类至 程序设计分类,而将第二搜寻网站分类为游戏分类,其中,上述的程序设计分 类及游戏分类便是不同的兴趣及爱好所产生的不同分类,由于兴趣及爱好可以 分出的类别相当多,且有何种类别可以被分类出来并非本专利技术的重点,故不多 加描述。在使用者使用本专利技术来收集数据之后,本专利技术的分析模块130会对使用者 已储存的数据进行分析,以得出对应使用者的兴趣及爱好的关键字词(步骤220),其中使用者已储存的数据包含特定目录的档案、或是特定目录所储存 的链接,分析模块130会读取档案的内容或是链接所对应的网页中的内容进行 分析,分析的方法例如使用现有的文章分类器等,再分析之后便可以得到至少 一个关键字词,但本专利技术并不以使用文章分类器进行分析为限。接着分析模块130会进一步建立分析所得的关键字词与各个兴趣与爱好 间的对应关系,也就是判断关键字词对应的类别(步骤230),例如分析模块 130分析使用者储存的游戏攻略档或由使用者的「我的最爱」目录中的大部份 储存的链接都对应到各个游戏讨论网站,因此分析模块130可以得出关键字词 且其对应的类别为「游戏」。由于分析模块130分析所得的关键字词是由使用 者的兴趣及爱好相关的文章中分析得出,因此关键字词便会与使用者的兴趣及 爱好有着相当程度的吻合,也就是说,关键字词对应的类别即为使用者的兴趣 及爱好对应的类别。在分析并分类关键字词的步骤中(步骤220、步骤230),若使用者的兴 趣及喜好广泛,则会分析所得的关键字词会散布在各个不同的类别中。若使用 者仅仅加入了一两个最近才开始有兴趣的链接至「我的最爱」目录中,则分析 模块130也会因为少数的内容与其它内容的相异程度非常高,进而产生出相对应的关键字词。在分析并分类关键字词(步骤220、步骤230)之后,本专利技术的搜寻模块 140便会使用关键字词自与关键字词的类别「游戏」相对应的第二搜寻网站中 进行搜寻(步骤250),第二搜寻网站以关键字词搜寻后,会产生与关键字词 相关的链接,本专利技术的下载模块150便会下载与关键字词相关的链接对应的网 页的内容(步骤260),达成自动收集使用者兴趣及爱好的数据的目的。为了避免本专利技术会在进行搜寻与下载数据时会占用大量的硬件资源或网 络频宽,因此本专利技术更包含有检测模块190,负责检测执行有本专利技术的电子装 置100的状态,当电子装置处于特定的状态时,才致能搜寻模块140搜寻与关 键字词相关的链接(步骤240),其中特定的状态例如没有资料被输入时、或 本文档来自技高网
...

【技术保护点】
一种自动收集网络信息的方法,应用于一电子装置上,其特征在于,该方法包含下列步骤:储存至少一搜寻网站;分类该搜寻网站至各个兴趣及爱好对应的一类别中;分析一使用者储存的至少一数据以产生对应该使用者的兴趣及爱好的至少一关键字词;判断该关键字词对应该类别;自该类别包含的该搜寻网站中搜寻与该关键字词相关的至少一链接;及下载该链接对应的一网页。

【技术特征摘要】
1. 一种自动收集网络信息的方法,应用于一电子装置上,其特征在于,该方法包含下列步骤储存至少一搜寻网站;分类该搜寻网站至各个兴趣及爱好对应的一类别中;分析一使用者储存的至少一数据以产生对应该使用者的兴趣及爱好的至少一关键字词;判断该关键字词对应该类别;自该类别包含的该搜寻网站中搜寻与该关键字词相关的至少一链接;及下载该链接对应的一网页。2. 根据权利要求1所述的自动收集网络信息的方法,其特征在于,该搜寻 该链接的步骤还包含判断当未有数据被输入时,搜寻该链接的步骤。3. 根据权利要求1所述的自动收集网络信息的方法,其特征在于,该搜寻 该链接的步骤还包含判断当该电子装置的一处理器使用率低于一特定值时,搜 寻该链接的步骤。4. 根据权利要求1所述的自动收集网络信息的方法,其特征在于,该下载 该网页的步骤还包含判断该网页的更新时间晚于前次下载该网页的时间时,下 载该网页。5. —种自动收集网络信息的系统,应用于一电子装置上,其特征在于,该 系统包含一储存模块,用以储存至少一搜寻网站;一分类模块,用以...

【专利技术属性】
技术研发人员:邱全成叶建华
申请(专利权)人:英业达股份有限公司
类型:发明
国别省市:71[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1