全球数据网站的分类全文搜寻系统技术方案

技术编号:2886038 阅读:221 留言:0更新日期:2012-04-11 18:40
一种全球数据网站的分类全文搜寻系统,包含一电脑,其内含有一存储器及一处理器,该存储器包括用于存储复数个全球数据网站的网页文字数据的全文数据档存储区;用于存储上述文字数据的关键字索引数据,对全文数据挡做全文检索的全文索引挡存储区;以及储存有与所有网页类别有关的类别数据的分类挡存储区,其中该电脑内的一查询程序,依据提供的关键字及类别查询全文索引档及分类挡,以找出有关网页的文字数据。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术系提供一种全球数据网站的搜寻系统,尤指一种全球数据网站的分类全文搜寻系统。随着全球数据网站的网页数目不断地成长,使用者无法藉由上网随意浏览的方式顺利地找到所需要的数据,因此使用者常需藉助搜寻系统来找寻数据。请参考附图说明图1。图1为习知搜寻系统10的功能方框图。搜寻系统10包含有一电脑(未显示),一全文数据档16,一全文索引档20,以及一查询程序24。该电脑包含有一存储器12用来储存程序及数据,以及一处理器14用来执行储存于存储器12内的程序。全文数据档16、全文索引档20、以及查询程序24均储存于存储器12内。全文数据档16内存有复数个全球数据网站的网页的文字数据18。全文索引档20内则存有全文数据档16的各个网页的文字数据18的关键字索引数据22,用来对全文数据档16的各个网页的文字数据18做全文检索。查询程序24可依据一使用者所提供的关键字来查询全文索引档20,以找出全文数据档16内所有具有该关键字的网页的文字数据18。请参考图2。图2为图1关键字索引数据22的示意图。全文索引档20的关键字索引数据22是根据全文数据档16的文字数据18建立的,而每一关键字索引数据22存有一关键字21以及关键字21在所有网页中的地址数据23。例如图2所示,关键字“龙”在所有网页中的地址数据为a1,a2,a3,…;关键字“龙卷风”在所有网页中的地址数据则为c1,c2,c3,…。当使用者输入一关键字时,查询程序24会依据该使用者所提供的关键字来查询全文索引档20,以找出对应于该关键字的关键字索引数据22,以得到该关键字在所有网页中的地址数据。最后,再利用全文数据档16将所有包含该关键字的网页的文字数据18传给使用者。由于习知搜寻系统10是利用关键字来进行网页搜寻的工作,因此会将所有包含该关键字的网页的文字数据传回,而且必须耗费许多传输时间。当使用者所欲搜寻的网页是属于某一特定类别,由于搜寻系统10会将所有包含该关键字的网页的文字数据全部传回,因此会造成所传回的网页中有一大部分并不符合使用者的类别需求,却已耗费使用者许多的搜寻时间及传输时间。例如使用者要搜寻有关“龙卷风”的电影,搜寻系统10会将所有包含“龙卷风”的网页的文字数据全部传回,其中会有许多有关龙卷风的气象原理、历史新闻…等不符合使用者需求的文字数据,而且使用者还必须在众多网页中寻找需要的网页,造成时间的浪费。因此本专利技术的主要目的在于提供一种全球数据网站的分类全文搜寻系统,使得使用者可以输入一关键字及类别,以找出所有符合该类别并具有该关键字的网页以解决上述的问题。本专利技术提供的一种分类全文搜寻系统,该分类全文搜索系统包含有一电脑,其包含有一存储器用来储存程序及数据以及一处理器用来执行储存于该存储器内的程序;上述存储器包括一全文数据档存储区,位于该存储器内,其内储存有复数个全球数据网站的网页的文字数据;一全文索引档存储区,位于该存储器内,其内储存有该全文数据档的各个网页中的文字数据的关键字索引数据,用来对该全文数据档的各个网页的文字数据做全文检索;一分类档存储区,位于该存储器体内,其内储存有与该全文数据档中所有网页的类别有关的类别数据;位于该电脑内的一查询程序,其可依据一使用者所提供的关键字以及类别来查询该全文索引档及分类档以找出该全文数据档内所有符合该类别并具有该关键字的网页的文字数据。为清楚地说明本专利技术的目的、特征,现结合实施例参考附图进行详细描述。附图简要说明图1为习知搜寻系统的功能方框图;图2为图1关键字索引数据的示意图;图3为本专利技术分类全文搜寻系统的功能方框图;图4为本专利技术另一实施例的分类全文搜寻系统。请参考图3。图3为本专利技术分类全文搜寻系统30的功能方框图。分类全文搜寻系统30包含有一电脑(未显示),一全文数据档36,一全文索引档40,一分类档44,以及一查询程序48。该电脑包含有一存储器32用来储存程序及数据,以及一处理器34用来执行储存于存储器32内的程序。全文数据档36、全文索引档40、分类档44、以及查询程序48均是储存于存储器32内。全文数据档36内存有复数个全球数据网站的网页的文字数据38。全文索引档40内存有全文数据档36的各个网页的文字数据38的关键字索引数据42,用来对全文数据档36的各个网页的文字数据38做全文检索。分类档44内则存有与全文数据档36中所有网页的类别有关的类别数据46。查询程序48可依据一使用者所提供的关键字以及类别来查询全文索引档40及分类档44,以找出全文数据档36内所有符合该类别并具有该关键字的网页的文字数据38。全文索引档40的关键字索引数据42是根据全文数据档36的文字数据38建立的,而每一关键字索引数据42存有一关键字以及该关键字在所有网页中的地址数据。分类档44的每一类别数据46包含有复数个类别54,而每一类别54包含有属于该类别的所有网页的网页数据50。其中每一网页数据50均包含有该网页的对照关系数据52。对照关系数据52是用来指出各个网页的文字数据38的关键字索引数据42在全文索引档40的位置。当使用者输入一关键字及类别条件时,查询程序48会先依据使用者所提供的类别来查询分类档44,以找出属于该类别的所有网页的网页数据50,再依据网页数据50的对照关系数据52来找出各个网页的文字数据38的关键字索引数据42在全文索引档40的位置。然后查询程序48会依据使用者所提供的关键字来查询全文索引档40中属于该类别的所有网页的关键字索引数据42,以找出属于该类别并具有该关键字的所有网页的文字数据。最后再利用全文数据档36将所有符合该类别及关键字条件的网页的文字数据38传给使用者。请参考图4。图4为本专利技术另一实施例的分类全文搜寻系统60。分类全文搜寻系统60与分类全文搜寻系统30的不同之处在于分类全文搜寻系统60的分类档62包含有全文索引档40的各个关键字索引数据42所对应的所有网页的类别数据64。当使用者输入一关键字及类别条件时,查询程序66会先依据使用者所提供的关键字来查询全文索引档40,以找出与该关键字有关的所有关键字索引数据42,以及该关键字在所有网页中的地址数据。然后查询程序66再依据所找出的关键字索引数据42来查询分类档62以找出各个关键字索引数据42所属网页的类别数据64。而后查询程序66会依据使用者所提供的类别来找出所有属于该类别的关键字索引数据42,并依据这些关键字索引数据42来找出所有属于该类别并具有该关键字的网页的文字数据38。最后再利用全文数据档36将所有符合该关键字及类别条件的网页的文字数据38传给使用者。因此分类全文搜寻系统30是先利用分类档44找出属于使用者所提供的类别的所有网页,再利用全文索引档40以及使用者所提供的关键字来找出属于该类别并具有该关键字的所有网页。而分类全文搜寻系统60则是先利用全文索引档40找出具有使用者所提供的关键字的所有网页,再利用分类档62以及使用者所提供的类别来找出具有该关键字并且属于该类别的所有网页。相较于习知搜寻系统10,本专利技术分类全文搜寻系统30、60允许使用者输入一关键字及类别,以找出所有符合该类别并具有该关键字的网页,并且只将符合该类别并具有该关键字的网页的文字数据传回,因此减少了使用者所必须等待的搜寻时间及传输时间本文档来自技高网...

【技术保护点】
一种分类全文搜寻系统,其特征在于该分类全文搜索系统包含有:一电脑,其包含有一存储器用来储存程序及数据以及一处理器用来执行储存于该存储器内的程序;上述存储器包括:一全文数据档存储区,位于该存储器内,其内储存有复数个全球数据网站的网页的 文字数据;一全文索引档存储区,位于该存储器内,其内储存有该全文数据档的各个网页中的文字数据的关键字索引数据,用来对该全文数据档的各个网页的文字数据做全文检索;一分类档存储区,位于该存储器内,其内储存有与该全文数据档中所有网页的类别有 关的类别数据;位于该电脑内的一查询程序,其可依据一使用者所提供的关键字以及类别来查询该全文索引档及分类档以找出该全文数据档内所有符合该类别并具有该关键字的网页的文字数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵国仁
申请(专利权)人:龙卷风科技股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1