实现不规则片语快速查找的方法技术

技术编号:2889307 阅读:172 留言:0更新日期:2012-04-11 18:40
实现不规则片语快速查找的方法,该法藉抽取一关键字库中所有关键字的多个共通特征进行编码,依特征间关连性分别建立多个索引表,针对当前计算机屏幕上待查的片语或字符串进行查找时,依据特征的规则,利用逆向排除运算法,自索引表中针对该共通特征进行查找对比,以判断该关键字库中各关键字的对比价值,排除该关键字库中绝大多数特征不符的关键字,直到通过索引表自该关键字库中筛选出少数该等共通时特征相同的关键字后,再逐一针对该等关键字进行细部对比,以查找出所欲查找的关键字。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】
现今计算机技术的发展,无论在软件或硬件上,均以具有人性化、个性化及亲和性的设计理想及要求,作为吸引使用者的最终目的,以WIN95视窗作业系统为例,其人性化的界面设计不仅操作简便,且容易学习,而所提供的个性化工具,又可令使用者根据其个人喜好规划及布置所使用的画面,使计算机环境充满个人风格,如此,使用者对于计算机的使用操作,已变得像布置自家后院一样地简单,且乐于利用计算机处理事务、检索新技术及信息,但是,在另一方面,个人长期累积于计算机中的大量信息资料,也因其任意置放,极易四处散落于存储装置中诸多被遗忘的角落。为解决上述问题,必须针对个人的大量信息资料间,建立一种如百科全书般的超链关系,例如某使用者的计算机中存储有一朋友几年前传来的相片,还有历年来该朋友传来的电子邮件,以及该朋友最近传来的计算机音乐作品,此时,若该使用者是以该朋友的名字作为关键字,建立所有档案的关联,则该使用者以该朋友的名字进行检索时,所有与其相关的资料均将被列示,供该使用者选择开启,如此,该使用者即可在欣赏该朋友的最新音乐作品时,顺便调阅其相片,倘若该档案间没有此一超链关系,该使用者在计算机未提示相关档案名称的情形下,可能早已忘却该计算机中封存已久的陈年往事了。目前各种计算机系统中所使用的快速查找方法匀系利用一数据库或字典,针对当前屏幕上的单字或数据,自所设计的数据库/字典中查找所需的资料,其查询对象往往仅局限于单字。在此种传统的查找方法中,若使用者欲针对个人计算机中所存储的大量信息资料进行查找,必需通过输入相关的单字,以作为检索及搜寻的依据,但是,由于该单字一般均系由使用者自行定义,非常不规则,例如该单字可能构成一长片语、中英组合或混杂标点的字符串等,因此,传统查找方法并无法满足使用者的实际需求,而截至目前为止,尚未发现一种可有效针对该种片语及类似字符串的查找方法。本专利技术为有效改善上述传统查找方法的缺点,且使用者仅需藉由输入一片语或字符串(如朋友们的名字或分类),即可在极短的时间内,自个人计算机所存储的大量信息资料中,查找出所有相关的资料,特针对一般片语或字符串的特点进行分析,其中片语是单字的组合,即由一长串字符所组成,其出现率低,而使用者自定义的字符串,其出现率更低,故本专利技术所设计的查找方法中,其查找方向是相反的,以针对当前屏幕上欲查找的片语或字符串,将一关键字库中的相关关键字予以快速地定位,供使用者选择,以有效改善传统查找方法效率低、速度慢且不能满足实际要求的缺点。本专利技术针对片语或字符串的特点,利用快速排除非片语或字符串(而非快速确认片语或字符串)的判断处理方式,再加上本专利技术独创以片语特征确定片语的处理方式,即可大幅提高其快速查找的效率,例如本专利技术的一关键字库中包含有一关键字“Wang dong sheng”,此时,当前计算机屏幕上有一片语“Wangdongis”,若利用传统查找方法,必需针对每一单字重复进行多次字符串的异同比较,直到比较到“is”不同时,才能排除此词的查找,而本专利技术则取“wang”的特征编码“w4”,在一索引表中查找是否有此编码,若有,则继续查“dong”的特征编码“d”,如果有,则比较“wang dong is”片语之长度10是否与关键字“wang dong sheng”的长度15相同,由于在本例中不同,于是排除此关键字的查找,如此,整个查找过程仅需进行三次整体的比较,即可达到查找的目的,其查找速度自然大幅度提高。附图说明图1是本专利技术实现不规则片语快速查找的硬件结构示意图;图2是本专利技术实现不规则片语快速查找的流程结构示意图。本专利技术在实现不规则片语快速查找时,参照图1所示,其硬件结构主要包括一中央处理单元、一存储器单元、一存储单元(可视实际需要为一硬盘…等)、一输入装置(可视实际需要为一键盘、鼠标…等)、一输出装置(可视实际需要为一计算机监视器…等)及其它所需的周边装置,其中该中央处理单元是用以执行本专利技术的方法,并负责操控所有装置的运作,该存储器单元是用以存储本专利技术运作所需的相关数据,该存储单元是用以存储所建立的一关键字库,以提供使用者查找所需的关键字,该输入装置是提供输入资料,该输出装置是用以将输入装置所输入的资料及该中央处理单元所完成的查找结果予以显示。本专利技术主要是先针对所建立的一关键字库中各关键字的特点进行编码,其编码方法及相应的由整体到细部的比较方法,可归纳为下列几点1、本专利技术针对一般的关键字都是由不规则片语组合而成的特性,藉抽取关键字的五个特征,对其进行编码,如此,当本专利技术对输入装置所输入的一片语或字符串进行关键字的验证时,仅需对其五个特征编码进行验证,而不需对其长达二、三十个字母所组合的片语或字符串中每一字母或符号逐一验证,故,其整体的比较速度将远远快于逐一验证每一字母或符号的速度,从而大幅度地提高了检索的速度;2、本专利技术针对待查找的一片语或字符串中绝大多数的内容不包含关键字的特性,利用逆向排除的方法,就当前输出装置的屏幕上一待查找的片语或字符串,依五个特征编码设计的原则,自该关键字库中进行查找,经由对其第一单词的首字母及长度、第二单词的首字母、整个片语的长度…等特征编码的比较,迅速决定该关键字库中各关键字是否具备可比较的价值,再藉后续其它特征编码的每一次比较,进一步确认各关键字的可比较价值,直到极有可能的情况下,开始进行字符串的最后比较。故,本专利技术是一种通过由整体到细部的比较路径,根据当前屏幕所欲查找的内容,自一关键字库中筛选出少数整体特征相同,且具备比较价值的关键字后,再逐一针对该关键字进行细部对比,以确认完全符合需求的关键字,此种逆向排除法确实可大幅度减化字符串逐一比较所需的时间,从而达到真正快速查找的目的。由于一关键字库中所包含的关键字范围广泛,现为能更清楚表达本专利技术的专利技术理想及技术特征,仅以查找一关键字“wang dong sheng”为例,详细说明如下本专利技术主要是针对关键字的特点进行编码,再根据此一编码规则利用逆向排除的运算法,达到快速查找的目的,其中该编码的数据结构及组织是为方便该逆向排除的运算法而制定,该编码方式主要是对所有关键字取出以下五项特征进行编码(1)关键字的第一个单词的首字母(中文取其内码的低12位);(2)关键字的第一个单词的长度(中文取其内码的低12位);(3)关键字的第二个单词的首字母(中文取其内码的高8位);(4)关键字的尾字符(中文取其内码的低8位);(5)关键字的总长度;其中第1及2项组成本专利技术中关键字的第一特征值,第3项组成本专利技术中关键字的第二特征值,依据以上5项特征基本上即可确定一个关键字。在本专利技术中,假设该关键字库中所包含的关键字的最大长度为32个字节(对于其他长度的关键字,其做法以此类推),而所有关键字是根据下列三个表建立其关键字库(1)关键字表包含关键字、关键字的尾字符、关键字的长度等三项,其中各关键字需依字典排序法排列,中文则按其内码排列;例如一具有五个关键字的关键字表如下 01234(2)二级索引表是用以记录所有包含第一及第二特征值的关键字在关键字表中的位置,该索引表包括三项内容,其中第一项内容为关键字中第二单词的首字母(即第二特征);第二项内容为所有包含第一及第二特征值的关键字在关键字表中的起始位置(From);第三项内容为所有包含本文档来自技高网...

【技术保护点】
一种实现不规则片语快速查找的方法,该方法是藉抽取一关键字库中所有关键字的多个共通特征,对其进行编码,并依其关连性分别建立多个索引表,从而当针对当前计算机屏幕上待查找的片语或字符串进行查找时,中央处理单元可依据该共通特征的规则,利用逆向排除的运算法,自该索引表中针对该特征进行查找对比,以判断该关键字库中各关键字的对比价值,排除该关键字库中绝大多数特征不符的关键字,直到透过该索引表自该关键字库中筛选出少数该特征相同的关键字后,再逐一对针该关键字进行细部比对,以查找出所欲查找的关键字。

【技术特征摘要】

【专利技术属性】
技术研发人员:王东胜穆立源宋建福林光信
申请(专利权)人:英业达股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1