当前位置: 首页 > 专利查询>刘二中专利>正文

电子文本处理与检索的便捷方法和系统技术方案

技术编号:2918154 阅读:195 留言:0更新日期:2012-04-11 18:40
一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法和系统,包括:获得多个含有同样关键词的电子文本,规定邻接词段所含字词数量或邻接词段截取方式,根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分为相同或不同子集或类别,对它们进行相应的相同或不同处理。可以使关键词检索得到的海量搜索结果,形成核心内容不重复不缺失的多级子集体系或目录或实例序列,帮助用户迅速而严密地缩小搜索范围,完整准确地得到所期望的查询结果。

【技术实现步骤摘要】
(1)
本专利技术涉及计算机及搜索引擎关于电子文本处理与检索的技术。(2)
技术介绍
数十年来,计算机数据库检索技术有了极大发展,特别是万维网等网络技术的进展,使得人们可以共享的数据库的规模达到了天文数字。为了方便用户找到所需信息或文件,出现了分类或目录检索系统。这种技术在人们十分熟悉的成熟分类领域里比较适用,但在更广泛的海量信息领域里,难于建立也难于掌握和使用。以关键词搜索为核心的搜索引擎技术为用户带来了便利。以搜索引擎为核心的搜索系统一般位于一个或多个服务器或其他计算机装置上,由文本(页面)库、文本索引库、根据对文本库的文本分析得到文本索引的索引构造器,以及接受查询生成搜索结果的查询器等部分组成,往往还附带有为文本库从互联网或其他信息源搜集和增添文本的数据采集服务器。该系统可以通过客户机上的交互界面以及通讯网络或通讯线路得到查询者的关键词查询请求,在文本索引库或文本库中进行查询,并进行关键词请求与文本的相关性分析,得到相关结果并排序,再经由通讯网络或线路提供到交互界面。这种搜索系统使用起来十分便利迅速,但返还结果包含的索引总数仍然十分庞大,难于逐一查阅。人们还发展了将关键词与指向有关文本的锚内容(anchor text)描述相比较来确定相关性的技术,仍然不能使检索者十分满意。为了能将潜在的对查询者最有价值的查询结果尽量排在前面以方便查询者,第6,285,999号美国专利提出了基于网页超级链接结构分析(佩奇链接)来进行搜索结果排序的技术,超过了其他排序技术,被Google公司采用,获得空前成功。然而,该技术以及其他各种排序技术,仅仅是在统计学意义上提高了关键词搜索的效率,并不能保证每个人希望的查询结果都能排在庞大索引表的前面。例如,我们利用“谷歌”中文网站搜索“布林”一词,可以得到近30万条索引。我们仍然不能保证可以无一遗漏地在靠前的位置上查阅到期望的内容,做到既-->严密又比较方便。同时,我们在读到期望的信息之前,却无奈地读到种种主要内容一再重复的无关信息。为了解决这一问题,近十年来人们一直试图发展各种新的搜索引擎技术,例如,第6421675号美国专利涉及的“按照重要性的优先次序列表”的技术,第6256633号美国专利涉及的“根据使用者查询数据的历史形成动态对象表”的技术,CN1151457号中国专利的“与其他查询者共享查询信息”技术,第6990628号美国专利有关“测量电子文本相似性”的技术。这些技术具有某些优点,但效果十分有限。第7089236号美国专利的技术可以对查询者提出的关键词进行语义分析,并将不同的可能语义呈现于交互界面,帮助查询者缩小搜索范围。与之相近的中国专利申请第200510081867.5号的技术,通过使用网页类别信息分散搜索引擎的关键词搜索结果。这两种技术的问题在于,首先必须建立十分复杂庞大然而不可能准确的分类数据库,由机器判断某一页面或文本属于某关键词的哪一条或哪几条的语义或类别是十分困难的,其可靠性不高。一个关键词的不同语义或类别之间很可能重叠更可能存在空白。如果增加分类的层次,重叠将造成占用存储空间的暴增。同时,关键词搜索的查询者面对不熟悉的领域,对诸多语义或分类也难于准确把握。这些都严重影响了查询效率的提高。因此,人们迫切需要一种既严密又高效的关键词搜索引擎系统技术,能够有效地帮助查询者缩小甚至多次缩小查阅范围。要求不同范围之间分界明确,容易判断,没有重叠也没有空白,以大大加快查询者得到期望结果的速度,并保证搜索的严密性。这也成为多年来未能解决的世界性难题。(3)
技术实现思路
本专利技术的目的就是提供一种计算机或搜索引擎的电子文本处理与检索或搜索的技术,在用户进行关键词检索而面对海量的搜索结果时,能迅速而严密地多次缩小搜索范围,或剔除各类无关信息或重复信息,准确地得到所期望的结果而很少遗漏。本专利技术的一个方面是提供了一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,包括:获得多个含有同样关键词的电子文本;规定邻接词段所含字词数量或邻接词段截取方式;根据部分或全部文本中的每个文本内容中所述关键词的邻接词-->段与其他文本相同还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理。所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示;所述的文本可以是电子文件或网页或者它们的摘要或索引或题录或题目,也可以是数据库、著作、词典、手册、专利文献的各种信息内容。上述的邻接词段或间接邻接词段可以是关键词前面的,也可以是关键词后面的;一般是文本内容中的一个或多个词或字甚至词根组成的词段,需要时也包括某些字符,如缩写字母、标点等;在某些必要情况下,判断两个词段的相同或不同,也可以略去某些词的前缀或后缀或者某些虚词或非实词或者标点或空格的差别。需要时,也可以略去或不考虑某些助词或数词或量词或形容词或副词的有无或差别,甚至略去或不考虑冠词或连词有无或差别。当检索时的关键词为可以分开的多个字词时,上述邻接词段可以是指其中某一字词(如靠前的字词)或多个字词的邻接词段。所述邻接词段所包含的字词或字符的数量或该邻接词段的截止方式或具体内容可以是预定的或者查询者同意或默认的或选定的。在某些必要情况下,判断词段的长度,类似于判断两个词段的相同或不同,也可以略去或不考虑某些词的前缀或后缀或者某些虚词或助词或数词或量词或非实词或者标点或空格甚至形容词或副词的有无或差别。本专利技术的方法的对检索的好处十分明显。查询者对关键词的某一种邻接词段有兴趣时,很容易得到包含该种邻接词段的类别的所有文本,反之,他则很容易跳过这些文本。本专利技术的关键之处在于,关键词的邻接内容最有可能决定该关键词在该文本中的具体内涵或指向或限定范围或方向,这应该是搜索者最感兴趣的。同时,本方法如果采用的方式恰当的话,完全可以避免其他利用分类检索方法所难以避免的“不同类别或子集的内容重叠和空白”现象,该现象在多级分类子集系统中会造成最终难以使用的后果。这决定了本专利技术的方法或系统的搜索效果将会有突出地提升。-->所述的处理方法还可以包括:对于属于某个或某些同一第一级子集或较高的子集或其内容含有同样关键词及邻接词段的不同文本,根据其含有的所述同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部所述文本划分入上述子集的同一或不同的下一级或多级子集或者进行相应的相同或不同处理。这实际上就是将原来的同一邻接词段子集进一步细分为若干下一级子集。所述的处理方法允许依次的邻接词段的合并或分开,以减少或增加子集层次。所述的处理方法还可以包括:编排一个反映所述文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句或例句或摘要实例的并列或先后关系的一级或多级的目录或树状目录或序列。所述的处理方法还可以包括:所述目录或树状目录或序列中的关键词邻接词段或间接邻接词段,如果其下一级或下几级邻接词段只有一种,该词段可以连同其下一级或下几级邻接词段在其原有位本文档来自技高网
...

【技术保护点】
一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,包括:获得多个含有同样关键词的电子文本;规定邻接词段所含字词数量或邻接词段截取方式;根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同 还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理;所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索 引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示;所述的文本可以是电子文件或网页或者它们的摘要或索引或题录或题目。

【技术特征摘要】
CN 2007-2-15 200710079309.4;CN 2007-3-21 2007100871.一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,包括:获得多个含有同样关键词的电子文本;规定邻接词段所含字词数量或邻接词段截取方式;根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理;所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示;所述的文本可以是电子文件或网页或者它们的摘要或索引或题录或题目。2.按照权利要求1所述的处理方法,其中包括:对于属于某个或某些同一第一级子集或较高的子集或其内容含有同样关键词及邻接词段的不同文本,根据其含有的所述同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部所述文本划分入上述子集同一或不同的下一级或多级子集或者进行相应的相同或不同处理;所述处理方法允许依次的邻接词段的合并或分开,以减少或增加子集层次。3.按照权利要求1所述的处理方法,包括:编排一个反映所述文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句或例句或摘要实例的并列或先后关系的一级或多级的目录或树状目录或序列,其中,可以包括所述文本的一个或多个不同子集各自的所述的相同邻接词段或相同间接邻接词段或者包含该词段的语句或例句或摘要实例,或者包括这个或这些子集的下一级或下几级多个子集各自的相同的邻接词段或间接邻接词段或者包含该词段的语句或例句或摘要实例,按照并列或隶属先后关系编排或分布或存储或展示;其中所述的词段或语句或例句或摘要实例可以是跨子集并列的。4.按照权利要求1或2或3所述的处理方法,包括:在上述的文本或目录或语句或例句或摘要实例中或者在它们所包含的关键词或邻接词段或间接邻接词段附近,可以具有其相应的并列子集数目或下级子集数目或者相关词或词段所在子集的并列子集数目或所含的下级子集数目或文本数目的提示。5.按照权利要求1所述的处理方法,包括:编排含有同样关键词的多个文本或文本部分内容的序列,它们含有的由多个词组成的邻接词段互不相同,或基本上互不相同。6.按照权利要求1或3或5所述的处理方法,包括:将所述文本的同样关键词的不同邻接词段进行相似比较,将相互符合一定相似要求的多个不同邻接词段划分入同一相似子集,或者将相互不符合一定相似要求的多个不同邻接词段划分入不同相似子集,或者将相互不符合一定相似要求的多个不同邻接词段编成彼此不相似邻接词段的序列或目录,可以将同一相似子集的各元素的共同的内容作为该相似子集的名称或标记,或者将其列入相似子集名称序列或目录;所述的一定相似要求至少包括对不同邻接词段所含有的同样的字或词或词组或字符的数量或所占比例的要求。7.按照权利要求1所述的处理方法,包括:在所述的处理方法或者目录中,并列子集或者并列邻接词段或间接邻接词段或者并列文本或者并列的语句或例句或摘要实例或代表性序列信息中的某一个的具体排序位置,部分或完全取决于下列其中某一个或多个因素:该文本或者该词段或语句或例句或摘要实例或信息所在文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低,或者该子集的下级子集数目或下属文本数目的多少或者该子集点击率的高低或者该子集的文本佩奇链接值的平均数值的大小,或者该词段或者文本或者语句或例句或摘要实例所在子集的下级子集数目或下属文本数目的多少或者所在子集点击率的高低或者所在子集的文本佩奇链接值的平均数值的大小,或者该子集的佩奇链接值最高的文本或另外的文本实例的佩奇链接值的大小,或者该子集的点击率最高的或关键词出现率最高的文本或另外的文本实例的点击率或关键词出现率的高低,或者相关文本或相关子集内的相关文本在其他搜索网站或检索系统搜索结果中的排序,或者有关文本或有关词段的出资人相关付费或竞价的高低,或者相关的邻接词段的词字的拼写或拼音的字母顺序或笔划,或者文本的来源网站或单位或人的评分,或者相关文本收录的时间先后或新旧,或者是否属于某一级的同一子集,或者可以通过一种目标函数值来决定,目标函数值取决于一个或多个变量,该目标函数的变量部分或全部分别代表上述所列其中某一个或多个因素。8.按照权利要求1所述的处理方法,其中包括:允许在已有处理的方法或结果上,增加或减少应具备或不能具备的另外的关键词,或者增加或减少时间或地域或语种或者其他类型或范围或要求的限制,得到进一步精炼的结果或更宽泛的结果。9.一种包括存贮装置的计算机数据系统,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部的关键词索引的数据结构组成至少包括:关键词段;一个或多个邻接词段,由相应文本内容中或文本摘要中的关键词的依次邻接的预定数目的各级邻接词段按原顺序映射组成,依次为:邻接词段1,邻接词段2,…邻接词段N;相应文本ID段,或其相关信息的ID段;必要时,可以包括相应文本的含有所述关键词的摘要段或标题段。10.一种包括存贮装置的计算机数据系统,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部关键词索引或文本摘要或文本的数据以下列方式分布:其文本摘要或文本含有同一关键词而该关键词邻接词段相同或不同的索引或文本摘要或文本的数据,位于同一关键词集的同一或不同子集的分布区域。需要时,允许位于同一子集,而其文本摘要或文本含有同一扩展关键语句而该语句的邻接词段相同或不同的索引数据,位于同一子集的同一或不同的低一级或多级子集分布区域。11.一种搜索引擎提供查询者所期望结果的搜索方法,该搜索引擎系统响应查询者经由交互界面提出的关键词查询要求,从该系统相关的信息源或数据库搜索并提供符合上述关键词要求的文本或文本摘要或索引或其相关信息;本搜索方法的特点在于,该方法包括:该系统经由交互界面接收查询者的关键词查询要求;确认后,根据该关键词要求查询包含关键词索引的数据库;将在含有上述关键词的文本内容中或文本摘要中出现的上述关键...

【专利技术属性】
技术研发人员:刘二中
申请(专利权)人:刘二中
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1