【技术实现步骤摘要】
(1)
本专利技术涉及计算机及搜索引擎关于电子文本处理与检索的技术。(2)
技术介绍
数十年来,计算机数据库检索技术有了极大发展,特别是万维网等网络技术的进展,使得人们可以共享的数据库的规模达到了天文数字。为了方便用户找到所需信息或文件,出现了分类或目录检索系统。这种技术在人们十分熟悉的成熟分类领域里比较适用,但在更广泛的海量信息领域里,难于建立也难于掌握和使用。以关键词搜索为核心的搜索引擎技术为用户带来了便利。以搜索引擎为核心的搜索系统一般位于一个或多个服务器或其他计算机装置上,由文本(页面)库、文本索引库、根据对文本库的文本分析得到文本索引的索引构造器,以及接受查询生成搜索结果的查询器等部分组成,往往还附带有为文本库从互联网或其他信息源搜集和增添文本的数据采集服务器。该系统可以通过客户机上的交互界面以及通讯网络或通讯线路得到查询者的关键词查询请求,在文本索引库或文本库中进行查询,并进行关键词请求与文本的相关性分析,得到相关结果并排序,再经由通讯网络或线路提供到交互界面。这种搜索系统使用起来十分便利迅速,但返还结果包含的索引总数仍然十分庞大,难于逐一查阅。人们还发展了将关键词与指向有关文本的锚内容(anchor text)描述相比较来确定相关性的技术,仍然不能使检索者十分满意。为了能将潜在的对查询者最有价值的查询结果尽量排在前面以方便查询者,第6,285,999号美国专利提出了基于网页超级链接结构分析(佩奇链接)来进行搜索结果排序的技术,超过了其他排序技术,被Google公司采用,获得空前成功。然而,该技术以及其他各种排序技术,仅仅是在统计学意义上提高了 ...
【技术保护点】
一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,包括:获得多个含有同样关键词的电子文本;规定邻接词段所含字词数量或邻接词段截取方式;根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同 还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理;所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索 引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示;所述的文本可以是电子文件或网页或者它们的摘要或索引或题录或题目。
【技术特征摘要】
CN 2007-2-15 200710079309.4;CN 2007-3-21 2007100871.一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,包括:获得多个含有同样关键词的电子文本;规定邻接词段所含字词数量或邻接词段截取方式;根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理;所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示;所述的文本可以是电子文件或网页或者它们的摘要或索引或题录或题目。2.按照权利要求1所述的处理方法,其中包括:对于属于某个或某些同一第一级子集或较高的子集或其内容含有同样关键词及邻接词段的不同文本,根据其含有的所述同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部所述文本划分入上述子集同一或不同的下一级或多级子集或者进行相应的相同或不同处理;所述处理方法允许依次的邻接词段的合并或分开,以减少或增加子集层次。3.按照权利要求1所述的处理方法,包括:编排一个反映所述文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句或例句或摘要实例的并列或先后关系的一级或多级的目录或树状目录或序列,其中,可以包括所述文本的一个或多个不同子集各自的所述的相同邻接词段或相同间接邻接词段或者包含该词段的语句或例句或摘要实例,或者包括这个或这些子集的下一级或下几级多个子集各自的相同的邻接词段或间接邻接词段或者包含该词段的语句或例句或摘要实例,按照并列或隶属先后关系编排或分布或存储或展示;其中所述的词段或语句或例句或摘要实例可以是跨子集并列的。4.按照权利要求1或2或3所述的处理方法,包括:在上述的文本或目录或语句或例句或摘要实例中或者在它们所包含的关键词或邻接词段或间接邻接词段附近,可以具有其相应的并列子集数目或下级子集数目或者相关词或词段所在子集的并列子集数目或所含的下级子集数目或文本数目的提示。5.按照权利要求1所述的处理方法,包括:编排含有同样关键词的多个文本或文本部分内容的序列,它们含有的由多个词组成的邻接词段互不相同,或基本上互不相同。6.按照权利要求1或3或5所述的处理方法,包括:将所述文本的同样关键词的不同邻接词段进行相似比较,将相互符合一定相似要求的多个不同邻接词段划分入同一相似子集,或者将相互不符合一定相似要求的多个不同邻接词段划分入不同相似子集,或者将相互不符合一定相似要求的多个不同邻接词段编成彼此不相似邻接词段的序列或目录,可以将同一相似子集的各元素的共同的内容作为该相似子集的名称或标记,或者将其列入相似子集名称序列或目录;所述的一定相似要求至少包括对不同邻接词段所含有的同样的字或词或词组或字符的数量或所占比例的要求。7.按照权利要求1所述的处理方法,包括:在所述的处理方法或者目录中,并列子集或者并列邻接词段或间接邻接词段或者并列文本或者并列的语句或例句或摘要实例或代表性序列信息中的某一个的具体排序位置,部分或完全取决于下列其中某一个或多个因素:该文本或者该词段或语句或例句或摘要实例或信息所在文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低,或者该子集的下级子集数目或下属文本数目的多少或者该子集点击率的高低或者该子集的文本佩奇链接值的平均数值的大小,或者该词段或者文本或者语句或例句或摘要实例所在子集的下级子集数目或下属文本数目的多少或者所在子集点击率的高低或者所在子集的文本佩奇链接值的平均数值的大小,或者该子集的佩奇链接值最高的文本或另外的文本实例的佩奇链接值的大小,或者该子集的点击率最高的或关键词出现率最高的文本或另外的文本实例的点击率或关键词出现率的高低,或者相关文本或相关子集内的相关文本在其他搜索网站或检索系统搜索结果中的排序,或者有关文本或有关词段的出资人相关付费或竞价的高低,或者相关的邻接词段的词字的拼写或拼音的字母顺序或笔划,或者文本的来源网站或单位或人的评分,或者相关文本收录的时间先后或新旧,或者是否属于某一级的同一子集,或者可以通过一种目标函数值来决定,目标函数值取决于一个或多个变量,该目标函数的变量部分或全部分别代表上述所列其中某一个或多个因素。8.按照权利要求1所述的处理方法,其中包括:允许在已有处理的方法或结果上,增加或减少应具备或不能具备的另外的关键词,或者增加或减少时间或地域或语种或者其他类型或范围或要求的限制,得到进一步精炼的结果或更宽泛的结果。9.一种包括存贮装置的计算机数据系统,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部的关键词索引的数据结构组成至少包括:关键词段;一个或多个邻接词段,由相应文本内容中或文本摘要中的关键词的依次邻接的预定数目的各级邻接词段按原顺序映射组成,依次为:邻接词段1,邻接词段2,…邻接词段N;相应文本ID段,或其相关信息的ID段;必要时,可以包括相应文本的含有所述关键词的摘要段或标题段。10.一种包括存贮装置的计算机数据系统,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部关键词索引或文本摘要或文本的数据以下列方式分布:其文本摘要或文本含有同一关键词而该关键词邻接词段相同或不同的索引或文本摘要或文本的数据,位于同一关键词集的同一或不同子集的分布区域。需要时,允许位于同一子集,而其文本摘要或文本含有同一扩展关键语句而该语句的邻接词段相同或不同的索引数据,位于同一子集的同一或不同的低一级或多级子集分布区域。11.一种搜索引擎提供查询者所期望结果的搜索方法,该搜索引擎系统响应查询者经由交互界面提出的关键词查询要求,从该系统相关的信息源或数据库搜索并提供符合上述关键词要求的文本或文本摘要或索引或其相关信息;本搜索方法的特点在于,该方法包括:该系统经由交互界面接收查询者的关键词查询要求;确认后,根据该关键词要求查询包含关键词索引的数据库;将在含有上述关键词的文本内容中或文本摘要中出现的上述关键...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。