一种基于关键字排序的检索编码方法技术

技术编号:24251496 阅读:48 留言:0更新日期:2020-05-22 23:33
本发明专利技术提出了基于关键字排序的检索编码方法,该方法包括:获得关键字有序集合,其中每个关键字具有索引;将所述关键字有序集合中的关键字进行组合,形成不同的子集;将所述子集分级、排序,得到关键字有序组合集合;分别针对所述子集和所述关键字有序组合集合进行分级元组编码。本方法所涉及的集合数据多、过程复杂,分级性、有序性原则如何编码体现,一套简明易懂、合理高效的编码方法显的非常重要。使用“分级元组编码”方式,可以很好的继承关键字有序组合集合中的分级性、有序性原则,不仅有利于计算机系统实现,并且能有效提高检索结果的匹配度。

A search coding method based on keyword sorting

【技术实现步骤摘要】
一种基于关键字排序的检索编码方法
本专利技术涉及的是计算机技术检索领域,尤其涉及搜索引擎、排序、优选结果集的相关技术和方法,具体涉及一种基于关键字排序的检索编码方法。
技术介绍
当今社会是信息爆炸的时代,如何从海量数据搜索、提取想要的信息,是一门重要的技术。基于关键字检索、排序、选优相关技术也比较多,一般方法多是按某一个或多个关键字简单而机械的查询或者联合查询。比较好一点方法,或是加入包含权重系统等特征的字典,或是引入算法以计算权重等特征,进行结果上的排序和选优,这在一定程度上提高了的查询的匹配度。另外,检索所涉及的集合数据多、过程复杂,系统如何编码?一套简明易懂、合理高效的编码方法显的非常重要。本文提供了一种更优的检索、排序、选优的技术编码方法,本方法基于“关键字顺序集合”和“关键字有序组合集合”的分级元组编码,强调有序顺序性、组合分级性,并支持关键字、词、句多样化处理,从整体上准确匹配结果,有效提高检索精度,并有一定的灵活性和易用性。
技术实现思路
为了解决现有技术的问题,本专利技术提供了一种基于关键字排序的检索编码方法,该方法包括:获得关键字有序集合,其中每个关键字具有索引;将所述关键字有序集合中的关键字进行组合,形成不同的子集;将所述子集分级、排序,得到关键字有序组合集合;分别针对所述子集和所述关键字有序组合集合进行分级元组编码。进一步地,所述子集的分级包括:第N级,对应由N个关键字组合而成的子集。进一步地,所述子集的索引由组合该子集的关键字的索引从小到大组合而成;同一级别的所述子集按照索引排序,索引越小排序时越靠前,查优度越高。进一步地,针对所述子集的分级元组编码为:(Lev级别,构成子集Key的序列),进一步表示为:(n,Ki序列)其中n为当前子集级别,i为构成子集Key的顺序索引,Key的数量和n相等。进一步地,由各个子集的分级元组编码组成关键字有序组合集合的分级元组编码列表,其中各个子集的分级元组编码在分级元组编码列表中的分级和排序,与子集在关键字有序组合集合中的分级和排序一致。进一步地,将所述关键字有序集合中的关键字分成多组,将每个组内的关键字进行组合形成不同的子集,多组关键字形成多组不同的子集。进一步地,将多组不同的子集进行分级、排序,得到关键字有序组合集合。进一步地,获得关键字有序集合包括按照用户输入关键字的次序为关键字设置索引;针对用户输入的句子,使用分词法提取各个关键字;为提取到的关键字分配权重系数,基于权重系数为关键字设置索引。进一步地,使用每一个子集元素进行查询检索,获得相应的结果集合。进一步地,所述结果集合中的每个结果与对应的子集具有相同的分级和索引,并按照分级和索引排序。本专利技术提供了一种基于关键字排序的检索编码方法,该方法具有以下特点和优势:一、有序顺序性。本方法基于“关键字有序集合”和“关键字有序组合集合”,强调了关键字顺序和关键字组合顺序的重要性。权重系数的大小、用户输入的次序、词性等各种维度都可以看作顺序索引的体现。索引越小的排序应当越靠前。越靠前的子集表示查优度越高,即依此集合顺序进行信息检索所获取的结果是优的。二、组合分级性。本方法中将关键字分组、分级构成各个子集。子集中关键字数量越多,则该子集等级越高,则查优度越高,即依高等级子集进行信息检索所获取的结果相对是优的。三、基于分级元组编码。本方法所涉及的集合数据多、过程复杂,分级性、有序性原则如何编码体现,一套简明易懂、合理高效的编码方法显的非常重要。使用“分级元组编码”方式,可以很好的继承关键字有序组合集合中的分级性、有序性原则,不仅有利于计算机系统实现,并且能有效提高检索结果的匹配度。四、支持关键字、词、句多样化。针对包含关键字序列的短语或词句,使用数据清洗或分词技术进行处理、分析、提取。用户输入是字、或词、或句,都可有效处理,提高应用的灵活性、易用性。本方法基于“关键字有序集合”和“关键字有序组合集合”的分级元组编码,强调有序顺序性、组合分级性,且支持关键字、词、句多样化处理,从整体上准确匹配结果,有效提高检索精度,并有一定的灵活性和易用性。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1是本专利技术的基于关键字排序的检索编码方法的流程图。图2是本专利技术实施例一的基于关键字排序的检索编码方法流程图。图3是本专利技术实施例二的基于关键字排序的检索编码方法流程图。图4是本专利技术实施例四的有两个关键字时关键字有序组合集合中子集特性示意图。图5是本专利技术实施例四的有两个关键字时关键字有序组合集合中子集特性对应关系表。图6是本专利技术实施例五的有三个关键字时关键字有序组合集合中子集特性示意图。图7是本专利技术实施例五的有三个关键字时关键字有序组合集合中子集特性对应关系表。图8是本专利技术实施例六的检索信息形成有序结果集合的流程图。图9是本专利技术实施例七的检索信息形成有序结果集合的优化和扩展过程的流程图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。如图1所示,本专利技术提供一种基于关键字排序的检索编码方法,该方法包括:获得关键字有序集合,其中每个关键字具有索引;将所述关键字有序集合中的关键字进行组合,形成不同的子集;将所述子集分级、排序,得到关键字有序组合集合;分别针对所述子集和所述关键字有序组合集合进行分级元组编码。具体地,获得关键字有序集合之前首先输入文本。输入文本的格式可以是包含关键字/词(以下统称为“关键字”Key,简写为K)的序列短语,也可以是完整的句子。接下来,获取关键字有序集合。1、针对关键字序列短语进行数据清洗,包括去空格、去无意义的符号、去重复等过程。2、针对完整的句子使用分词法,提取各个关键字。3、本步骤最终形成了关键字集合:{Ka,Kb,Kc…}将集合中的关键字按顺序排序,得到“关键字有序集合”,即关键字的有序集合:{K1,K2…Kn},其中,n为索引;所述“有序”,即有序性、索引化。关键字按顺序排序具体是指:1、针对关键字序列:以用户输入序列的次序为顺序索引,因为用户输入次序从某种程度上代表潜在想要搜寻内容的重要程度,在一定程度上也代表权重系数的大小。越靠前的关键字,重要程度越高、权重系数越大。2、针对句子:以分词法得到的关本文档来自技高网...

【技术保护点】
1.一种基于关键字排序的检索编码方法,其特征在于,该方法包括:/n获得关键字有序集合,其中每个关键字具有索引;/n将所述关键字有序集合中的关键字进行组合,形成不同的子集;/n将所述子集分级、排序,得到关键字有序组合集合;/n分别针对所述子集和所述关键字有序组合集合进行分级元组编码。/n

【技术特征摘要】
1.一种基于关键字排序的检索编码方法,其特征在于,该方法包括:
获得关键字有序集合,其中每个关键字具有索引;
将所述关键字有序集合中的关键字进行组合,形成不同的子集;
将所述子集分级、排序,得到关键字有序组合集合;
分别针对所述子集和所述关键字有序组合集合进行分级元组编码。


2.根据权利要求1所述的基于关键字排序的检索编码方法,其特征在于,所述子集的分级包括:
第一级,对应包括1个关键字的子集;
第二级,对应由2个关键字组合而成的子集;
第N级,对应由N个关键字组合而成的子集。


3.根据权利要求2所述的基于关键字排序的检索编码方法,其特征在于,所述子集的索引由组合该子集的关键字的索引从小到大组合而成;
同一级别的所述子集按照索引排序,索引越小排序时越靠前,查优度越高。


4.根据权利要求3所述的基于关键字排序的检索编码方法,其特征在于,针对所述子集的分级元组编码为:
(Lev级别,构成子集Key的序列),进一步表示为:
(n,Ki序列)
其中n为当前子集级别,i为构成子集Key的顺序索引,Key的数量和n相等。


5.根据权利要求4所述的基于关键字排序的检索编码...

【专利技术属性】
技术研发人员:赵成军雷艳玲孟祥乾郭奇孟凡涛王恒峰
申请(专利权)人:航天信息股份有限公司企业服务分公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1