【技术实现步骤摘要】
有序列表匹配方法和设备、文档字符匹配方法和设备
本专利技术涉及用于有序列表匹配的方法和设备。此外,本专利技术涉及用于文档字符匹配的方法和设备。
技术介绍
在文档处理的领域中,文档中的字符往往被转换成有序列表以便被处理。因此,常常对有序列表进行处理以在有序列表之间实现匹配。当前,在索引系统(诸如全文搜索(FTS)系统)中常常使用两个有序列表的匹配。在索引系统中,如本领域公知的,使用许多倒排表(invertedtable)来帮助提高搜索/操作速度。每个倒排表均是有序列表,并且不同元素类型(诸如字符、单词、词干(trunk)等)涉及不同的倒排表。因此,利用倒排表,文档中包含的内容将被转换成有序列表以用于进一步的处理,诸如匹配、搜索等。下文,将参照图1A至1D描述现有技术中的常用的用于文档字符索引和匹配的处理。如图1A所示,许多文档中的汉语词语“日本”将被处理。在识别期间,该词语中的每个字符、即“日”和“本”将分别被索引。例如,文档中的字符“日”将用分别指示包含该字符的文档以及该字符在各文档中的位置的文档索引和字符位置索引来索引。通过这样的处理,字符“日”和“本”中的每一个将具有两个有序列表,一个有序列表对应于文档索引,另一个有序列表对应于字符位置索引。此后,将处理所获得的字符“日”和“本”的有序列表。更具体而言,将所获得的字符“日”和“本”的有序列表进行匹配,其中一方面,如图1B所示,字符“日”和“本”中的每一个的文档索引列表将被进行匹配,其中为了清楚起见,字符“日”和“本”的文档索引列表已被处理以便不包括重复元素,但是文档索引列表可具有重复元素,并且另一方面, ...
【技术保护点】
一种有序列表匹配方法,所述有序列表包括源列表和目标列表,该源列表和目标列表中的每一个包含至少一个元素,并且该源列表和目标列表以单调映射关系彼此对应,该方法包括:选择步骤,用于从源列表选择元素;匹配步骤,用于在目标列表中匹配所选择的元素;以及分割步骤,用于当源列表中包含的元素的数量大于1时,基于所选择的元素将源列表分割成两个子源列表,并且基于所述匹配步骤的结果将目标列表分割成两个子目标列表,这两个子目标列表与所述两个子源列表以所述单调映射关系一一对应,其中,对于所述两个子源列表中的每一个及其对应的子目标列表,依次执行所述选择步骤、所述匹配步骤和所述分割步骤。
【技术特征摘要】
1.一种有序列表匹配方法,所述有序列表包括源列表和目标列表,该源列表和目标列表中的每一个包含至少一个元素,并且该源列表和目标列表以单调映射关系彼此对应,该方法包括:选择步骤,用于从源列表选择元素;匹配步骤,用于在目标列表中匹配所选择的元素;以及分割步骤,用于当源列表中包含的元素的数量大于1时,基于所选择的元素将源列表分割成两个子源列表,并且基于所述匹配步骤的结果将目标列表分割成两个子目标列表,这两个子目标列表与所述两个子源列表以所述单调映射关系一一对应,其中,对于所述两个子源列表中的每一个及其对应的子目标列表,依次执行所述选择步骤、所述匹配步骤和所述分割步骤。2.根据权利要求1所述的方法,其中,所述选择步骤包括:选择所述源列表中的特定选择范围中的元素,其中,所述特定选择范围由所述源列表的两个黄金分割点确定,所述特定选择范围的起点和终点分别是一个黄金分割点和另一个黄金分割点。3.根据权利要求1所述的方法,其中,所述选择步骤包括:选择所述源列表的中央位置处的元素。4.根据权利要求1所述的方法,其中,所述匹配步骤包括:根据所述单调映射关系,确定在目标列表中是否存在针对所述源列表中的所选择的元素的匹配元素。5.根据权利要求4所述的方法,其中,所述匹配元素和所选择的元素之间的匹配关系是所述匹配元素与所选择的元素具有相同的值。6.根据权利要求4所述的方法,其中,所述匹配元素和所选择的元素之间的匹配关系是所述匹配元素与所选择的元素的值之间的差为预定值。7.根据权利要求1所述的方法,其中,基于所选择的元素将所述源列表分割成两个子源列表包括:分割所述源列表以使得所述两个子源列表包括第一子源列表和第二子源列表,所述第一子源列表包含所述源列表中的在所选择的元素之前的所有元素,所述第二子源列表包含所述源列表中的在所选择的元素之后的所有元素。8.根据权利要求1所述的方法,其中,基于所述匹配步骤的结果将所述目标列表分割成两个子目标列表包括:当所述源列表中的所选择的元素在所述目标列表中具有匹配元素时,对所述目标列表进行分割以使得所述两个子目标列表中的第一子目标列表包含所述目标列表中的在所述匹配元素之前的所有元素,并且所述两个子目标列表中的第二子目标列表包含所述目标列表中的在所述匹配元素之后的所有元素;并且当所述源列表中的所选择的元素在所述目标列表中不具有匹配元素时,对所述目标列表进行分割以使得所述两个子目标列表中的第一子目标列表包含所述目标列表中的从起始元素至紧接在潜在匹配元素之前的元素的所有元素,并且所述两个子目标列表中的第二子目标列表包含所述目标列表中的从紧接在所述潜在匹配元素之后的元素至结束元素的所有元素。9.根据权利要求8所述的方法,其中,如果所选择的元素在所述源列表中具有重复元素,并且所述源列表中的所选择的元素在所述目标列表中具有匹配元素时,所述第一子目标列表和所述第二子目标列表均还包含所述匹配元素。10.根据权利要求7-9中任一项所述的方法,其中,当所述源列表和所述目标列表以单调增的映射关系彼此对应时,所述第一子源列表对应于所述第一子目标列表,并且所述第二子源列表对应于所述第二子目标列表;并且其中,当所述源列表和所述目标列表以单调减的映射关系彼此对应时,所述第一子源列表对应于所述第二子目标列表,并且所述第二子源列表对应于所述第一子目标列表。11.根据权利要求10所述的方法,其中,所述单调增的映射关系指的是所述源列表和所述目标列表具有相同顺序,并且所述单调减的映射关系指的是所述源列表和所述目标列表具有相反顺序。12.根据权利要求1所述的方法,其中,所述源列表中包含的元素的数量远小于所述目标列表中包含的元素的数量。13.一种文档字符匹配方法,包括:分别对文档中包含的字符以及要被匹配的字符进行索引,以便获得所述字符的有序索引列表以及所述要被匹配的字符的有序索引列表;以及将根据权利要求1-12中任一项所述的方法应用于分别作为源列表和目标列表的所述字符的有序索引列表以及所述要被匹配的字符的有序索引列表,以便实现匹配。14.一种有序列表匹配设备,所述有序列表包...
【专利技术属性】
技术研发人员:黄耀海,谭诚,陈明,
申请(专利权)人:佳能株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。