System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种中文词条多条件复合的排序方法技术_技高网

一种中文词条多条件复合的排序方法技术

技术编号:40541953 阅读:3 留言:0更新日期:2024-03-05 18:58
本发明专利技术公开一种中文词条多条件复合的排序方法,包括:获取预先创建的汉字的拼音库;获取预先创建的汉字的笔画笔型索引库;初始化待排序中文词条清单;根据最长匹配的原则在所述拼音库里检索中文词条的拼音,写入拼音清单;从笔画笔型索引库里检索中文词条中每个汉字的索引值,写入索引值清单;对于任意两个待排序的中文词条,依次对各自清单中的元素根据先拼音后索引值的原则进行比较,从而得到这两个中文词条的排序顺序;对所有的待排序中文词条采用预设的排序算法,输出为目标排序结果。本发明专利技术解决了多音字、生僻字排序不准确的问题,实现了更精准的中文索引词条的排序。

【技术实现步骤摘要】

【】本专利技术涉及出版设计,尤其涉及一种中文词条多条件复合的排序方法


技术介绍

0、
技术介绍

1、目前,大部分书籍通常都会有索引,这些索引的作用主要是帮助读者快速找到所需的信息,提高检索查询效率。索引编制主要包括索引标引和索引排序两个方面,而索引排序至关重要,一个好的索引排序能提高读者的阅读效率。

2、现有的一些排版编辑软件,如excel软件等能够提供索引及排序功能,一般按照笔画、拼音、字母等顺序进行排序,只能单一或有限条件进行排序,不具备合并相同词条、页码序接功能,且对于多音字、生僻字很容易造成排序错误。例如,按拼音排序对于多音字容易出现错误,如“曾侯乙尊盘”里的“曾”在此处作姓氏拼音,应为“zeng1”,按“ceng2”则会导致排序错误

3、又如,adobe indesign软件里的索引面板,可以对主题进行排序,其排序依据为拼音加声调、笔画(数),新建主题时会自动识别主题汉字的拼音加声调、笔画,然而对于多音字无法识正确的读音,如将“畜牧气象灾害”中的“畜”错误识别成了“chu4”,而在这里正确拼音应该是“xu4”;同时,对于生僻字也无法识别出拼音、笔画,如“徐啈”的“啈”字。因此,以上问题都会导致排序错误,从而需要人工进行修改及录入,效率较低。

4、然而,有些百科全书、工具书和专业学术类的书籍对索引排序准确性有更高的需求,现有的排序方法并不准确、容易出现排序错误。对于中文索引词条中的多音字、生僻字,例如如书籍索引词条里古籍、考古、地方志类书籍有大量的生僻字,不能排出准确顺序的索引。

5、其中,专利《汉字排序检索方法》(申请公布号为cn102177511 a)提出了一种根据31种汉字笔画及笔画交叉、空间关系等条件构建出汉字的编码,其主要使用场景是使用汉字编码在汉字编码表里检索到该汉字,然而该专利对于如何排序汉字编码表未提出具体实施方法,本领域技术人员难以了解如何对汉字笔画进行编码,以提升对于中文索引词条的排序准确度。

6、鉴于此,实有必要提供一种中文词条多条件复合的排序方法以克服上述缺陷。


技术实现思路

0、
技术实现思路

1、本专利技术的目的是提供一种中文词条多条件复合的排序方法,旨在改善现有的中文索引词条的排序不够准确的问题。

2、为了实现上述目的,本专利技术第一方面提供一种中文词条多条件复合的排序方法,包括:

3、步骤s10:获取预先创建的汉字的拼音库,包括汉字及其对应的拼音两个字段;其中,对于多音字的汉字以第一预设符号间隔多个拼音,对于词组与短语则以第二预设符号间隔每个汉字的拼音;

4、步骤s20:获取预先创建的汉字的笔画笔型索引库,包含汉字、笔画笔形值、索引值三个字段;其中,汉字字段保存一个汉字,笔画笔形值字段为对应汉字在预设规范中的基本笔形序号的顺序并转换成数值保存,索引值字段代表对应汉字的笔画数、基本笔型序号数值的大小在笔画笔型索引库的位次;

5、步骤s30:初始化待排序中文词条清单;其中,清单中每个词条为清单中的一个元素,每个元素包括拼音、索引值与页码三个属性;

6、步骤s40:根据最长匹配的原则在所述拼音库里检索中文词条的拼音,写入拼音清单,所述拼音清单中元素与中文词条的汉字一一对应,清单长度与中文词条的汉字数量相等;

7、步骤s50:从所述笔画笔型索引库里检索中文词条中每个汉字的索引值,写入索引值清单,所述索引值清单中元素与中文词条的汉字一一对应,清单长度与中文词条的汉字数量相等;

8、步骤s60:对于任意两个待排序的中文词条,依次对各自清单中的元素根据先拼音后索引值的原则进行比较,从而得到这两个中文词条的排序顺序;

9、步骤s70:对所有的待排序中文词条采用预设的排序算法,输出为目标排序结果。

10、在一个优选实施方式中,所述步骤s10包括:

11、为每个汉字创建一条包含有其拼音的记录;当汉字为多音字时,以“|”间隔多个拼音;

12、为词组与短语创建一条包含有其所有汉字拼音的记录,以空格间隔每个汉字的拼音。

13、在一个优选实施方式中,所述步骤s20包括:

14、步骤s21:为每个汉字创建一条记录,并根据预设规范确定每个汉字的笔形顺序及其对应的基本笔形序号;其中,将基本笔形序号转换为笔画笔形值;

15、步骤s22:根据笔画笔型值字段对笔画笔型索引库按升序或降序方式排序;

16、步骤s23:按照中文词组或短语的汉字顺序对该中文词组或短语的每个汉字的索引值写入依次递增的数值。

17、在一个优选实施方式中,所述步骤s30包括:

18、步骤s31:将页面通过若干个纵横交错的分隔线划分为多个宫格,并将每个宫格与一个字母一一对应进行编号;

19、步骤s32:结合页面的页数及中文词组的页面中的宫格位置生成页码标识;

20、步骤s33:将相同中文词条元素归并为一个元素,且对应的多个页码标识按照升序排列;其中,若页码标识相同,则只保留一个,多个不同的页码标识之间以逗号间隔。

21、在一个优选实施方式中,所述步骤s40包括:

22、步骤s41:以整个中文词条为检索条件在所述拼音库中进行检索;若检索到,则提取出检索到的记录对应的拼音字段的内容,将其分割成单个汉字的拼音顺序追加写入该中文词条的拼音清单中;若未检索到,则以该中文词条末尾去掉一个汉字作为检索条件在所述拼音库中进行检索,若本次检索到,则提取出检索到的记录对应的拼音字段的内容,将其分割成单个汉字的拼音顺序追加写入该中文词条的拼音清单中;

23、步骤s42:将该中文词条余下汉字作为整体在所述拼音库中进行检索,以上述步骤类推,直至完成该中文词条中所有汉字拼音的检索;

24、步骤s43:使拼音清单中元素与该中文词条的汉字一一对应,且清单长度与中文词条的汉字数量相等。

25、在一个优选实施方式中,所述步骤s60包括:

26、步骤s61:获取预设的词条比较函数,导入两个待排序的中文词条各自的拼音清单与索引值清单;其中,两个待排序的中文词条可分别称为a、b;

27、步骤s62:将a的拼音清单中第一个元素与b的拼音清单中第一个元素做字符串unicode比较,若不相等,则小的排前,大的排后,并结束a与b的比较;若相等,则进入步骤s63;

28、步骤s63:将a的索引值清单中第一个元素与b的索引值清单中第一个元素比较,若不相等,则小的排前,大的排后,并结束a与b的比较;若相等,则进入步骤s64;

29、步骤s64:将a的拼音清单中第二个元素与b的拼音清单中第二个元素做字符串unicode比较,若不相等,则小的排前,大的排后,并结束a与b的比较;若相等,则进入步骤s65;

30、步骤s65:将a的索引值清单中第二个元素与b的索引值清单中第二个元素比较,若本文档来自技高网...

【技术保护点】

1.一种中文词条多条件复合的排序方法,其特征在于,包括:

2.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤S10包括:

3.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤S20包括:

4.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤S30包括:

5.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤S40包括:

6.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤S60包括:

7.如权利要求6所述的中文词条多条件复合的排序方法,其特征在于,在步骤S66中,若A与B的各自清单的全部元素比较完了且全部相等,则清单长的排后,否则排序保持原有不变。

8.一种中文词条多条件复合的排序装置,其特征在于,包括:

9.一种终端,其特征在于,所述终端包括存储器、处理器以及存储在所述存储器的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的中文词条多条件复合的排序方法的各个步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的中文词条多条件复合的排序方法的各个步骤。

...

【技术特征摘要】

1.一种中文词条多条件复合的排序方法,其特征在于,包括:

2.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤s10包括:

3.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤s20包括:

4.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤s30包括:

5.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤s40包括:

6.如权利要求1所述的中文词条多条件复合的排序方法,其特征在于,所述步骤s60包括:

7.如权利要求6所述的中文词条多条件复...

【专利技术属性】
技术研发人员:肖辉唐小兴葛侬
申请(专利权)人:雅昌文化集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1