一种多中文词组的谐音拆分处理方法及装置制造方法及图纸

技术编号：40473468 阅读：6 留言：0更新日期：2024-02-26 19:10

本发明专利技术公开了一种多中文词组的谐音拆分处理方法及装置，首先获取多个待处理中文词组；并从每个待处理中文词组中提取一个汉字组成初始汉字组合；然后根据初始汉字组合的长度对其进行循环拆分；接着将每次拆分得到的子串转换为拼音后分别与预先构建的数据库中的词语的拼音进行匹配，根据匹配情况得到匹配结果，将匹配结果和对应的子串作为一条记录加入至结果集；再输出结果集，作为多中文词组的处理结果。本发明专利技术提供的方法从每个待处理中文词组中提取出一个汉字组成初始汉字组合，并且在进行匹配时，考虑了汉字构成不同但拼音相同的情况，即考虑谐音，使得拆分结果更全面，记忆方式更为丰富，实际应用过程中可以提高多中文词组的学习效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种多中文词组的谐音拆分处理方法及装置。

技术介绍

1、随着社会和经济的发展，人们需要掌握的知识越来越多。不管是学习还是考试，都有大量的考点、重点需要记忆，很多时候人们需要记忆其中的多个关键的中文词组。如果是死记硬背，很难记住这些关键词组，容易遗漏。

2、目前，在对多个中文词组进行处理时，采用的组合方式较为单一，例如仅考虑从每个中文词组中取一个字进行重新组合，而忽略了其他情况，此外，在对重新组合的短语进行拆分后，仅考虑了拆分子串的本身含义，忽略了谐音情况，从而导致拆分的结果不够全面，在实际应用过程中，也不利于用户学习或者记忆多个中文词组。

技术实现思路

1、本专利技术提出一种多中文词组的谐音拆分处理方法及装置，用以解决或者至少部分解决现有技术中存在的拆分结果不够全面的技术问题。

2、为了解决上述技术问题，本专利技术技术方案为：

3、第一方面提供了一种多中文词组的谐音拆分处理方法，包括：

4、获取多个待处理中文词组；

5、从每个待处理中文词组中提取出一个汉字，组成初始汉字组合；

6、根据初始汉字组合的长度对初始汉字组合进行循环拆分，其中，循环拆分的过程包括：每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串，其余汉字或者汉字组合作为第二子串；判断第二子串的长度是否大于1，如果大于1，则将第二子串作为当前汉字组合进行循环拆分，其中，每次拆分得到的

7、将每次拆分得到的子串转换为去声调的拼音，然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配，根据匹配情况得到匹配结果，将匹配结果和对应的子串作为一条记录加入至结果集；

8、输出结果集，作为多中文词组的谐音拆分处理结果。

9、在一种实施方式中，从每个待处理中文词组中提取出一个汉字，组成初始汉字组合，包括：

10、如果是正序处理，则从每个待处理中文词组中提取出一个汉字后，将提取出的汉字按照待处理中文词组的顺序组成初始汉字组合；

11、如果是乱序处理，则从每个待处理中文词组中提取出一个汉字后，按照排列组合的方式将提取出的汉字组成初始汉字组合。

12、在一种实施方式中，每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串，其余汉字或者汉字组合作为第二子串，包括：

13、第一次截取与初始汉字组合相等长度的汉字组合作为第一子串，第二子串的长度为0，得到第一次的拆分结果；

14、第二次截取初始汉字组合长度减1长度的汉字组合作为第一子串，其余为第二子串，第二子串的长度为1，得到第二次的拆分结果；

15、第三次截取初始汉字组合长度减2长度的汉字组合作为第一子串，其余为第二子串，第二子串的长度为2，得到第三次的拆分结果，直到截取得到的第一子串的长度为1。

16、在一种实施方式中，根据匹配情况得到匹配结果，包括：

17、如果拆分得到的子串的去声调的拼音在预先构建的数据库中存在与之匹配的词语，则表明匹配成功，匹配结果为存在；

18、如果拆分得到的子串的去声调的拼音在预先构建的数据库中不存在与之匹配的词语，则表明匹配不成功，匹配结果为未找到。

19、在一种实施方式中，所述方法还包括：

20、如果拆分得到的记录中，存在其子串的去声调的拼音与预先构建的数据库中的词语不匹配的情况，则删除该条记录。

21、在一种实施方式中，在输出结果集之后，所述方法还包括：

22、根据结果集中包含的记录中的子串数量按照从少到多对记录进行排序。

23、在一种实施方式中，所述方法包括：

24、当结果集中包含的两条或多条记录中的子串数量相同时，根据子串中的汉字与对应原中文词组中提取的汉字中相同汉字的数量由多到少对记录进行排序。

25、在一种实施方式中，所述方法包括：当结果集中包含的两条或多条记录中的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字为同一字的汉字数量也相同时，根据每条记录中子串对应的词语的频率之和对记录进行由高到低排序。

26、基于同样的专利技术构思，本专利技术第二方面提供了一种多中文词组的谐音拆分处理装置，包括：

27、中文词组获取模块，用于获取多个待处理中文词组；

28、汉字组合模块，用于从每个待处理中文词组中提取出一个汉字，组成初始汉字组合；

29、循环拆分模块，用于根据初始汉字组合的长度对其进行循环拆分，其中，循环拆分的过程包括：每次根据初始汉字组合的长度截取对应长度的汉字组合作为第一子串，其余汉字或者汉字组合作为第二子串；判断第二子串的长度是否大于1，如果大于1，则将第二子串作为当前汉字组合进行循环拆分，其中，每次拆分得到的所有子串的长度之和等于初始汉字组合的长度；

30、匹配模块，用于将每次拆分得到的子串转换为去声调的拼音，然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配，根据匹配情况得到匹配结果，将匹配结果和对应的子串作为一条记录加入至结果集；

31、结果输出模块，用于输出结果集，作为多中文词组的谐音拆分处理结果。

32、基于同样的专利技术构思，本专利技术第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

33、本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

34、本申请公开的多中文词组的谐音拆分处理方法，从每个待处理中文词组中提取出一个汉字组成初始汉字组合后，根据初始汉字组合的长度对该初始汉字组合进行循环拆分：每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串，其余汉字或者汉字组合作为第二子串；判断第二子串的长度是否大于1，如果大于1，则将第二子串作为当前汉字组合进行循环拆分，这种拆分方式考虑了多种组合拆分的情况，并且在进行匹配时，先将每次拆分得到的子串转换为拼音，然后将子串对应的拼音分别与预先构建的数据库中的词语的拼音进行匹配，考虑了汉字构成不同但拼音相同的情况，即考虑谐音，使得拆分的结果更为全面，从而多个中文词组的记忆方式更为丰富，实际应用过程中可以提高多中文词组的学习和记忆效率。

35、进一步地，当与子串的拼音匹配的词语与子串具有不同的汉字组成时，将数据库中的词语和对应的匹配结果作为一条记录，从而得到更全面的匹配结果，扩充了结果集。

36、进一步地，根据结果集中包含的记录中的子串数量对记录进行排序，可以优先将拆分部分较少的部分排列在前面。

37、进一步地，当结果集中包含的两条或多条记录中的子串数量相同时，则将子串中的汉字与对应原中文词组中提取的汉字本文档来自技高网...

【技术保护点】

1.一种多中文词组的谐音拆分处理方法，其特征在于，包括：

2.如权利要求1所述的多中文词组的谐音拆分处理方法，其特征在于，从每个待处理中文词组中提取出一个汉字，组成初始汉字组合，包括：

3.如权利要求1所述的多中文词组的谐音拆分处理方法，其特征在于，每次根据初始汉字组合的长度按照从左到右的顺序由多到少依次截取对应长度的汉字组合作为第一子串，其余汉字或者汉字组合作为第二子串，包括：

4.如权利要求1所述的多中文词组的谐音拆分处理方法，其特征在于，根据匹配情况得到匹配结果，包括：

5.如权利要求4所述的多中文词组的谐音拆分处理方法，其特征在于，所述方法还包括：

6.如权利要求1所述的多中文词组的谐音拆分处理方法，其特征在于，在输出结果集之后，所述方法还包括：

7.如权利要求1所述的多中文词组的谐音拆分处理方法，其特征在于，所述方法包括：

8.如权利要求1所述的多中文词组的谐音拆分处理方法，其特征在于，所述方法包括：当结果集中包含的两条或多条记录中的子串数量相同且子串中的汉字与对应原中文词组中提取的汉字

9.一种多中文词组的谐音拆分处理装置，其特征在于，包括：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一项权利要求所述的方法。

...

【技术特征摘要】

1.一种多中文词组的谐音拆分处理方法，其特征在于，包括：

2.如权利要求1所述的多中文词组的谐音拆分处理方法，其特征在于，从每个待处理中文词组中提取出一个汉字，组成初始汉字组合，包括：

4.如权利要求1所述的多中文词组的谐音拆分处理方法，其特征在于，根据匹配情况得到匹配结果，包括：

5.如权利要求4所述的多中文词组的谐音拆分处理方法，其特征在于，所述方法还包括：

6.如权利要求1所述的多中文词组的谐音拆分处理...

【专利技术属性】
技术研发人员：申一帆，
申请(专利权)人：武汉杏仁桉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人