一种基于Java的准确提取词语拼音的方法技术

技术编号:20160694 阅读:19 留言:0更新日期:2019-01-19 00:13
本发明专利技术特别涉及一种基于Java的准确提取词语拼音的方法。该基于Java的准确提取词语拼音的方法,首先收集常见多音字词语,构建词库;在获取到文本字符串时,循环遍历每个字符,获取每个汉字拼音,然后判断汉字是否为多音字,若不是多音字,则直接保存结果;若是多音字,则向后取词组与词库匹配,若匹配成功则取出拼音保存,若匹配不成功则取该字的默认拼音,保存;遍历完成后,将拼接后的内容返回。该基于Java的准确提取词语拼音的方法,对提取汉字拼音功能中的多音字处理进行了充分判断,对汉字前后相连词语多次匹配,准确度高,使用方便,极大的提高了工作效率。

【技术实现步骤摘要】
一种基于Java的准确提取词语拼音的方法
本专利技术涉及计算机软件开发
,特别涉及一种基于Java的准确提取词语拼音的方法。
技术介绍
当前,大多数的软件开发公司都在使用Java进行软件开发,Java语言开发范围涉及广。利用Java语言开发的系统涉及范围更是囊括了财务软件,ERP软件,物流软件等信息管理系统。在系统中开发过程中会遇到需要提取中文内容的拼音或首字母的功能模块。现有工具包虽然可以提供汉字转拼音、首字母功能,但对于多音字无法准确处理,开发人员需编写大量代码来匹配比较准确的多音字拼音,效率较低。针对上述问题,本专利技术提出了一种基于Java的准确提取词语拼音的方法。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于Java的准确提取词语拼音的方法。本专利技术是通过如下技术方案实现的:一种基于Java的准确提取词语拼音的方法,其特征在于,包括以下步骤:(1)收集常见多音字词语,保存于词库中;(2)获取文本字符串;(3)循环遍历每个字符,获取每个汉字拼音;(4)判断汉字是否为多音字,若不是多音字,则直接保存结果;(5)若是多音字,则向后取词组与词库匹配,若匹配成功则取出拼音保存,若匹配不成功则取该字的默认拼音,保存;(6)遍历完成后,将拼接后的内容返回。所述步骤(1)中,收集常见多音字词语,并根据单字不同读音将词语分类,保存于词库中。所述步骤(4)中,首先判断该字符是否为汉字,不是汉字则直接保存原内容;如果该字符是汉字,获取其汉语拼音字符串组,如果字符串组长度为1,则不是多音字,直接保存;如果字符串组长度大于1,则该汉字为多音字。所述步骤(5)中,首先从该汉字向后取2个汉字,将此3个字在词库中匹配;如果没有匹配到,再重新向后取1个汉字进行匹配;如果没有匹配到,再向前取2汉字在词库中匹配;如果没有匹配到,向前取1汉字依次进行匹配;在此过程中,如果匹配成功则取出拼音保存,若均未匹配到,则取词库中此汉字的默认读音。本专利技术的有益效果是:该基于Java的准确提取词语拼音的方法,对提取汉字拼音功能中的多音字处理进行了充分判断,对汉字前后相连词语多次匹配,准确度高,使用方便,极大的提高了工作效率。附图说明附图1为本专利技术基于Java的准确提取词语拼音的方法示意图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。该基于Java的准确提取词语拼音的方法,包括以下步骤,(1)收集常见多音字词语,保存于词库中;(2)获取文本字符串;(3)循环遍历每个字符,获取每个汉字拼音;(4)判断汉字是否为多音字,若不是多音字,则直接保存结果;(5)若是多音字,则向后取词组与词库匹配,若匹配成功则取出拼音保存,若匹配不成功则取该字的默认拼音,保存;(6)遍历完成后,将拼接后的内容返回。所述步骤(1)中,收集常见多音字词语,并根据单字不同读音将词语分类,保存于词库中。所述步骤(4)中,首先判断该字符是否为汉字,不是汉字则直接保存原内容;如果该字符是汉字,获取其汉语拼音字符串组,如果字符串组长度为1,则不是多音字,直接保存;如果字符串组长度大于1,则该汉字为多音字。所述步骤(5)中,首先从该汉字向后取2个汉字,将此3个字在词库中匹配;如果没有匹配到,再重新向后取1个汉字进行匹配;如果没有匹配到,再向前取2汉字在词库中匹配;如果没有匹配到,向前取1汉字依次进行匹配;在此过程中,如果匹配成功则取出拼音保存,若均未匹配到,则取词库中此汉字的默认读音。本文档来自技高网...

【技术保护点】
1.一种基于Java的准确提取词语拼音的方法,其特征在于,包括以下步骤:收集常见多音字词语,保存于词库中;获取文本字符串;循环遍历每个字符,获取每个汉字拼音;判断汉字是否为多音字,若不是多音字,则直接保存结果;若是多音字,则向后取词组与词库匹配,若匹配成功则取出拼音保存,若匹配不成功则取该字的默认拼音,保存;遍历完成后,将拼接后的内容返回。

【技术特征摘要】
1.一种基于Java的准确提取词语拼音的方法,其特征在于,包括以下步骤:收集常见多音字词语,保存于词库中;获取文本字符串;循环遍历每个字符,获取每个汉字拼音;判断汉字是否为多音字,若不是多音字,则直接保存结果;若是多音字,则向后取词组与词库匹配,若匹配成功则取出拼音保存,若匹配不成功则取该字的默认拼音,保存;遍历完成后,将拼接后的内容返回。2.根据权利要求1所述的基于Java的准确提取词语拼音的方法,其特征在于:所述步骤(1)中,收集常见多音字词语,并根据单字不同读音将词语分类,保存于词库中。3.根据权利要求1所述的基于Java的准确提取词语拼音的方法,其特...

【专利技术属性】
技术研发人员:李健林杰徐兵兵郭凤
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1