一种自动为汉字添加拼音的方法及装置制造方法及图纸

技术编号:4199980 阅读:299 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自动为汉字添加拼音的方法及装置,用以解决现有技术中存在的为汉字自动添加拼音的工作效率低,准确性差的问题。本发明专利技术提供的自动为汉字添加拼音的方法包括:将用户选定的需要添加拼音的汉字与预先设置的词库中的词进行词匹配操作,将匹配成功的所述词库中的词的拼音添加给相应的需要添加拼音的汉字;当所述词匹配操作失败时,将所述词匹配失败的汉字与预先设置的字库中的字进行字匹配操作,将匹配成功的所述字库中的字的拼音添加给相应的需要添加拼音的汉字。本发明专利技术用于为汉字自动添加拼音,提高添加拼音的准确性及工作效率。

【技术实现步骤摘要】

本专利技术涉及印刷排版
,尤其涉及一种自动为汉字添加拼音的方法 及装置。
技术介绍
由于汉字中存在大量的多音字,怎样确定整篇文档中的多音字的拼音是一 个很困难的问题。因此,在当前各种排版或者文档处理软件中,很少具有可以 直接给整段或整篇文章进行大数据量地添加拼音的功能。现有技术中常见的添加拼音方式主要有以下两种基于字和词级别的添加拼音方式。但是,由于汉字多音字的存在,往往还 需要用户进行选择以确定该字的拼音。基于段和篇级别的添加拼音方式。但是,由于确定多音字拼音所采用的方 法运算的复杂性, 一般添加拼音的效率很低,并且不是完全自动匹配,遇到多 音字的情况需要用户进行选择或校正。综上所述,现有技术一般都需要基于中文分词后查找词库的方法来完成自 动为汉字添加拼音,这种方法需要有分词字典和拼音库的支持,其复杂的匹配 运算过程对于大量汉字加拼音的情况效率很低,不适于整篇文章等大量数据的 加拼音操作。如果不分词,则准确率太差,需要进行大量的手动校正。因此, 现有技术为汉字添加拼音的排版工作效率低,并且浪费人力。
技术实现思路
本专利技术实施例提供了 一种自动为汉字添加拼音的方法及装置,用以解决现 有技术中存在的为汉字自动添加拼音的工作效率低,准确性差的问题。本专利技术实施例提供的自动为汉字添加拼音的方法包括 将用户选定的需要添加拼音的汉字与预先设置的词库中的词进行词匹配 操作,将匹配成功的所述词库中的词的拼音添加给相应的需要添加拼音的汉字;当所述词匹配操作失败时,将所述词匹配失败的汉字与预先设置的字库中 的字进行字匹配操作,将匹配成功的所述字库中的字的拼音添加给相应的需要 添加4并音的汉字。本专利技术实施例提供的自动为汉字添加拼音的装置包括第一匹配单元,用于将用户选定的需要添加拼音的汉字与预先设置的词库 中的词进行词匹配操作,将匹配成功的所述词库中的词的拼音添加给相应的需 要添加拼音的汉字;第二匹配单元,用于当所述词匹配操作失败时,将所述词匹配失败的汉字 与预先设置的字库中的字进行字匹配操作,将匹配成功的所述字库中的字的拼 音添加给相应的需要添加拼音的汉字。本专利技术实施例,将用户选定的需要添加拼音的汉字分别与预先设置的词库 中的词进行词匹配操作,将匹配成功的所述词库中的词的拼音添加给相应的需 要添加拼音的汉字;当所述词匹配操作失败时,将所述词匹配失败的汉字与预 先设置的字库中的字进行字匹配操作,将匹配成功的所述字库中的字的拼音添 加给相应的需要添加拼音的汉字。通过该技术方案,实现了自动为用户选定的 文字添加拼音的操作,在保证准确性的前提下,避免了现有技术由于需要进行 分词而带来的复杂运算问题,提高了自动添加拼音的工作效率。附图说明图1为本专利技术实施例提供的自动为汉字添加拼音的总体方法流程示意图; 图2为用户选定的需要添加拼音的文档示意图3为本专利技术实施例提供的为汉字数组中的汉字添加拼音的具体流程示意示意图5为用户选定的若干段落的示意图6为采用本专利技术实施例提供的方法为用户选定的若干段落添加拼音后的 效果示意图。具体实施例方式本专利技术实施例,提供了一种自动为汉字添加拼音的方法及装置。对于选定 的需要添加拼音的文字中每两个相邻的非汉字字符之间的汉字,通过将其分别 与预先设置的词库中的词或字库中的字进行匹配,以得到需要添加的拼音,从 而在不进行分词的情况下达到与分词后再加拼音同样的准确率,提高为汉字添 加拼音的效率。下面结合附图,说明本专利技术的具体实施方式。参见图1,本专利技术实施例提供的自动为汉字添加拼音的方法包括5101、 在文字小样部分,提供给每个汉字设置拼音的入口。将拼音作为汉 字的辅助部分,如果该汉字没有或者不需要添加拼音,则该辅助存储部分为空。 当用户使用自动为汉字添加拼音的功能时,读取字符的指针从被选定的文字部 分的第一个字符开始,依次读取字符。例如,参见图2,用户选定的文档部分为"2007年的新年钟声已经敲响。 在这辞旧迎新的美好时刻",则指针从数字字符"2"开始读取字符,直到最后 一个字符"刻"。5102、 将连续的两个非汉字字符之间的汉字添加到汉字数组中。 具体地,判断读取到的字符是否是汉字字符,如果是,则将汉字字符收集到汉字数组中;否则,此次收集结束,对汉字数组执行步骤S103。5103、 判断汉字数组中没有加拼音的汉字个数,如果不为零,则将汉字数组中第一个还没有加拼音的汉字到最后一个汉字作为是一个词语,从第一个还 没有加拼音的汉字开始,逐个在预先设置的词库或字库中进行匹配,将匹配到的字的拼音添加给汉字数组中的相应汉字;若为零,则继续读取下一个字符, 重新收集一组汉字到汉字数组中。例如,参见图2,先将汉字"年的新年钟声已经敲响,,收集到了汉字数组 中,并对"年的新年钟声已经敲响,,分别添加拼音。然后利用"在这辞旧迎新 的美好时刻"去更新汉字数组中收集的"年的新年钟声已经敲响",并对"在 这辞旧迎新的美好时刻"分别添加拼音。预先设置的词库中,包括组成各个词的汉字所对应拼音。较佳地,可以根据需要设置多个优先级不同的词库,例如,将用户经常用 到的词及其相应的拼音设置为第一优先级词库,将其他普通词及其相应的拼音 设置为第二优先级词库。先从第一优先级词库开始匹配,如果没有匹配上,再 对第二优先级词库中的词进行匹配。在进行词匹配操作时,包括完全匹配和部分匹配两种情况。所述完全匹配, 就是说汉字数组中的连续的多个汉字所组成的词,与词库中存储的某一个词完 全匹配。所述部分匹配,是指汉字数组中的连续的多个汉字所组成的词,与词 库中存储的某一个词只匹配上了一部分。例如,词库中存储的词有"新年快乐", 汉字数组中的连续的两个汉字为"新年,,,下一个汉字不是"快",所以,只与 "新年快乐,,中的两个字匹配上了,此时从词库中读取"新年快乐"中的"新 年"两个字的拼音,分别添加给汉字数组中的"新年"。完全匹配和部分匹配都认为词匹配操作是成功的。如果在词库中没有匹配 成功时,则对预先设置的字库中的字进行匹配。预先设置的字库中,包括各个汉字的拼音,并且,按照使用的频率,为多 音字设置了具有不同优先级的多个拼音,可以在为汉字选择拼音的时候,选择 优先级最高的拼音,作为该汉字的拼音。参见图3,本专利技术实施例中,步骤S103为汉字数组中的汉字添加拼音的具体操作包括以下步骤5301、 计算当前能和词库中的词匹配上的汉字数组中的连续的多个汉字的 数目,本专利技术实施例中称之为最大匹配汉字个数。较佳地,先计算第一优先级词库中的最大匹配汉字个数,如果小于或等于 1,说明在第一优先级词库中没有完全匹配或部分匹配的词,需要检索第二优 先级词库,计算相应的最大匹配汉字个数,如果还是小于或等于1,说明在第 二优先级词库中也没有完全匹配或部分匹配的词,需要进一步在字库中进行匹 配。5302、 判断最大匹配汉字个数是否大于1,如果是,则执行步骤S303;否 则,执行步骤S304。S303 、从词库中读取词匹配操作成功的词的拼音,结合汉字数组中匹配上 的各个汉字的编码以及该汉字在汉字数组中的索引位置,添加相应的拼音给汉 字数组中的相应汉字。S304、从字库中读取字匹配操作成功的汉字的拼音添加给汉字数组中的相 应汉字。较佳地,步骤S303具体包括第一步根据最大匹配汉字个数,查本文档来自技高网...

【技术保护点】
一种自动为汉字添加拼音的方法,其特征在于,该方法包括: 将用户选定的需要添加拼音的汉字与预先设置的词库中的词进行词匹配操作,将匹配成功的所述词库中的词的拼音添加给相应的需要添加拼音的汉字; 当所述词匹配操作失败时,将所述词匹配失 败的汉字与预先设置的字库中的字进行字匹配操作,将匹配成功的所述字库中的字的拼音添加给相应的需要添加拼音的汉字。

【技术特征摘要】

【专利技术属性】
技术研发人员:王铭宇王全鹏杨春
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1