一种拼音流切分方法及系统技术方案

技术编号:10529262 阅读:144 留言:0更新日期:2014-10-15 11:11
本发明专利技术提出了一种拼音流切分方法及系统,该拼音流切分方法包括如下步骤:分别在字符存储阵列的字符存储单元中存储一个字母和一个指针,在音节存储阵列的音节存储子阵列中存储音节串,字符存储单元与音节存储子阵列一一对应,字符存储单元中的指针指向字符存储单元所对应的音节存储子阵列;控制器在接收到通过人机交互界面输入的检索串时,根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与检索串对应的音节串,对检索串进行切分,并指令人机交互界面对所有音节串组合进行显示。本发明专利技术利用字符存储单元存储的字母与音节存储子阵列存储的音节串的对应关系对检索串进行切分,能够提高音节切分速度和准确率。

【技术实现步骤摘要】
【专利摘要】本专利技术提出了一种拼音流切分方法及系统,该拼音流切分方法包括如下步骤:分别在字符存储阵列的字符存储单元中存储一个字母和一个指针,在音节存储阵列的音节存储子阵列中存储音节串,字符存储单元与音节存储子阵列一一对应,字符存储单元中的指针指向字符存储单元所对应的音节存储子阵列;控制器在接收到通过人机交互界面输入的检索串时,根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与检索串对应的音节串,对检索串进行切分,并指令人机交互界面对所有音节串组合进行显示。本专利技术利用字符存储单元存储的字母与音节存储子阵列存储的音节串的对应关系对检索串进行切分,能够提高音节切分速度和准确率。【专利说明】一种拼音流切分方法及系统
本专利技术涉及数据处理
,具体涉及一种能够提高速度和准确率的拼音流切 分方法及系统。
技术介绍
拼音字符串的音节切分技术是指把用户输入的拼音字符串(不包含声调、音节分 割符等)切分为若干个符合汉语语法规则的音节字符串的过程,通常采用拼音分隔符"'"来 连接切分后的各音节子串。例如用户输入的拼音字符串"woaibeijingtiananmen"可切分 为"wo' ai' bei' jing' tian' an' men"。音节切分技术是拼音向汉字转换的基础,有效的音 节切分可降低用户负担,增强用户体验性。 目前,常用的音节切分方式是基于统计的切分方式,即通过概率算法,计算用户 输入拼音串中拼音字符连续的概率,从而获取切分结果,这种方法虽然能够较好地适应各 种拼音应用,具有较强的扩展性与适应性,但算法复杂、计算量大、音节切分速度慢,准确率 低。
技术实现思路
为了克服上述现有技术中存在的缺陷,本专利技术的目的是提供一种拼音流切分方法 及系统,该拼音流切分方法算法简洁,能够提高音节切分速度和准确率。 为了实现本专利技术的上述目的,根据本专利技术的一个方面,本专利技术提供了一种拼音流 切分方法,包括如下步骤: S1,数据存储:分别在存储器的字符存储阵列的Μ个字符存储单元中存储一个字 母和一个指针,在存储器的音节存储阵列的Μ个音节存储子阵列中存储音节串,所述字符 存储单元与所述音节存储子阵列一一对应,所述字符存储单元中的指针指向所述字符存储 单元所对应的音节存储子阵列,所述音节存储阵列的第Ν个音节存储子阵列包括Ρ Ν个音节 存储单元,所述ΡΝ个音节存储单元中依次存储有所述音节存储子阵列对应的字符存储单元 中存储的字母为首字母的音节串,所述Μ、Ν、Ρ Ν均为正整数,所述N=l,2,…,Μ ; S2,数据查询:控制器在接收到通过人机交互界面输入的检索串时,根据字符存 储单元与音节存储子阵列的对应关系在存储器中查找与所述检索串对应的音节串,对检索 串进行切分,并指令人机交互界面对所有音节串组合进行显示。 本专利技术的拼音流切分方法利用字符存储单元存储的字母与音节存储子阵列存储 的音节串的对应关系对检索串进行切分,能够提高音节切分速度和准确率。 在本专利技术的一种优选实施例中,控制器在接收到通过人机交互界面输入的检索串 时,根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与所述检索串对应的 音节串组合的步骤为: S21 :控制器获取检索串; S22 :控制器判断检索串是否包含汉字,如果检索串包含汉字则将所述检索串中的 汉字转化为拼音; S23 :从所述检索串中提取待分割检索串; S24:控制器判断所述待分割检索串是否为空,如果待分割检索串为空,则结束拼 音流切分算法,将结果集通过人机交互界面进行显示; S25 :控制器获取待分割检索串中的首字符并根据字符存储单元与音节存储子阵 列的对应关系在存储器中查找所述首字符的字符匹配集; S26 :判断所述字符匹配集中首字符音节串的后续字符的字符匹配集是否为空,如 果为空,则说明当前音节分割方式错误,将后续字符的字符匹配集是空的音节串删除,并将 该音节串相应的待分割检索串删除,返回步骤S23 ; S27 :判断字符匹配集中的音节串个数是否为1,如果为1,则将音节串置入结果集 并将所述音节串从所述检索串中删除,返回步骤S23 ; S28 :将字符匹配集中的音节串存入结果集中,分别将音节串从检索串中删除,返 回步骤S23。 本专利技术提取待分割检索串对只对待分割检索串进行切分,并删除字符匹配集中首 字符音节串的后续字符的字符匹配集为空的字符匹配集,大大提高了音节切分速度和切分 效率,另外,本专利技术对检索串的所有音节切分结果进行显示,提高了用户使用的便利性。 在本专利技术的另一种优选实施例中,当所述检索串包含汉字时,控制器将所述检索 串中的汉字转化为用分隔符分隔的拼音,提取所述检索串中非中文拼音的部分作为待分割 检索串。 本专利技术将检索串中的汉字转化为用分隔符分隔的拼音,提取检索串中非中文拼音 的部分作为待分割检索串,能够提高音节切分速度和切分效率。 在本专利技术的再一种优选实施例中,当所述检索串包含分隔符时,被所述分隔符分 割的检索串单元分别作为待分割检索串。 本专利技术当检索串包含分隔符时,被分隔符分割的检索串单元分别作为待分割检索 串,能够提高音节切分速度和切分效率。 在本专利技术的一种优选实施例中,所述PpP2、…、Ρμ^Ρμ的数值相等。 在本专利技术的另一种优选实施例中,所述ΡρΡ2、…、Ρμ^Ρμ的数值不全部相等。 本专利技术第Ν个音节存储子阵列的音节存储单元的数量ΡΝ可以相同也可以不相同, 提高了设计的灵活性,同时,音节存储单元的数量Ρ Ν可以根据其存储的音节串的数量进行 设计,节约了存储空间。 在本专利技术的一种优选实施例中,所述Μ为23。 汉语中不存在首字符为"i "、"u"、"v"的音节串,本专利技术字符存储阵列包括23个字 符存储单元,音节存储阵列包括23个音节存储子阵列,从而节约了存储空间。 为了实现本专利技术的上述目的,根据本专利技术的二个方面,本专利技术提供了一种拼音流 切分系统,包括:人机交互界面、控制器和存储器,所述人机交互界面与所述控制器连接,所 述控制器与所述存储器连接;所述存储器包括字符存储阵列和音节存储阵列,所述字符存 储阵列包括Μ个字符存储单元,所述音节存储阵列包括Μ个音节存储子阵列,所述字符存储 单元与所述音节存储子阵列一一对应,所述字符存储阵列的Μ个字符存储单元中依次存储 有一个字母以及指向所述字符存储单元所对应的音节存储子阵列的指针,所述音节存储阵 列的第N个音节存储子阵列包括PN个音节存储单元,所述PN个音节存储单元中依次存储有 所述音节存储子阵列对应的字符存储单元中存储的字母为首字母的音节串,所述M、N、Pn均 为正整数,所述N=l,2,…,Μ ;所述控制器用于:在接收到通过人机交互界面输入的检索串 时,根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与所述检索串对应 的音节串组合,并指令人机交互界面对所有音节串组合进行显示。 本专利技术的拼音流切分系统利用字符存储单元存储的字母与音节存储子阵列存储 的音节串的对应关系对检索串进行切分,能够提高音节切分速度和准确率。 本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下本文档来自技高网
...
一种拼音流切分方法及系统

【技术保护点】
一种拼音流切分方法,其特征在于,包括如下步骤:S1,数据存储:分别在存储器的字符存储阵列的M个字符存储单元中存储一个字母和一个指针,在存储器的音节存储阵列的M个音节存储子阵列中存储音节串,所述字符存储单元与所述音节存储子阵列一一对应,所述字符存储单元中的指针指向所述字符存储单元所对应的音节存储子阵列,所述音节存储阵列的第N个音节存储子阵列包括PN个音节存储单元,所述PN个音节存储单元中依次存储有所述音节存储子阵列对应的字符存储单元中存储的字母为首字母的音节串,所述M、N、PN均为正整数,所述N=1,2,…,M;S2,数据查询:控制器在接收到通过人机交互界面输入的检索串时,根据字符存储单元与音节存储子阵列的对应关系在存储器中查找与所述检索串对应的音节串,对检索串进行切分,并指令人机交互界面对所有音节串组合进行显示。

【技术特征摘要】

【专利技术属性】
技术研发人员:熊小鹏刘磊
申请(专利权)人:重庆新媒农信科技有限公司
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1