生成简繁转换模板及基于模板进行简繁转换的方法、系统技术方案

技术编号:9667887 阅读:157 留言:0更新日期:2014-02-14 06:18
本申请提供了一种生成简繁转换模板的方法及系统、基于模板的中文简繁转换的方法及系统。该中文简繁转换的方法包括:获取第一混合词组;用数字标识符取代所述第一混合词组中的数字以获取第一中间混合词组;从预先生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组;其中,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为简体混合词组和繁体混合词组中的一种,所述第二混合词组为简体混合词组和繁体混合词组中的另一种。本申请可以准确并快速地将包含一对多字符和数字的混合词组进行简繁之间的转换。

【技术实现步骤摘要】
生成简繁转换模板及基于模板进行简繁转换的方法、系统
本申请涉及一种中文简繁转换的方法及系统,尤其涉及一种生成简繁转换模板及基于模板进行简繁转换的方法、系统。
技术介绍
中文文字有简体中文和繁体中文之分,在两岸四地的日常交流中经常需要将简体中文和繁体中文进行相互转换。此时,经常会遇到某些简体中文字符对应多个繁体中文字符的情况。例如,简体中文“里”可以对应繁体中文“里”或“裡”,简体中文“出”可以对应繁体中文“出”或“齣”,简体中文“发”可以对应繁体中文“髮”或“發”,反之亦然,例如繁体中文“乾”可以对应简体的“干”(葡萄干)和“乾”(乾隆、乾坤等),繁體中文“著”可以对应简体的“着”和“著”(著作)等。这种一对多情况可以在现有各类型模板的辅助下得到部分解决。然而在进行简繁转换时,经常会遇到包括一对多字符和各类型数字组成的混合词组(adhocnumericalphrases),例如,“有40里”、“唱了两出”等。当前的简繁转换技术在转换该类型混合词组时具有如下缺陷:大部分这种混合词组不含常规词典条目或词汇条目,使用常规词典无法进行转换,同时由于数字的不可穷尽性,因此无法完整构建该类型的词典。例如,简体中文“有40里”中不含任何固定词条,因而“里”(在此,“里”表示500米的单位长度)会错误地转换为“裡”(在此,“裡”表示内部);又例如,简体中文“唱了两出”同样不含任何固定词条,“出”应该被转换为繁体中文“齣”,却被错误地转换为繁体中文“出”。此外,由于该混合词组随着数字的改变会生成无数的变型,这使得基于概率的转换模型如N-Gram模型会变得无效,或者不能以任何类型的模板列出,或是难以用任何转换系统处理。
技术实现思路
为了提高简繁转换精度和转换效率,本申请提供了一种生成简繁转换模板的方法及系统、基于模板进行简繁转换的方法及系统。本申请的一个方案提供了一种生成简繁转换模板的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:获取第一混合词组-第二混合词组候选对;从所述第一混合词组-第二混合词组候选对中提取中间候选对;从所述中间候选对中获取具有最大覆盖率的候选对;使用所述具有最大覆盖率的候选对生成简繁转换模板。本申请的另一个方案提供了一种简繁中文转换方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:获取第一混合词组;用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;从生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。本申请的再一个方案提供了一种生成简繁转换模板的系统,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:候选对获取模块,获取第一混合词组-第二混合词组候选对;中间候选对提取模块,用于从所述第一混合词组-第二混合词组候选对中提取中间候选对;最大覆盖率候选对获取模块,用于从所述中间候选对中获取具有最大覆盖率的候选对;模板生成模块,用于使用所述具有最大覆盖率的候选对生成简繁转换模板。本申请的再一个方案提供了一种简繁中文转换系统,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,包括:第一混合词组获取模块,用于获取第一混合词组;第一中间混合词组获取模块,用于用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;第二中间混合词组查找模块,用于从生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;第二混合词组获取模块,用于根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。综上所述,利用预先生成的第一中文混合词组-第二中文混合词组候选对,可以快速和准确地完成包含一对多字符和数字的第一混合词组和第二混合词组之间的简繁转换。通过以下参照附图对本申请实施例的说明,本申请的上述以及其它目的、特征和优点将更加明显。附图说明下面将参照所附附图来描述本申请的实施例,其中:图1是本申请的实施例一提供的生成简繁转换模板的方法的流程图;图2是本申请的实施例一提供的获取第一混合词组-第二混合词组候选对的流程图;图3是本申请的实施例二提供的简繁中文转换方法的流程图;图4是本申请的实施例三提供的生成简繁转换模板的系统的方块图;图5是本申请的实施例三提供的候选对获取模块的结构图;图6是本申请的实施例四提供的简繁中文转换系统的方块图。具体实施方式下面结合附图详细描述本申请的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本申请。实施例一本实施例提供了一种生成简繁转换模板的方法,该方法用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种。如图1所示,该方法包括:S110,获取第一混合词组-第二混合词组候选对。为了描述简便,在本实施例中,第一混合词组为简体混合词组,即该第一混合词组为简体中文和数字相混合的词组,第二混合词组为繁体混合词组,即该第二混合词组为繁体中文和数字相混合的词组。具体地,如图2所示,该步骤包括:S211,获取第一中间混合词组,从而获取第二混合词组。具体地,以获取的第一中间混合词组为“小河長有40里”为例,将其表示为:“<TC>小河長有40里”,其中,“<TC>”表示为繁体混合词组,字符“里”为一对多字符,“40”为数字。其次,用数字标识符“[num]”取代第一中间混合词组中的数字“40”,得到第二中间混合词组“<TC>小河長有[num]里”,本领域技术人员可以理解的是,数字标识符“[num]”仅是举例需要,本申请的保护范围并不限于此。再次,以一对多字符“里”为基准对第二中间混合词组“<TC>小河長有[num]里”进行变换,从而得到多个第三中间混合词组。其中,本申请所述“变换”可以是一个混合词组通过增加、减少或改换字符,或者通过其他方式来达到形式上的扩展、缩减或变更。例如,对减少字符这一方式而言,将“<TC>小河長有[num]里”缩减为“<TC>河長有[num]里”、“<TC>長有[num]里”、“<TC>有[num]里”、“<TC>[num]里”、“<TC>里”等,从以上示例可以看出,本示例的字符缩减是从繁体混合词组的开头开始,依次缩减一个字符,本领域技术人员可以理解的是,字符缩减也可以从繁体混合词组的结尾开始,每次缩减本文档来自技高网
...
生成简繁转换模板及基于模板进行简繁转换的方法、系统

【技术保护点】
一种生成简繁转换模板的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:获取第一混合词组?第二混合词组候选对;从所述第一混合词组?第二混合词组候选对中提取中间候选对;从所述中间候选对中获取具有最大覆盖率的候选对;使用所述具有最大覆盖率的候选对生成简繁转换模板。

【技术特征摘要】
1.一种生成简繁转换模板的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:获取第一混合词组-第二混合词组候选对;从所述第一混合词组-第二混合词组候选对中提取中间候选对;从所述中间候选对中获取具有最大覆盖率的候选对;使用所述具有最大覆盖率的候选对生成简繁转换模板;所述获取第一混合词组-第二混合词组候选对的步骤包括:获取第二混合词组;将所述第二混合词组进行转换,获取对应所述第二混合词组的第一混合词组;将所述第一混合词组和所述第二混合词组组成所述第一混合词组-第二混合词组候选对。2.根据权利要求1所述的方法,其特征在于,获取第二混合词组的步骤包括:获取第一中间混合词组,所述第一中间混合词组包括所述一对多字符和所述数字;利用数字标识符取代所述第一中间混合词组中的数字,得到第二中间混合词组;利用所述一对多字符和/或所述数字标识符变换所述第二中间混合词组,得到第三中间混合词组;从所述第三中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合词组,得到所述第二混合词组。3.根据权利要求1所述的方法,其特征在于,获取第二混合词组的步骤包括:获取第一中间混合词组,所述第一中间混合词组包括所述一对多字符和所述数字;利用所述一对多字符和/或所述数字变换所述第一中间混合词组,得到第四中间混合词组;利用数字标识符取代所述第四中间混合词组中的数字,得到第五中间混合词组;从所述第五中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合词组,得到所述第二混合词组。4.根据权利要求1所述的方法,其特征在于,从所述第一混合词组-第二混合词组候选对中提取中间候选对的步骤包括:统计所述第一混合词组-第二混合词组候选对在训练文本中的转换频率;保留转换频率大于第一预设阈值的第一混合词组-第二混合词组候选对;统计大于第一预设阈值的第一混合词组和第二混合词组候选对的信心度是否大于第二预设阈值;如果是,则将信心度大于第二预设阈值的第一混合词组和第二混合词组候选对作为所述中间候选对。5.一种简繁中文转换方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:获取第一混合词组;用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;从根据权利要求1-4任意一项所述的方法生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。6.根据权利要求5所述的方法,其特征在于,通过字符串匹配方法,利用所述第一混合词组-第二混合词组候选对和所述第一中间混合词组从所述模板中查找所述第一中间混合词组对应的所述第二中间混合词组。7.根据权利要求5所述的方法,其特征在于,根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组的步骤包括:用所述数字取代所述第二中间混合词组中的数字标识符,进而得到所述第一混合词组对应的第二混合词组。8.根据权利要求5所述的方法,其特征在于,获取第一混合词组的步骤之前还包括:接收用户输入的第一混合词组,判断所述第一混合词组中包含所述一对多字符和所述数字的步骤。9.根据权利要求5所述的方法,其特征在于,所述数字为中文数字或阿拉伯数字。10.一种生成简繁转换模板的系统,用于第一和第二混合词组之间的转换,所述第一和第二混合...

【专利技术属性】
技术研发人员:朱纯深郝天永
申请(专利权)人:香港城市大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1