【技术实现步骤摘要】
生成简繁转换模板及基于模板进行简繁转换的方法、系统
本申请涉及一种中文简繁转换的方法及系统,尤其涉及一种生成简繁转换模板及基于模板进行简繁转换的方法、系统。
技术介绍
中文文字有简体中文和繁体中文之分,在两岸四地的日常交流中经常需要将简体中文和繁体中文进行相互转换。此时,经常会遇到某些简体中文字符对应多个繁体中文字符的情况。例如,简体中文“里”可以对应繁体中文“里”或“裡”,简体中文“出”可以对应繁体中文“出”或“齣”,简体中文“发”可以对应繁体中文“髮”或“發”,反之亦然,例如繁体中文“乾”可以对应简体的“干”(葡萄干)和“乾”(乾隆、乾坤等),繁體中文“著”可以对应简体的“着”和“著”(著作)等。这种一对多情况可以在现有各类型模板的辅助下得到部分解决。然而在进行简繁转换时,经常会遇到包括一对多字符和各类型数字组成的混合词组(adhocnumericalphrases),例如,“有40里”、“唱了两出”等。当前的简繁转换技术在转换该类型混合词组时具有如下缺陷:大部分这种混合词组不含常规词典条目或词汇条目,使用常规词典无法进行转换,同时由于数字的不可穷尽性,因此无法完整构建该类型的词典。例如,简体中文“有40里”中不含任何固定词条,因而“里”(在此,“里”表示500米的单位长度)会错误地转换为“裡”(在此,“裡”表示内部);又例如,简体中文“唱了两出”同样不含任何固定词条,“出”应该被转换为繁体中文“齣”,却被错误地转换为繁体中文“出”。此外,由于该混合词组随着数字的改变会生成无数的变型,这使得基于概率的转换模型如N-Gram模型会变得无效,或者不能以任何 ...
【技术保护点】
一种生成简繁转换模板的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:获取第一混合词组?第二混合词组候选对;从所述第一混合词组?第二混合词组候选对中提取中间候选对;从所述中间候选对中获取具有最大覆盖率的候选对;使用所述具有最大覆盖率的候选对生成简繁转换模板。
【技术特征摘要】
1.一种生成简繁转换模板的方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:获取第一混合词组-第二混合词组候选对;从所述第一混合词组-第二混合词组候选对中提取中间候选对;从所述中间候选对中获取具有最大覆盖率的候选对;使用所述具有最大覆盖率的候选对生成简繁转换模板;所述获取第一混合词组-第二混合词组候选对的步骤包括:获取第二混合词组;将所述第二混合词组进行转换,获取对应所述第二混合词组的第一混合词组;将所述第一混合词组和所述第二混合词组组成所述第一混合词组-第二混合词组候选对。2.根据权利要求1所述的方法,其特征在于,获取第二混合词组的步骤包括:获取第一中间混合词组,所述第一中间混合词组包括所述一对多字符和所述数字;利用数字标识符取代所述第一中间混合词组中的数字,得到第二中间混合词组;利用所述一对多字符和/或所述数字标识符变换所述第二中间混合词组,得到第三中间混合词组;从所述第三中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合词组,得到所述第二混合词组。3.根据权利要求1所述的方法,其特征在于,获取第二混合词组的步骤包括:获取第一中间混合词组,所述第一中间混合词组包括所述一对多字符和所述数字;利用所述一对多字符和/或所述数字变换所述第一中间混合词组,得到第四中间混合词组;利用数字标识符取代所述第四中间混合词组中的数字,得到第五中间混合词组;从所述第五中间混合词组中过滤掉不包括所述一对多字符和所述数字标识符的混合词组,得到所述第二混合词组。4.根据权利要求1所述的方法,其特征在于,从所述第一混合词组-第二混合词组候选对中提取中间候选对的步骤包括:统计所述第一混合词组-第二混合词组候选对在训练文本中的转换频率;保留转换频率大于第一预设阈值的第一混合词组-第二混合词组候选对;统计大于第一预设阈值的第一混合词组和第二混合词组候选对的信心度是否大于第二预设阈值;如果是,则将信心度大于第二预设阈值的第一混合词组和第二混合词组候选对作为所述中间候选对。5.一种简繁中文转换方法,用于第一和第二混合词组之间的转换,所述第一和第二混合词组包括一对多字符和数字,所述第一混合词组为繁体混合词组和简体混合词组中的一种,所述第二混合词组为繁体混合词组和简体混合词组中的另一种,其特征在于,包括:获取第一混合词组;用数字标识符取代所述第一混合词组中的所述数字,以获取第一中间混合词组;从根据权利要求1-4任意一项所述的方法生成的模板中查找所述第一中间混合词组对应的第二中间混合词组;根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组。6.根据权利要求5所述的方法,其特征在于,通过字符串匹配方法,利用所述第一混合词组-第二混合词组候选对和所述第一中间混合词组从所述模板中查找所述第一中间混合词组对应的所述第二中间混合词组。7.根据权利要求5所述的方法,其特征在于,根据所述数字标识符和所述第二中间混合词组获取所述第一混合词组对应的第二混合词组的步骤包括:用所述数字取代所述第二中间混合词组中的数字标识符,进而得到所述第一混合词组对应的第二混合词组。8.根据权利要求5所述的方法,其特征在于,获取第一混合词组的步骤之前还包括:接收用户输入的第一混合词组,判断所述第一混合词组中包含所述一对多字符和所述数字的步骤。9.根据权利要求5所述的方法,其特征在于,所述数字为中文数字或阿拉伯数字。10.一种生成简繁转换模板的系统,用于第一和第二混合词组之间的转换,所述第一和第二混合...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。