简繁体汉字的转换方法及系统技术方案

技术编号:10015934 阅读:141 留言:0更新日期:2014-05-08 11:40
本申请公开了一种简繁体汉字相互转换的方法及系统,其中,简体到繁体的转换系统包括:字典模块,用于保存用户自定义映射字典和简繁体映射字典;输入模块,用于输入要被转换的简体字符串;转换模块,用于先对简体字符串进行分句再进行分词,将得到的简体词语转换为繁体词语;输出模块,用于将所有繁体词语进行组合,形成繁体字符串输出。分词时,使用正向最大匹配算法和逆向最大匹配算法相结合的双向最大匹配算法,计算正向分词结果的正向权值以及逆向分词结果的逆向权值,取权值较大的那个作为最终的分词结果,当权值相等时,取逆向分词结果作为最终分词结果。本申请实现了对同一事物的不同表达方式之间的转换,而且分词结果更加地准确。

【技术实现步骤摘要】
【专利摘要】本申请公开了一种简繁体汉字相互转换的方法及系统,其中,简体到繁体的转换系统包括:字典模块,用于保存用户自定义映射字典和简繁体映射字典;输入模块,用于输入要被转换的简体字符串;转换模块,用于先对简体字符串进行分句再进行分词,将得到的简体词语转换为繁体词语;输出模块,用于将所有繁体词语进行组合,形成繁体字符串输出。分词时,使用正向最大匹配算法和逆向最大匹配算法相结合的双向最大匹配算法,计算正向分词结果的正向权值以及逆向分词结果的逆向权值,取权值较大的那个作为最终的分词结果,当权值相等时,取逆向分词结果作为最终分词结果。本申请实现了对同一事物的不同表达方式之间的转换,而且分词结果更加地准确。【专利说明】简繁体汉字的转换方法及系统
本申请涉及语言处理
,特别涉及一种简繁体汉字相互转换的方法及系统。
技术介绍
随着数字化和信息化的发展,交流变得越来越重要,通过电子文件进行交流已经是人们相互交流的一种重要手段。由于历史原因,原有的部分繁体汉字已经被进行了简化,形成了目前在中国大陆使用的简体汉字。从而造成了汉字存在简体和繁体两种书写形式的客观现实。例如,在中国大陆和新加坡,虽然也偶见使用繁体汉字的场合,但是在绝大多数情况下都是使用简体汉字;而在中国的台湾、香港和澳门地区,则完全使用原有的繁体汉字。因此,简体汉字和繁体汉字之间的差异,已经为简体汉字使用地区和繁体汉字使用地区的人们之间的沟通障碍。为了让上述简体汉字使用地区和繁体汉字使用地区的人们能够完全相互读懂对方所书写的电子文件中的汉语,需要针对不同的用户,对电子文件中的汉语中的简体汉字和繁体汉字不一样的汉字进行正确的转换,以避免简繁体汉字差异带来的沟通不畅。现有的一种简体和繁体汉字相互转换的方法的实现过程如下:把将要被转换的简体/繁体汉字字符串划分成若干个词语/术语,并且把每一个词语/术语鉴别-定义为:其中在标记形式上与繁体/简体汉字的词语/术语相同或虽然不同但具有确定对应关系的第一类词语/术语、以及在标记形式上与繁体/简体汉字的词语/术语不同且不具有确定对应关系的简体/繁体汉字的第二类词语/术语。采用映射表将第一类词语/术语直接映射成与输入的简体/繁体汉字的词语/术语唯一对应的繁体/简体汉字的词语/术语。采用统计分类方法将第二类词语/术语转换成与输入的简体/繁体汉字的词语/术语合理对应的繁体/简体汉字的词语/术语。将采用映射表方法和采用统计分类方法而得到的结果进行组合并输出。但是,上述方法在进行分词时,是采用现有技术的正向最大匹配算法进行分词的,这样,很容易导致分词不准确的问题。而且,也只能利用系统自带的映射表进行分词,无法针对简繁体用户之间对外来词的翻译习惯带来的差异用语进行转换。
技术实现思路
本申请提供了一种简繁体汉字相互转换的方法及系统,以解决现有技术中存在的仅采用正向最大匹配算法进行分词所导致的分词不准确的问题,以及无法针对简繁体用户之间对外来词的翻译习惯带来的差异用语进行转换的问题。本申请的技术方案如下:一方面,提供了一种简体汉字到繁体汉字的转换系统,包括:字典模块,用于保存用户自定义映射字典和简繁体映射字典,其中,用户自定义映射字典用于记录用户预先设置的简体汉字词语到繁体汉字词语的映射关系,简繁体映射字典用于记录系统自带的简体汉字词语到繁体汉字词语的映射关系;输入模块,用于输入将要被转换的文件中的简体汉字字符串;转换模块,用于按照标点符号将输入模块输入的简体汉字字符串划分为多个简体汉字短句;还用于根据字典模块中的用户自定义映射字典和简繁体映射字典,对每一个简体汉字短句进行分词得到多个简体汉字词语,并将每一个简体汉字词语转换为对应的繁体汉字词语;输出模块,用于将转换模块转换得到的所有的繁体汉字词语进行组合,形成与输入的简体汉字字符串对应的繁体汉字字符串,并将繁体汉字字符串输出到文件中;其中,转换模块包括:匹配单元,用于使用正向最大匹配算法,将一个简体汉字短句与用户自定义映射字典和简繁体映射字典进行匹配,得到该简体汉字短句的正向分词结果;还用于使用逆向最大匹配算法,将该简体汉字短句与用户自定义映射字典和简繁体映射字典进行匹配,得到该简体汉字短句的逆向分词结果;计算单元,用于计算匹配单元得到的正向分词结果的正向权值、以及逆向分词结果的逆向权值;确定单元,用于在计算单元计算出的正向权值大于逆向权值时,确定该简体汉字短句的最终分词结果为其正向分词结果,在逆向权值大于或等于正向权值时,确定该简体汉字短句的最终分词结果为其逆向分词结果。另一方面,还提供了一种简体汉字到繁体汉字的转换方法,包括:输入将要被转换的文件中的简体汉字字符串,按照标点符号将输入的简体汉字字符串划分为多个简体汉字短句;根据用户自定义映射字典和简繁体映射字典,对每一个简体汉字短句进行分词得到多个简体汉字词语,并将每一个简体汉字词语转换为对应的繁体汉字词语;其中,用户自定义映射字典用于记录用户预先设置的简体汉字词语到繁体汉字词语的映射关系,简繁体映射字典用于记录系统自带的简体汉字词语到繁体汉字词语的映射关系;将转换得到的所有的繁体汉字词语进行组合,形成与输入的简体汉字字符串对应的繁体汉字字符串,并将繁体汉字字符串输出到文件中;其中,根据用户自定义映射字典和简繁体映射字典,对每一个简体汉字短句进行分词包括:使用正向最大匹配算法,将该简体汉字短句与用户自定义映射字典和简繁体映射字典进行匹配,得到该简体汉字短句的正向分词结果,并计算该正向分词结果的正向权值;使用逆向最大匹配算法,将该简体汉字短句与用户自定义映射字典和简繁体映射字典进行匹配,得到该简体汉字短句的逆向分词结果,并计算该逆向分词结果的逆向权值;若正向权值大于逆向权值,则确定该简体汉字短句的最终分词结果为其正向分词结果,若逆向权值大于或等于正向权值,则确定该简体汉字短句的最终分词结果为其逆向分词结果。又一方面,还提供了一种繁体汉字到简体汉字的转换系统,包括:字典模块,用于保存用户自定义映射字典和繁简体映射字典,其中,用户自定义映射字典用于记录用户预先设置的繁体汉字词语到简体汉字词语的映射关系,繁简体映射字典用于记录系统自带的繁体汉字词语到简体汉字词语的映射关系;输入模块,用于输入将要被转换的文件中的繁体汉字字符串;转换模块,用于按照标点符号将输入模块输入的繁体汉字字符串划分为多个繁体汉字短句;还用于根据字典模块中的用户自定义映射字典和繁简体映射字典,对每一个繁体汉字短句进行分词得到多个繁体汉字词语,并将每一个繁体汉字词语转换为对应的简体汉字词语;输出模块,用于将转换模块转换得到的所有的简体汉字词语进行组合,形成与输入的繁体汉字字符串对应的简体汉字字符串,并将简体汉字字符串输出到文件中;其中,转换模块包括:匹配单元,用于使用正向最大匹配算法,将一个繁体汉字短句与用户自定义映射字典和繁简体映射字典进行匹配,得到该繁体汉字短句的正向分词结果;还用于使用逆向最大匹配算法,将该繁体汉字短句与用户自定义映射字典和繁简体映射字典进行匹配,得到该繁体汉字短句的逆向分词结果;计算单元,用于计算匹配单元得到的正向分词结果的正向权值、以及逆向分词结果的逆向权值;确定单元,用于在计算单元计算出的正向权值大于逆向权值时,确定本文档来自技高网
...

【技术保护点】
一种简体汉字到繁体汉字的转换系统,其特征在于,包括:字典模块,用于保存用户自定义映射字典和简繁体映射字典,其中,所述用户自定义映射字典用于记录用户预先设置的简体汉字词语到繁体汉字词语的映射关系,所述简繁体映射字典用于记录系统自带的简体汉字词语到繁体汉字词语的映射关系;输入模块,用于输入将要被转换的文件中的简体汉字字符串;转换模块,用于按照标点符号将所述输入模块输入的简体汉字字符串划分为多个简体汉字短句;还用于根据所述字典模块中的用户自定义映射字典和简繁体映射字典,对每一个简体汉字短句进行分词得到多个简体汉字词语,并将每一个简体汉字词语转换为对应的繁体汉字词语;输出模块,用于将所述转换模块转换得到的所有的繁体汉字词语进行组合,形成与输入的简体汉字字符串对应的繁体汉字字符串,并将所述繁体汉字字符串输出到文件中;其中,所述转换模块包括:匹配单元,用于使用正向最大匹配算法,将一个简体汉字短句与所述用户自定义映射字典和所述简繁体映射字典进行匹配,得到该简体汉字短句的正向分词结果;还用于使用逆向最大匹配算法,将该简体汉字短句与所述用户自定义映射字典和所述简繁体映射字典进行匹配,得到该简体汉字短句的逆向分词结果;计算单元,用于计算所述匹配单元得到的正向分词结果的正向权值、以及逆向分词结果的逆向权值;确定单元,用于在所述计算单元计算出的正向权值大于逆向权值时,确定该简体汉字短句的最终分词结果为其正向分词结果,在逆向权值大于或等于正向权值时,确定该简体汉字短句的最终分词结果为其逆向分词结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:邹良辉胡志坤李远友韩忠海
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1