用于将简体汉语句子转换为繁体汉语句子的方法和设备技术

技术编号:10120606 阅读:221 留言:0更新日期:2014-06-12 09:08
本发明专利技术公开了一种用于将简体汉语句子转换为繁体汉语句子的方法和设备。所述方法包括:由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。

【技术实现步骤摘要】
用于将简体汉语句子转换为繁体汉语句子的方法和设备
本专利技术一般地涉及自然语言处理。具体而言,本专利技术涉及一种能够将简体汉语句子转换为繁体汉语句子的方法和设备。
技术介绍
由于历史和文化传播等原因,汉语存在两种书面形式。一种是中国大陆和新加坡使用的简体汉字,另一种是台湾、香港、澳门、大多数海外华人使用的繁体汉字。随着各地区之间的文化交流、经济往来等日益增多,存在将简体汉字和繁体汉字互相转换的需要。汉字简繁转换的主要问题在于,在汉字的简化过程中将多个繁体汉字进行了归并,使得多个繁体汉字可能对应于一个简体汉字,因此,将简体汉字转换为繁体汉字时,会存在一对多的歧义。例如,简体汉字“发”对应于繁体汉字“發”和“髮”。简体词“出发”应转换为繁体词“出發”,简体词“头发”应转换为繁体词“頭髮”。传统的简繁转换方法依赖于人工构造的各种映射表,根据映射表中简繁汉字的对应关系,进行简体汉字和繁体汉字之间的转换。传统的方法虽然实现简单、转换速度较快,但是无法解决简体汉字与繁体汉字之间的一对多歧义问题,并且基于词的映射表的转换必然涉及到对输入的简体汉语句子进行分词,转换结果受到分词结果的较大影响。此外,传统的方法需要高质量的大规模知识库,即需要大量的人力物力。并且,人工构造的知识可能互相矛盾,从而影响系统的整体性能。因此,期望设计一种设备和方法,其能够解决简繁转换的一对多歧义问题,较少受到分词的影响,不依赖于高质量的大规模知识库,避免过多引入人工构造的知识。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是针对现有技术的上述问题,提出一种能够将简体汉语句子转换为繁体汉语句子的方法和设备。该方案能够克服简繁转换过程中的一对多歧义问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种将简体汉语句子转换为繁体汉语句子的方法,其包括:由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。根据本专利技术的另一个方面,提供了一种将简体汉语句子转换为繁体汉语句子的转换设备,其包括:基于简体-繁体字符一对多转换表的序列标注模型,用于对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;分词和词性标注装置,用于对所述简体汉语句子进行分词和词性标注;选择装置,用于根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及转换装置,用于按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了训练语料的示例性获取方法;图2示出了根据本专利技术实施例的简繁汉语句子转换方法的第一实施例的流程图;图3示出了根据本专利技术实施例的简繁汉语句子转换方法的第二实施例的流程图;图4示出了根据本专利技术实施例的简繁汉语句子转换设备的结构方框图;以及图5示出了可用于实施根据本专利技术实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。本专利技术基于如下的思想:可以将简繁汉语句子的转换问题看作一个序列标注问题。而且,对于序列标注的结果,可以通过引入歧义字的词性和歧义词的转换概率来进行筛选。选出的最佳序列标注结果对应的繁体汉语句子可作为转换的结果。应注意,此处的术语“句子”相当于字符串,可包括多个简体字符或繁体字符,可以是完整的一句话,也可以是不完整的一句话、也可以是包括多句话的段落等。只要它是连续的同一种(简体或繁体)汉字字符串即可。首先,介绍简体-繁体字符一对多转换表、序列标注模型的训练、训练语料的获取方式、标注规则。如上所述,本专利技术所要解决的问题是克服在简繁体转换中一个简体汉字可能对应于多个繁体汉字的问题。通常,一个繁体汉字能够找到其唯一对应的一个简体汉字。有些情况下,对应的简体汉字和繁体汉字是同一个字。因此,繁体汉字转换为简体汉字时通常不存在一对多转换歧义问题。本专利技术需要利用一个简体-繁体字符一对多转换表(以下简称为一对多转换表)来记录简体字符与繁体字符的对应关系、歧义字的词性概率、歧义词的转换概率,并基于此进行序列标注模型的训练、标注、标注结果的筛选等。注意,歧义词的转换概率可以记载于单独的歧义词表中。可以从维基百科获得上述一对多转换表,也可通过如下方式获得上述一对多转换表:从繁体-简体字符转换表中,抽取与多个繁体字符对应的简体字符;基于所抽取的简体字符以及与其对应的多个繁体字符,构建上述一对多转换表。繁体-简体字符转换表例如是1956年出版的国家标准-简化字总表。一对多转换表的获取方式并不受上述给出的示例的限制。不同方式获得的一对多转换表可进行去重合并,以获得拥有更多词汇的转换表。将基于此一对多转换表进行下面将描述的序列标注模型的训练过程,并根据训练语料获得上述的歧义字的词性概率和歧义词的转本文档来自技高网...
用于将简体汉语句子转换为繁体汉语句子的方法和设备

【技术保护点】
一种将简体汉语句子转换为繁体汉语句子的方法,包括:由基于简体‑繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。

【技术特征摘要】
1.一种将简体汉语句子转换为繁体汉语句子的方法,包括:由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符;其中所述序列标注步骤包括:将所述简体汉语句子中的、所述一对多转换表中出现的简体字符标注为在所述一对多转换表中搜索元素作为该简体字符对应的候选繁体字符的序号;将所述简体汉语句子中的、所述一对多转换表中没有出现的简体字符、标点符号标注为与上述序号不同的同一公共标签。2.如权利要求1所述的方法,其中在所述序列标注步骤之后还包括:去除其中的标注结果不符合基于所述一对多转换表的标注规则的一组或多组序列标注结果。3.如权利要求1所述的方法,其中所述序列标注步骤包括:由所述序列标注模型以所述简体汉语句子作为输入,进行序列标注;所述序列标注结果表明被标注的简体字符所对应的繁体字符在所述一对多转换表中作为与该简体字符对应的候选繁体字符的序号;所述组概率表明所述序列标注模型给出的该组序列标注结果的置信度。4.如权利要求1所述的方法,其中所述选择步骤包括:计算所述序列标注结果表明的与所述歧义字对应的繁体字具有词性标注结果表明的词性的词性概率;使用所述词性概率和所述歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择所述最佳标注结果。5.如权利要求4所述的方法,其中计算通过将在语料库中所述歧义字对应的各个繁体字具有某一词性的次数除以所述歧义字具有该词性的次数而得到的商,作为所述歧义字对应的所述各个繁体字具有该词性的所述词性概率。6.如权利要求1所述的方法,其中所述歧义词的转换概率表明所述简体汉语句子中出现的所述歧义词被转换为不同的繁体词的相应概率;计算通过将与所述歧义...

【专利技术属性】
技术研发人员:房璐孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1