汉字分段装置制造方法及图纸

技术编号:2885530 阅读:164 留言:0更新日期:2012-04-11 18:40
汉字分段装置用计算机中的字符语音信息作中文句子的字词分段处理。字符语音转换部分把计算机输入的句子转换成语音符号串。候选字选择部分用语音符号为检索项,取出可能的候选字符或字词及有关信息。最佳候选字符串判定部分用各候选字符或字词的起始和结束位置为检索项建立候选字网络。得到总体评估后用动态规划法找出最佳分段途径。本装置使字词分段精度超过98%,无需麻烦的反复计算,可明显提高工作效率及精度。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种汉字分段装置,利用计算机进行中文句子的汉字分段。在当代的计算机应用研究中,用计算机处理诸如中文、英文等自然语言已成为一种通行的研究领域。自动翻译、说话的处理、文件的自动修正、计算机辅助指令等通称自然语言处理。在自然语言的语句的分解处理中,可将其间的步骤顺次分为输入、字词分段、语法分析及语义分析。字的分段是作为将输入语句中的字符串顺序转换成字词顺序的过程。比如,若输入的句子是“昨天下雨”,则可能的字词分段结果包括“昨*天*下*雨”、“昨天*下*雨”、“昨*天*下雨”、“昨*天下*雨”、“昨天*下雨”等。利用计算机处理很块就会从候选的字词中找出正确的结果是“昨天*下雨”,这种过程就是字词分段技术。如果字词分段的质量较差,即使语法分析的质量和语义分析的质量都得到提高,也不能提高语言分析的质量。因此,如何能使中文计算机字词分段的质量做得更好,现在已成为重要的课题。附图说明图11表示一种普通汉字分段方法实施例的处理流程图,如1987出版的中国计算机讨论会论文集(China National ComputerConference Papers)第423-431页题为“Automatic WordIdentification in Chinese Sentences by the RelaxationTechnique”的文章中所揭示者。如图所示,标号1115表示字典,用以存储字、词长和字的使用频率。在步骤1101,用输入装置输入一个中文句子。在步骤1105,用字典1115找出该中文句子中所有可能的汉字。在步骤1110,利用字典1115,把每个字符分配给该字符所属于的一个可能的汉字,并根据这种分配计算初始概率。在步骤1120,分析各汉字之间的关系,并计算各汉字的匹配系数。在步骤1130用所述概率和匹配系数进行松弛迭代计算。连续调整各可能汉字所分配的概率分布,直至得到结束的条件。这时可以结束所述迭代计算。在步骤1140,将最佳的汉字分段结果输出给打印机,完成处理。松弛迭代计算是通过对所有字的初始概率分配一个预先规定的概率修正公式而得到修正概率值的过程。在图12所示的处理示例中,对输入句子“把他的确实行动做了分析”运行7次之后,以1作为松弛迭代计算结果的部分表示一个字词分段结果。该未修正的字词分段结果将渐次被修正接近0。于是,并无语法和语义信息的帮助,也可以约95%的精度实现汉字分段。上述汉字分段方法的缺点如下1.为计算使用频率和每个字的初始概率,需要很大的汉字词汇数据库。然而并非易于得到如此的汉字词汇数据库。2.松弛迭代计算期间,配合系数的非法定义很容易导致所述系数对简化的失效,或者将不会产生最佳结果的振荡现象。3.松弛迭代需要反复计算,因而需要很多的计算次数,这将影响工作效率。4.对于诸如字典翻译等某些应用而言,95%的汉字分段精度是不适用的。于是,本专利技术的主要目的在于提供一种能够克服上述现有技术共通缺点的汉字分段装置。为解决上述问题,本专利技术提供一种汉字分段装置,它采用计算机技术,用语音符号信息代替麻烦的概率计算,它使用极少的语义和语法规律去实行处理有关输入的汉语句子的汉字分段。本汉字分段装置的特征在于具有不同读音字符的字典,它存储具有不同读音的全部汉语字符、与这些具有不同读音字符对应的字符语音符号,以及全部与每个字符语音符号对应的候选字和与所述候选字对应的汉字语音符号;字符语音字典,它存储汉字的全部字符、与这些字符对应的原始预设的语音符号,以及这些字符的其它可能的语音符号;系统字典,它存储汉字字符或字词的语音符号、与这些语音符号对应的同音异义的字符或同音异义的字词,以及与每个同音异义的字符或每个同音异义的字词对应的使用频率、语法标记和语义标记;语法信息部分,它存储一个由“1”或“0”位形成的二维矩阵,用以表示不同字的字符是否可与汉语相通;语义信息部分,它存储汉字的后部要素语义编码和可能的与所述后部要素语义编码对应的前部要素语义编码;字符-语音转换部分,它参照具有不同读音的字符的字典和字符语音字典,把输入到计算机中的汉字字符串转换成语音符号串;候选字选择部分,它把从字符-语音转换部分传送的语音符号串截隔成多个音节,用每个音节作为检索项,从系统字典得到所有可能的候选字,并参照输入的汉字字符串删除所有不可能实行的候选字。最佳候选字符串判定部分,它利用输入字符串中的每个未被放弃的候选字的起始和结束位置,以定向网络形式将多个候选字相互联系起来,在考虑每两个相邻候选字的语法标记和语义标记的同时,参照语法信息部分和语义信息部分,对每个候选字计算语义相似程度的优先和语法优先,从而得到一个总体评估,即使用频率优先、词长优先、语法优先和语义相似程度优先的函数,并用动态规划法找出得到关于汉字分段的最佳评估等级的途径;字词分段标记部分,它取出所述最佳途径中的候选字,并为它们附加字词分段标记。按照本专利技术的汉字分段装置的结构,所述字符语音转换部分用所述语句中的字符作为检索项,同时参照字符语音字典和具有不同读音的字符字典,将输入的语句转换成语音符号串。这之后候选字选择部分用所述语音符号作为检索项,从相同字典检索所述语音符号串中所有可能的候选字,并通过参照输入语句中的字符,在缓冲区内检验可能的候选字。继而,最佳候选字符串判定部分参照语义信息部分和语法信息部分得到一个总体评估,这就是关于各个可能的候选字使用优先频率、词长优先、语义相似程度优先和语法优先的函数,并找出关于汉字分段的最佳途径。所述字词分段标记部分从缓冲区检索输入字符串,并在输出所述字符串之前,参考所述最佳途径给所述输入字符串附加字词分段标记。按照以下参照附图详细描述优选实施例,将使本专利技术的其它特点及优点变得愈为清晰,其中图1是本专利技术汉字分段装置优选实施例的示意系统方块图;图2是本专利技术优选实施例的字符语音转换部分的处理流程图;图3是本专利技术优选实施例的候选字选择部分的处理流程图;图4是本专利技术优选实施例的最佳候选字符串判定部分的处理流程图;图5是本专利技术优选实施例的字词分段标记的处理流程图;图6表示本专利技术优选实施例的具有不同读音的字符字典;图7表示本专利技术优选实施例的字符语音字典;图8表示本专利技术优选实施例的系统字典;图9表示本专利技术优选实施例的语法信息部分;图10表示本专利技术优选实施例的语义信息部分;图11是表示普通字词分段方法的处理流程图;图12是表示普通字词分段方法的松弛迭代处理运算的一个施例。本专利技术中的术语“语义”指的是(由语义编码所指示的)字词的含义。本专利技术的优选实施例采用日本Kado Kava(角川)书店出版的字典1985年版中的语义分类法。按照这种分类方法,用十六进制的四位编码作为词的分类码。最左边的码指示一般类。第二个码指示子类。第三个码指示段。最右边的码指示子段。该字典中所有的字被分组为10个一般类别,即自然类、性状类、变动类、行动类、心情类、人物类、性向类、社会类、艺术类和物品类。每个一般类别还被分成10个子类。下面是一个语义分类法的实例语义码说明0 属自然类02属自然类的气象子类028 属气象子类的风段028a 属风段的强度子段在上述细分类型的分类码中,语义码的秩级越高,语义码所覆盖的作用域越宽。相应地,语义码的秩级越低,语义码所覆盖本文档来自技高网...

【技术保护点】
一种汉字分段装置,用计算机技术对输入的中文句子实现汉字分段处理,其特征在于:具有不同读音字符的字典,它存储具有不同读音的全部汉语字符、与这些具有不同读音字符对应的全部字符语音符号,以及全部与每个字符语音符号对应的候选字和与所述候选字对应 的汉字语音符号;字符语音字典,它存储汉字的全部字符、与这些字符对应的原始预设的语音符号,以及这些字符的其它可能的语音符号;系统字典,它存储汉字字符或字词的语音符号、本身与每个语音符号对应的每个同音异义的字符或与每个同音异义的字词对应 的使用频率、语法标记和语义标记;语法信息部分,它存储一个由“1”或“0”位形成的二维矩阵,用以表示不同字的字符是否可与汉语相通;语义信息部分,它存储汉字的后部要素语义编码和可能的与所述后部要素语义编码对应的前部要素语义编码;字符 -语音转换部分,它参照具有不同读音的字符的字典和字符语音字典,把输入到计算机中的汉字字符串转换成语音符号串;候选字选择部分,它把从字符-语音转换部分传送的语音符号串截隔成多个音节,用每个音节作为检索项,从系统字典得到所有可能的候选字,并 参照输入的汉字字符串删除所有不可能实行的候选字;最佳候选字符串判定部分,它利用输入字符串中的每个未被放弃的候选字的起始和结束位置,以定向网络形式将多个候选字相互联系起来,在考虑每两个相邻候选字的语法标记和语义标记的同时,参照语法信息部分 和语义信息部分,对每个候选字计算语义相似程度优先和语法优先,从而得到一个总体评估,即使用频率优先、词长优先、语法优先和语义相似程度优先的函数,并用动态规划法找出得到关于汉字分段的最佳评估等级的途径;字词分段标记部分,它取出所述最佳途径中 的候选字,并为它们附加字词分段标记。...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:郭俊桔
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1