藏汉翻译系统的多策略藏语长句切分方法技术方案

技术编号:10828563 阅读:90 留言:0更新日期:2014-12-26 17:58
本发明专利技术公开了一种用于藏汉翻译系统的、对复杂藏语长句进行快速、准确切分的多策略藏语长句切分方法,它包括:接收藏语长句,对每一成分逐个判断,若成分为数字或特殊符号、逗号但无源文模式匹配成功且模式条件满足的逗号切分实例、单词但在特征词索引表中检索不到,或者检索到然而无源文模式匹配成功且模式条件满足的特征词切分实例,则继续判断下一成分,否则记录切分点,切分点之前成分作为切分子句送出,继续判断余下第一个成分。在判断各成分之前先要判断指针当前是否指向空,若是则将余下成分送出结束,否则读取指针当前指向的成分。

【技术实现步骤摘要】
藏汉翻译系统的多策略藏语长句切分方法
本专利技术涉及一种用于藏汉翻译系统的、基于多策略对藏语长句进行切分的方法,属于基于计算机科学的语言处理与分析领域。
技术介绍
藏文是一门古老而独特的语言,它具有独特的标点符号体系,不同于其他文字的标点符号。藏语的标点符号数量是很有限的,只有7种——音节点、单垂符、双垂符、四垂符、蛇形垂符、聚宝垂符、云头符,见下表1所示。表1在表1中,“音节点”是划开音节,使藏文字之间的界线不混淆的一种符号。“单垂符”是表示词语或句子之间的并列、停顿或结束的符号,相当于汉语标点符号中的顿号、逗号、分号或句号。藏语无专门的问号和感叹号,一个句子的语调全靠文字表达。表1中的其它五种标点符号用得不太多,一般用来标明藏语句首、段首、章结尾等。藏语标点符号具有特殊性和复杂性,最常用的是“单垂符”,其主要用于句末,也用于词或者短语之后,功能上相当于汉语标点符号中的顿号、逗号、分号、句号。一方面,有些“单垂符”表示的是顿号、逗号的作用,不能简单作为分句的标志,另一方面,藏文句子中的“单垂符”可以省略,所以藏语中长句情况很普遍,有些句子最长可达到百来个词时才出现一个“单垂符”。下面列举一个例子(在该例子中,鉴于清晰表达,各藏文字由转写系统转换为若干拉丁字母、数字或特殊符号表示,各藏语标点符号由转写系统转换为相应汉语标点符号表示、做相应省略或回车处理,其中,例如“音节点”以空格表示,“单垂符”以逗号表示):laszhugsbodskyorthaddondngosbsgrubspadangbodkyimthoslobslobthonslobmanangsarlaskabyedparbskyodrgyuvikhridstonhurthagbyasnasbodskyorzhingchendanggrongkhyerdangkrungdbyanggirkangvdzinkhelaslamthunsbyorgyisloltarskyekhungsbodnasyinpavimthoslobslobthonslobma100yilaszhugsbkodsgrigbyargyubcasbyeddgos,上面例子中只在句末有一个“单垂符”,仅出现了“音节点”和“单垂符”,其汉语意思应为:“在援藏就业方面完成的实事,对西藏高校毕业生去内地工作努力进行指导,援藏省份和城市及中央骨干企业协同对100个西藏生源的高校毕业生做就业安排,”。由此可见,面对藏语中的众多长句,如何提高藏汉翻译的处理速度以及确保翻译的正确性是翻译系统需要考虑的问题。而现如今已有的大多藏汉翻译系统都或多或少的存在着翻译速度慢或翻译正确率低的缺陷。因此,鉴于藏语标点符号的特殊性和复杂性以及藏语长句存在的普遍性,设计出一种可快速、准确对藏语长句进行有效切分的技术方案,是目前急需解决的问题。
技术实现思路
本专利技术的目的在于提供一种对复杂的藏语长句进行快速、准确切分的多策略藏语长句切分方法,该方法可用于藏汉翻译系统中,以提高藏汉翻译处理的速度和正确性。为了实现上述目的,本专利技术采用了以下技术方案:一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤:1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个成分,成分为一单词或一数字或一逗号或一特殊符号,当前长句中的成分个数大于15;2)判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取指针指向的成分;3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);5)在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);6)在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模式匹配成功且模式条件满足的特征词切分实例,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2)。逗号切分规则实例库用于存储所述逗号切分实例,逗号切分实例包括一源文模式和一模式条件;特征词切分规则实例库用于存储所述特征词索引表、所述特征词切分实例表,所述特征词索引表用于存储特征词,所述特征词切分实例表用于存储特征词切分实例,每一特征词对应有至少一特征词切分实例,每一特征词切分实例包括一源文模式和一模式条件。所述特征词切分规则实例库还存储有首字母索引,首字母索引用于存储26个拉丁字母,每一拉丁字母与所述特征词索引表中以该拉丁字母作为首字母的特征词相对应。所述特征词是自身附近成分可能作为切分点的单词;所述逗号切分实例的所述源文模式是含有逗号和切分位置的成分表达式,用于说明逗号在源文句子中作为切分点时应该满足的源文特征条件,以及示出切分位置;所述特征词切分实例的所述源文模式是含有特征词和切分位置的成分表达式,用于说明特征词在源文句子中作为切分点时应该满足的源文特征条件,以及示出切分位置;对于所述逗号切分实例和所述特征词切分实例,所述模式条件是含有多个上下文语境条件判断式的集成表达式,用于说明该模式条件对应的源文模式使用时应该满足的各上下文语境条件。在实际中,检查当前成分是否满足逗号切分实例中的模式条件以及检查当前成分是否满足特征词切分实例中的模式条件,是基于藏文字典库进行的;藏文字典库的单词文本文件中的每个单词有如下内容:·单词·单词的语法分类和语义属性·上下文区分函数·单词的中文解释·单词的词组并且,藏文字典库建立首字母索引和单词索引文件来查找单词文本文件中的单词。在实际应用中,所述上下文语境条件包括对切分点前和/或后指定长度范围内的成分判断、对切分点前和/或后指定长度范围内的单词所属语法分类和/或语义属性的判断。访问所述藏文字典库的步骤为:1)基于单词的首字母,通过所述首字母索引找到对应的所述单词索引文件;2)在所述单词索引文件中基于二分算法查找该单词;3)若没找到,则失败返回,否则继续4);4)读出该单词的字节数,根据该单词的字节数在所述单词文本文件中读出该单词的信息;5)结束。在送出切分子句时,当判断切分子句的成分个数超过阈值个数时,提醒用户注意是否特征词切分规则实例库不完善,需要收入新的特征词切分实例来完善。本专利技术的优点是:本专利技术有机地融合了源文模式匹配和模式条件满足等策略,综合利用了藏语句子的多种相关语言特征,包括长度、标点符号、特征词和上下文语境条件,实现了对复杂藏语长句进行快速、有效地切分,切分准确性高,有效地降低了藏语长句的句法分析复杂度,提高了藏汉翻译处理的速度和正确性。本专利技术的这种切分方法可扩展用于其它语种长句的切分中。附图说明图1是本专利技术的实现流程图。图2是特征词切分规则实例库的结构图。图3是藏文字典库的结构图。具体实施方式如图1,本专利技术多策略藏语长句切分方法用于藏汉翻译系统,它包括步骤:1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,初始令指针指向第一个成分,各本文档来自技高网
...
藏汉翻译系统的多策略藏语长句切分方法

【技术保护点】
一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤:1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个成分,成分为一单词或一数字或一逗号或一特殊符号;2)判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取指针指向的成分;3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);5)在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);6)在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模式匹配成功且模式条件满足的特征词切分实例,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2)。

【技术特征摘要】
1.一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤:1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个成分,成分为一单词或一数字或一逗号或一特殊符号;2)判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取指针指向的成分;3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);5)在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);6)在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模式匹配成功且模式条件满足的特征词切分实例,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);其中:逗号切分规则实例库用于存储逗号切分实例,逗号切分实例包括一源文模式和一模式条件;特征词切分规则实例库用于存储特征词索引表、特征词切分实例表,特征词索引表用于存储特征词,特征词切分实例表用于存储特征词切分实例,每一特征词对应有至少一特征词切分实例,每一特征词切分实例包括一源文模式和一模式条件。2.如权利要求1所述的多策略藏语长句切分方法,其特征在于:所述特征词切分规则实例库还存储有首字母索引,首字母索引用于存储26个拉丁字母,每一拉丁字母与所述特征词索引表中以该拉丁字母作为首字母的特征词相对应。3.如权利要求1或2所述的多策略藏语长句切分方法,其特征在于:所述特征词是自身附近成分可能作为切分点的单词;所述逗号切分实例的所述源文模式是含...

【专利技术属性】
技术研发人员:黄河燕黄静
申请(专利权)人:华建宇通科技北京有限责任公司北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1