【技术实现步骤摘要】
藏汉翻译系统的多策略藏语长句切分方法
本专利技术涉及一种用于藏汉翻译系统的、基于多策略对藏语长句进行切分的方法,属于基于计算机科学的语言处理与分析领域。
技术介绍
藏文是一门古老而独特的语言,它具有独特的标点符号体系,不同于其他文字的标点符号。藏语的标点符号数量是很有限的,只有7种——音节点、单垂符、双垂符、四垂符、蛇形垂符、聚宝垂符、云头符,见下表1所示。表1在表1中,“音节点”是划开音节,使藏文字之间的界线不混淆的一种符号。“单垂符”是表示词语或句子之间的并列、停顿或结束的符号,相当于汉语标点符号中的顿号、逗号、分号或句号。藏语无专门的问号和感叹号,一个句子的语调全靠文字表达。表1中的其它五种标点符号用得不太多,一般用来标明藏语句首、段首、章结尾等。藏语标点符号具有特殊性和复杂性,最常用的是“单垂符”,其主要用于句末,也用于词或者短语之后,功能上相当于汉语标点符号中的顿号、逗号、分号、句号。一方面,有些“单垂符”表示的是顿号、逗号的作用,不能简单作为分句的标志,另一方面,藏文句子中的“单垂符”可以省略,所以藏语中长句情况很普遍,有些句子最长可达到百来个词时才出现一个“单垂符”。下面列举一个例子(在该例子中,鉴于清晰表达,各藏文字由转写系统转换为若干拉丁字母、数字或特殊符号表示,各藏语标点符号由转写系统转换为相应汉语标点符号表示、做相应省略或回车处理,其中,例如“音节点”以空格表示,“单垂符”以逗号表示):laszhugsbodskyorthaddondngosbsgrubspadangbodkyimthoslobslobthonslobmanangsa ...
【技术保护点】
一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤:1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个成分,成分为一单词或一数字或一逗号或一特殊符号;2)判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取指针指向的成分;3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);5)在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);6)在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模式匹配成功且模式条件满足的特征词切分实例,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2)。
【技术特征摘要】
1.一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤:1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个成分,成分为一单词或一数字或一逗号或一特殊符号;2)判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取指针指向的成分;3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);5)在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);6)在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模式匹配成功且模式条件满足的特征词切分实例,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);其中:逗号切分规则实例库用于存储逗号切分实例,逗号切分实例包括一源文模式和一模式条件;特征词切分规则实例库用于存储特征词索引表、特征词切分实例表,特征词索引表用于存储特征词,特征词切分实例表用于存储特征词切分实例,每一特征词对应有至少一特征词切分实例,每一特征词切分实例包括一源文模式和一模式条件。2.如权利要求1所述的多策略藏语长句切分方法,其特征在于:所述特征词切分规则实例库还存储有首字母索引,首字母索引用于存储26个拉丁字母,每一拉丁字母与所述特征词索引表中以该拉丁字母作为首字母的特征词相对应。3.如权利要求1或2所述的多策略藏语长句切分方法,其特征在于:所述特征词是自身附近成分可能作为切分点的单词;所述逗号切分实例的所述源文模式是含...
【专利技术属性】
技术研发人员:黄河燕,黄静,
申请(专利权)人:华建宇通科技北京有限责任公司,北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。