一种基于词位标注的藏文分词方法技术

技术编号:6175623 阅读:352 留言:1更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于词位标注的藏文分词方法,属于藏文信息处理领域。本方法为:1)对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;3)对每个藏文音节,根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明专利技术没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。

【技术实现步骤摘要】

本专利技术涉及计算机及藏文信息处理领域,更具体地说,涉及藏文分词领域,提供了 。
技术介绍
随着计算机对藏文支持能力的增强,以及我国少数民族地区信息化进程的逐步推 进,越来越多的藏文信息开始通过计算机进行存储和传播,藏文信息处理的研究也从操作 系统支持、排版印刷、输入法和字库等基础的文字层面逐步转向文字识别、文语转换、文本 校正、信息检索、机器翻译等文本层面。然而,藏文是一种拼音文字,其各音节之间由音节点 分隔,但是词与词之间却没有分隔标记,同汉语类似,分词是藏文信息处理的基础。藏文音 节(藏字)的结构如图1所示,藏文句子由多个藏文音节构成,如图2所示。经过多年的发展,研究人员已经提出了多种藏文分词方法,包括基于字符串匹配 的方法、基于格助词和接续特征的方法。基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待 分析的文字序列与词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出 一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配,也可以同 时从两个方向进行切分,发现切分歧义,并进行切分歧义消解。基于格助词和接续特征的方法充分利用藏文的语言特性进行分词。利用字切分 特征和字性库先‘认字’,利用标点符号和关联词将藏文的段落分成句子,在单个句子中利 用格助词将句子‘分块’,再用词典进行块内分词。该方法的技术特点是,综合运用藏文字、 词、句等各类形态特征,在藏文格助词、接续特征、字性知识库以及词典的支持下,采用逐级 定位的确定性算法实现藏文的自动分词。现有的藏文分词方法虽然在小规模实验中取得了较好的效果,但由于藏文语言文 字的特点,存在将两个藏字紧缩为一个藏字等等同汉语不同的情况,在方法实现中需要考 虑很多细节问题;同时,上述方法在切分的各个阶段,包括断句、分块、块内分词等都存在切 分歧义的情况,导致切分精度不高;另外,上述方法都依赖于藏文词典,对新词术语、命名实 体等未登录词的处理效果不尽如人意。
技术实现思路
针对现有藏文分词方法中对切分歧义及未登录词等两个重要问题处理效果较差 的问题,本专利技术的目的在于提供一种藏文分词的方法,以期在整体上取得更好的分词结果。所述方法包括以下步骤A.对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;B.对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;C.对每个藏文音节,根据其所处上下文环境采用优选方法从知识库中查找并选择 一个词位标签赋予该音节,词位标签为如下五种之一词首,词中,词尾,独立,紧缩;D.将所有被标记为“紧缩”的音节还原为两个音节,并依前后顺序分别标记为“词 尾”和“独立”;E.将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词; 如果被标记为词首的音节与其后面第一个被标记为词尾的音节之间有一个或者多个被标 记为词中的音节,则将被标记为词首的音节与其后面第一个被标记为词尾的音节以及二者 之间一个或者多个被标记为词中的音节合并为一个词;F.将所有被标记为“独立”的音节以及所有未被合并的音节作为单音节词;G.将经过以上处理的藏文词序列作为分词结果输出。所述标点符号包括藏文单垂符、双垂符、四垂符、句间空格等。所述上下文环境包括该音节之前的一个或者多个音节,该音节之后的一个或者 多个音节。所述词位标签共五种词首、词中、词尾、独立、紧缩。各词位标签的具体含义为 在由多个音节构成的藏文词中,第一个音节为“词首”,最后一个音节为“词尾”,它们之间的 所有音节都为“词中”;若一个词由单个音节构成,则此音节将被标记为“独立”;藏文中存 在部分音节是由两个音节按照语法规则合并形成的紧缩音节,此时该音节将被标记为“紧 缩”。所述知识库包含了所有的藏文音节在不同的上下文环境中被标记为五种词位标 签之一的概率值,该概率值通过预先对语料进行统计获得。语料由一批藏文文本组成,每个 藏文文本包含若干藏文句子,每个藏文句子包含若干藏文音节,每个音节对应一个词位标 签。在语料中,每个音节的词位标签由人工标注而成。对语料的统计,首先计算一个音节在 一个上下文环境中被标记为五种词位标签之一的次数,并计算该音节与该上下文环境在语 料中同现的总次数,前者除以后者即为该音节在该上下文环境中被标记为该词位标签的概 率值。所述优选方法是指当前音节在当前上下文环境中有多个词位标签可选时,根据预 先统计的概率值,取概率值最大的词位标签作为当前音节的词位标签。所述紧缩音节是指,藏文中部分词如属格助词“S”、作格助词“ ^f ”、位格助词“ s ”、 饰集词“%.”、离合词“ ^‘”、终结词“ ”等,可以省略音节点直接黏附于其前面的音节后,与 其前面的音节一起合并形成一个新的音节,这个新的音节即被称为紧缩音节。与现有技术相比,本专利技术的积极效果为本专利技术能够平衡地看待词表词和未登录词的识别问题。将藏文文本中所有的词都 采用统一的音节标注过程来实现。在构建所需的知识库时,既不必专门强调词表词信息,也 不用专门设计特定的未登录词识别模块,又避免了采用藏文格助词和接续特征所引起的各 种歧义,使得系统的设计大大简化。在音节标注过程中,所有的音节根据预定义的特征进行 词位特征的学习,获得一个知识库,然后在待切分的藏文文本上,根据音节所处的上下文环 境,得到一个词位的分类结果。最后根据词位标签的定义,获得最终的分词结果。整个过程 中,没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分 词称为音节重组的简单过程。知识库的构建过程中考虑了音节所处的上下文环境,实质上 体现了相邻音节之间的结合紧密程度。附图说明图1是一个典型的藏文音节的结构图;藏文的音节可以有一个或多个基本字符组 成,最多可以有七个;这七个基本字符里有一个基字和一个元音符号,其它的字符分别加在 基字的上、下、前、后、再后。在一个音节里面,除了基字之外,其它部分都可能不出现。最简 单的藏文音节只包含一个基字,而不包含其他组成部分;图2是一个典型的藏文句子的结构图;藏文句子中以音节点分隔相邻音节,句子 以空格或者藏文的单垂符、双垂符、四垂符等结束;图3是本专利技术方法的流程图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。如图3所示,本专利技术所述的分词方法300的具体流程是对于输入的藏文文本 302,步骤304根据标点符号和空格将藏文文本切分为一系列的藏文句子;对于切分出来的 每个藏文句子,步骤306以藏文音节点为标志将句子切分为一系列藏文音节;对每个音节, 步骤308从知识库310中查找当前音节在当前的上下文中可能的词位标签及相应的概率 值,若标签不唯一,则选择概率值最大的词位标签作为当前音节的标签;步骤312将被标记 为“紧缩”标签的藏文音节拆分成两个音节并分别标记为“词尾”和“独立”;步骤314将所 有被标记为“词首”的音节与其后面第一个被标记为“词尾”的音节以及二者之间一个或者 多个被标记为“词中”的音节合并为一个词;步骤316将所有被标记为“独立”的音节以及 所有未被合并的音节作为单音节词;步骤318将经过以上处理的藏文词序本文档来自技高网
...

【技术保护点】
1.一种基于词位标注的藏文分词方法,其步骤为:1)以标点符号为标志,将输入的藏文文本切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志,将其切分为一系列藏文音节;3)对每个藏文音节,根据藏文音节所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;所述词位标签包括:词首、词中、词尾、独立、紧缩;所述知识库包含藏文音节在不同的上下文环境中被标记为五种所述词位标签之一的概率值;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘汇丹吴健诺明花马龙龙
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:11

网友询问留言 已有1条评论
  • 来自[未知地区] 2013年05月13日 22:21
    一种方法也可以申请专利吗?
    6
1