一种基于词位标注的藏文分词方法技术

技术编号：6175623 阅读：352 留言：1更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于词位标注的藏文分词方法，属于藏文信息处理领域。本方法为：1)对输入的藏文文本，以标点符号为标志切分为一系列藏文句子；2)对每个藏文句子，以藏文音节点为标志切分为一系列藏文音节；3)对每个藏文音节，根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节；4)将所有被标记为紧缩的音节还原为两个音节，并依前后顺序分别标记为词尾和独立；5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词；6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明专利技术没有显式地区分词表词和未登录词，所有的处理都是在音节一级的单元上完成，使得分词称为音节重组的简单过程。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机及藏文信息处理领域，更具体地说，涉及藏文分词领域，提供了。
技术介绍
随着计算机对藏文支持能力的增强，以及我国少数民族地区信息化进程的逐步推进，越来越多的藏文信息开始通过计算机进行存储和传播，藏文信息处理的研究也从操作系统支持、排版印刷、输入法和字库等基础的文字层面逐步转向文字识别、文语转换、文本校正、信息检索、机器翻译等文本层面。然而，藏文是一种拼音文字，其各音节之间由音节点分隔，但是词与词之间却没有分隔标记，同汉语类似，分词是藏文信息处理的基础。藏文音节(藏字)的结构如图1所示，藏文句子由多个藏文音节构成，如图2所示。经过多年的发展，研究人员已经提出了多种藏文分词方法，包括基于字符串匹配的方法、基于格助词和接续特征的方法。基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待分析的文字序列与词典中的词条进行匹配，若在词典中找到某个词，则匹配成功(识别出一个词)。按照扫描方向的不同，字符串匹配方法可以分为正向匹配和逆向匹配，也可以同时从两个方向进行切分，发现切分歧义，并进行切分歧义消解。基于格助词和接续特征的方法充分利用藏文的语言特性进行分词。利用字切分特征和字性库先‘认字’，利用标点符号和关联词将藏文的段落分成句子，在单个句子中利用格助词将句子‘分块’，再用词典进行块内分词。该方法的技术特点是，综合运用藏文字、词、句等各类形态特征，在藏文格助词、接续特征、字性知识库以及词典的支持下，采用逐级定位的确定性算法实现藏文的自动分词。现有的藏文分词方法虽然在小规模实验中取得了较好的效果，但由于藏...

【技术保护点】
１．一种基于词位标注的藏文分词方法，其步骤为：１）以标点符号为标志，将输入的藏文文本切分为一系列藏文句子；２）对每个藏文句子，以藏文音节点为标志，将其切分为一系列藏文音节；３）对每个藏文音节，根据藏文音节所处上下文环境从知识库中查找并选择一个词位标签赋予该音节；所述词位标签包括：词首、词中、词尾、独立、紧缩；所述知识库包含藏文音节在不同的上下文环境中被标记为五种所述词位标签之一的概率值；４）将所有被标记为紧缩的音节还原为两个音节，并依前后顺序分别标记为词尾和独立；５）将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词；６）将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘汇丹，吴健，诺明花，马龙龙，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人