基于线性模型的汉语词法分析方法技术

技术编号:2823477 阅读:178 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于线性模型的汉语词法分析方法,包括如下步骤:1)输入汉语语句,设定分析窗口长度;2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。本发明专利技术能够显著地提高了切分和标注的精确度。

【技术实现步骤摘要】

本专利技术涉及统计自然语言处理
,特别统计汉语分词和词性标注。
技术介绍
汉语词法分析的目标有两个分词和词性标注。分词就是将字与字之间 紧密相连的汉语语句按词进行划分,从而将汉字序列转化为汉语词序列;词 性标注在分词的基础上,给每个汉语词标上一个词性标记,例如动词VV、名 词NN等等。对于给定的汉语语句,如何既分词又进行词性标注呢?有两种 策略 一种是先进行分词,再在分词的基础上进行词性标注;另一种是在分 词的过程中就考虑到词性标注。很明显,前一种策略将分词和词性标注割裂 成两个独立的阶段。因此,分词阶段产生的错误不能被词性标注阶段修所正; 后一种策略将分词和词性标注同时进行,两个过程的可以相互利用对方的信 息,增加了模型的容错能力,从而提高了准确性。因此,现有的汉语词法分 析技术多采用第二种策略。在汉语词法分析领域,当前流行的方法是,通过用基于字特征的分类器 对汉语语句的各个汉字进行分类来获得分词与标注的结果。 利用基于字 特征的分类器进行分词的优点是泛化能力强,它与基于词典的分词系统相 比,拥有更好的识别新词的能力。原因是,基于词典的方法无法进行切分时, 无法分出词典之外的词。换句话说,基于词典的方法只能用词典中已经有的 词去拼接出输入语句。但是,现有的基于字特征分类器的分词系统的分词模 型单一,且难以直接利用从语料库得来的某些统计信息(比如某个词被标 注为某个词性标记的可能性有多大?某个词性标记序列出现的可能性有多 大?某个词语序列出现的可能性有多大?),因此,现有的基于字特征分类 器的分词系统的切分和标注的精确度均有待提高。
技术实现思路
本专利技术的目的是克服现有技术的不足,将感知机模型和多种线性模型 结合起来对语料库进行综合分析,对各模型的分析结果进行加权求和,从 而提供一种能够提高切分和标注精确度的基于线性模型的汉语词法分析方 法。为实现上述专利技术目的,本专利技术提供的基于线性模型的汉语词法分析方法,如图1所示,包括如下步骤1) 输入汉语语句,设定分析窗口长度,2) 对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的 字或字元组输入感知才几分类器,得出当前字标注为某一分词标注和词性标注 的感知积4莫型得分;同时,将该字时间窗口内的字或字元组输入线性词法分 析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;3) 感知机模型得分和线性词法分析模型得分加权求和得出综合分析得 分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词 性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词 法分析完毕。上述技术方案中,所述步骤2)中,所述线性词法分析^t型为词语序列 语言模型、词性标记序列语言模型以及词-词性对集合的共现分数模型中的 任意一个或多个加4又组合。上述技术方案中,所述步骤2)中,所述当前字的词语序列语言模型得 分是在当前字的前n-1个字的分词标注结果为已知的前提下,当前字在语料 库中出现某一分词标注的概率,所述n为所述分析窗口长度。上述技术方案中,所述步骤2)中,所述当前字的词性标记序列语言模 型得分是在当前字的前n-l个字的词性标注结果为已知的前提下,当前字在 语料库中出现某一词性标注的概率,所述n为所述分析窗口长度。上述技术方案中,其特征在于,所述步骤2)中,所述词-词性对集合 的共现分数模型得分是以极大似然估计法在训练语料中统计得到的某一词 与某一词性共现的概率。上述技术方案中,所述步骤3)中,所述加权求和所需的加权系数通过最小错误率训练方法得到。本专利技术具有如下技术效果本专利技术中,底层的基于字特征的感知机分类器使得模型具有很强的泛 化能力,而高层的线性模型融合了难于直接融入感知机的非局部特征,显 著的提高了切分和标注的精确度。附图说明以下,结合附图来详细说明本专利技术的实施例,其中 图1本专利技术的词法分析流程图。具体实施方式本专利技术提供的,包括如下步骤1) 输入汉语语句,设定分析窗口长度,2) 对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的 字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注 的感知初4莫型得分;同时,将该字时间窗口内的字或字元组输入线性词法分 析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;3) 感知机模型得分和线性词法分析模型得分加权求和得出综合分析得 分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词 性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词 法分析完毕。本专利技术的线性词法分析模型可以是词语序列语言模型、词性标记序列语 言模型以及词-词性对集合的共现分数模型中的任意一个,也可以是三者的 加4又组合。本专利技术中,分词标注和词性标注是同时完成的。比如,分词标注可以分为以下四类词语的开始(s)、词语的中部(m)、 词语的结束(e)和单字成词(s)。通过这四类标注即可获得相应的分词结 果。举例如下输入汉语语句中国的经济发展按字分类结果中/b国/m的/s经/b济/e发/b展/e 导出分词结果中国的经济发展当然也可以采用其它的标^己方式,比如b和m两个标记就可以胜〗壬汉语 分词的任务。和第一种标记方式(bmes四类的标记方式)相同,b表示词的 开始。而m则既表示词的中间也表示词的结束。那么,采用b和m两类标记 的一个实例是输入汉语语句中国的经济发展按字分类结果中/b国/m的/b经/b济/m发/b展/m 导出分词结果中国的经济发展如何在切分的同时进行词性标注呢?仍然可以采用分类的方法。这时, 分类类别不再是b、 m、 e和s四类,而是将每个类别都分别接上每个词性标 记作为后缀,这样就得到4 * IP0SI个分类 b—NN (名词的开始)b-VV (动词的开始)... m一NN (名词的中部)m—VV (动词的中部)...在b、 m、 e和s的后面带有一个词性标注作为后缀。这样扩展后的类别 既代表该字在词中位置信息(是开始?中间?结束?还是单字成词?),又 代表该位置信息是什么类型的词中的位置信息。用这个扩展的类别集标注好 各个汉字的类别之后,自然就同时获得了切分和词性标注的结果。 举例^口下输入汉语语句中国的经济发展按字分类结果中/b-NN国/m-NN的/s—DEC经/b-NN济/e—丽发/b—VN展 /e陽VN分词标注结果中国/NN的/DEC经济/NN发展VN 实施例下面以同时采用感知机分类器、词语序列语言模型、词性标记序列语言 模型以及词-词性对集合的共现分数模型的分析方法为例,对本专利技术作进一 步地描述。本专利技术中的各^^型都是在一个语料库中进行训练,语料库是一个经过词 语切分和词性标注的语句的集合。词语切分和词性标注由人类专家手工完 成。在这个语料库上,机器学习模型就可以学习到词语切分和词性标注的知 识。当面临新的等待切分的标注的语句时,这些学习到的知识就派上用场了。首先分别介绍本专利技术中的感知机分类器模型和基于线性插值模型的上 层线性模型(即线性词法分析模型)。 1、感知机分类器模型 在构建分类器时,本实施例的创新点在于第一次采用改进的感知机算法进行训练,并将该模型用于词性分析。感知机算法可参考。 这里只 提一下感知机算法的基本特点。感知本文档来自技高网...

【技术保护点】
一种提供的基于线性模型的汉语词法分析方法,包括如下步骤:    1)输入汉语语句,设定分析窗口长度,    2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;    3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。

【技术特征摘要】

【专利技术属性】
技术研发人员:姜文斌黄亮刘群吕雅娟
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1