一种基于HMM的词性标注方法技术

技术编号：17486047 阅读：68 留言：0更新日期：2018-03-17 10:25

本发明专利技术涉及一种基于HMM的词性标注方法，属于信息处理技术领域。首先将词库中的词语按照unicode码进行排序，以便在分词的时候用二分法快速查找；然后引入HMM，以月标注好的语料库作为训练集和测试集，用以获得HMM的三个参数，从而得到HMM中若干可观测状态；其次进行二次分词，将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找，将没有查找到的新词引用最大熵模型进行标注；最后用viterbi算法计算出HMM的最优隐藏序列，再与最大熵模型标注的结果结合即为最终词性标注结果。本发明专利技术与现有技术相比，主要解决了单一的词性标注方法速度慢，对新词识别率低，从而使得标注结果准确率低的现象，以提高词性标注的高效性与准确性。

A method of part of Speech Tagging Based on HMM

The invention relates to a part of speech tagging method based on HMM, which belongs to the field of information processing technology. First of all the words in the lexicon are sorted according to the Unicode code, in order to quickly find the dichotomy in word segmentation; then the introduction of HMM, with the tagged corpus as training set and test set, three parameters are used to obtain HMM, HMM can be obtained in some observable state; secondly, the two word, the initial segmentation results did not find the word in HMM can find some observation state, will not find new words refer to the maximum entropy model labeling; finally using Viterbi algorithm to calculate the optimal hidden HMM sequence, and the annotation of the entropy model of combination is the final part of speech tagging results. Compared with the existing technology, the present method solves the problem of slow speed of single part of speech tagging, low recognition rate of new words, and low accuracy of tagging results, so as to improve the efficiency and accuracy of part of speech tagging.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于HMM的词性标注方法
本专利技术涉及一种基于HMM的词性标注方法，属于信息处理

技术介绍
现代社会，随着信息技术的快速发展，词性标注成为了自然语言处理中一个具有重要意义的研究方向，它作为自然语言处理的一项基础性工作,是后续语法分析、语音识别、文本分类、机器翻译等任务的必要准备。一般地，基于HMM的词性标注效果虽然不错，但是对预测信息不足，识别新词能力差，从而使得词性标注的准确率不高；同样地，基于最大熵模型的词性标注虽然能有效地利用上下文信息，有较好的预测作用，但是存在着标注速度慢以及标注偏置等问题。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足，提供一种基于HMM的词性标注方法，引入了HMM和最大熵模型的结合对词性标注方法进行改进，解决了单一的词性标注方法速度慢，对新词识别率低，从而使得标注结果准确率低的现象，以提高词性标注的高效性与准确性。本专利技术的技术方案是：一种基于HMM的词性标注方法，利用HMM和最大熵模型的结合对词性标注方法进行改进，具体步骤为：①输入待标注的词串，待标注的词串可以为任意词串；②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分，得到初次分词结果；③以标注好的语料库作为训练集和测试集，获得HMM的三个参数，从而得到HMM中若干可观测状态；④进行二次分词，将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找，若仍存在未查找到的词，则作为新词引入最大熵模型进行标注；⑤用viterbi算法计算出HMM的最优隐藏序列，再与最大熵模型标注的结果结合即为最终词性标注结果。步骤②所述的词库使...
一种基于HMM的词性标注方法

【技术保护点】
一种基于HMM的词性标注方法，其特征在于：利用HMM和最大熵模型的结合对词性标注方法进行改进，具体步骤为：①输入待标注的词串，待标注的词串可以为任意词串；②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分，得到初次分词结果；③以标注好的语料库作为训练集和测试集，获得HMM的三个参数，从而得到HMM中若干可观测状态；④进行二次分词，将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找，若仍存在未查找到的词，则作为新词引入最大熵模型进行标注；⑤用viterbi算法计算出HMM的最优隐藏序列，再与最大熵模型标注的结果结合即为最终词性标注结果。

【技术特征摘要】
1.一种基于HMM的词性标注方法，其特征在于：利用HMM和最大熵模型的结合对词性标注方法进行改进，具体步骤为：①输入待标注的词串，待标注的词串可以为任意词串；②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分，得到初次分词结果；③以标注好的语料库作为训练集和测试集，获得HMM的三个参数，从而得到HMM中若干可观测状态；④进行二次分词，将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找，若仍存在未查找到的词，则作为新词引入最大熵模型进行标注；⑤用viterbi算法计算出HMM的最优隐藏序列，再与最大熵模型标注的结果结合即为最终词性标注结果。2.根据权利要求1所述的基于HMM的词性标注方法，其特征在于：步骤②所述的词库使用unicode码排序，以便在分词时匹配词库时能实现快速查找。3.根据权利要求2所述的基于HMM的词性标注方法，其特征在于：所述的快速查找为二分法，在初次分词时，首先将词库读到内存中，然后将词串用正向最大匹配的方法匹配词库；由于词库按照unicode码排序，所以可以采用二分法快速查找词组，查找时，首先读取原始句子的第一个字，找到该字在词库中的起始位置和结束位置，然后进用二分法进行快速查找，在查找的过程中记录起始和结束位置之间所有词的最大长度，然后从最大长度开始查找词库，长度逐一递减，直到找到为止。4.根据权利要求1所述的基于HMM的词性标注方法，其特征在于：步骤③所述的获得HMM的三个参数为(PI，A，B)，PI表示词性的先验概率，A表示词性之间的状态转移矩阵，B表示词性到词的混淆矩阵，获得以上三种参数的方式为有监督的方式，即通过统计语料库中的相关信息来训练参数。5.根据权利要求4所述的基于H...

【专利技术属性】
技术研发人员：龙华，吴睿，熊新，邵玉斌，杜庆治，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人