The present invention relates to a Chinese word segmentation method based on HMM, which belongs to the field of information processing technology. The invention innovatively introduces the fusion of HMM and word segmentation dictionary to improve the Chinese word segmentation method. The first use of dictionary segmentation method for maximum matching of input string segmentation, get several candidate segmentation results; then introducing innovative HMM segmentation of several kinds of candidate results were calculated; finally get the most likely one of segmentation results. Compared with the prior art, through the integration of the introduction of HMM and dictionary, word segmentation method mainly solves the Chinese single ambiguity leads to incorrect segmentation, and the segmentation efficiency is low, which makes the segmentation accuracy rate is low, is committed to the accuracy and reliability of the improved segmentation.
【技术实现步骤摘要】
一种基于HMM的中文分词方法
本专利技术涉及一种基于HMM的中文分词方法,属于信息处理
技术介绍
现代社会,中文分词在信息检索、机器翻译、信息过滤等信息处理中起着重要的作用,是信息处理的关键技术与难点。一般地,作为主流的基于词典的中文分词虽然实现简单,但是过于依赖词典,容易造成歧义,导致错误切分,从而使得分词准确率低;同样地,基于统计模型的中文分词虽然在一定程度上能排除歧义,但是分词准确率也依赖于训练语料库,从而不能够达到理想的要求。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种基于HMM的中文分词方法,创新性地引入了HMM和分词词典的融合对中文分词方法进行改进,解决了单一的中文分词方法分词存在歧义,导致错误切分,以及切分效率低,从而使得分词准确率低的现象,致力于提高分词的准确性与可靠性。本专利技术的技术方案是:一种基于HMM的中文分词方法,利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:①输入待切分的词串;②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;③引入HMM,对 ...
【技术保护点】
一种基于HMM的中文分词方法,其特征在于:利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:①输入待切分的词串;②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。
【技术特征摘要】
1.一种基于HMM的中文分词方法,其特征在于:利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:①输入待切分的词串;②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。2.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:步骤①所述的待切分的词串可以为任意词串。3.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:步骤②所述的得到若干种候选的分词结果的方法为全切分,用以确保切分结果集对正确切分结果100%的召回率。4.根据权利要求3所述的基于HMM的中文分词方法,其特征在于:所述全切分需要构建一棵多叉树,其中每一条从root到叶子节点的路径均为一种分词结果,所有root到叶子节点的路径就是全切分的结果。5.根据权利要求4所述的基于HMM的中文分词方法,其特征在于:所述构建多叉树的方法为递归,即首先从待切分的词串的第一个字开始切分,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;然后将切分的指针向右移动一个单位,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;以此类推,直到切分的指针向右移动一个单位后,左边...
【专利技术属性】
技术研发人员:龙华,吴睿,邵玉斌,杜庆治,熊新,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。