【技术实现步骤摘要】
本专利技术涉及中文处理领域,具体而言,涉及一种中文分词方法和装置。
技术介绍
相关技术提供了一种基于词典的分词方法,此方法又称为机械的分词方法。此方 法需要一个分词词典,主要特点是比较简单,容易实现,但分词速率较慢,容易产生歧义。
技术实现思路
本专利技术旨在提供一种中文分词方法和装置,以解决相关技术分词速率较慢,容易 产生歧义的问题。在本专利技术的实施例中,提供了一种中文分词方法,包括对已分词的语料进行训练 得到CRF模型;采用CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设 置的条件,如果是,则加入到已分词的语料中;循环执行上述步骤,直至已分词的语料的规 模不再扩大,得到最终的CRF模型。在本专利技术的实施例中,提供了一种中文分词装置,包括训练模块,用于对已分词 的语料进行训练得到CRF模型;分词模块,用于采用CRF模型对未分词的语料进行分词; 加入模块,用于判断分词成功的语料是否满足设置的条件,如果是,则加入到已分词的语料 中;循环模块,用于循环调用训练模块、分词模块和加入模块,直至已分词的语料的规模不 再扩大,得到最终的CRF模型。本专利技术上述实施例的中文分词方法和装置因为采用CRF技术,所以克服了基于词 典的分词方法分词速率较慢,容易产生歧义的问题,进而达到了提高分词速率,减少分词歧 义的效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图1示出了根据本专利技术实施例的中文分词方法的流程图2是跨领域的中文分词的 ...
【技术保护点】
一种中文分词方法,其特征在于,包括:对已分词的语料进行训练得到CRF模型;采用所述CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设置的条件,如果是,则加入到所述已分词的语料中;循环执行上述步骤,直至所述已分词的语料的规模不再扩大,得到最终的CRF模型。
【技术特征摘要】
1.一种中文分词方法,其特征在于,包括 对已分词的语料进行训练得到CRF模型; 采用所述CRF模型对未分词的语料进行分词; 判断分词成功的语料是否满足设置的条件,如果是,则加入到所述已分词的语料中; 循环执行上述步骤,直至所述已分词的语料的规模不再扩大,得到最终的CRF模型。2.根据权利要求1所述的方法,其特征在于,对已分词的语料进行训练得到CRF模型包括 使用有效的字符特征将所述已分词的语料表示成特征向量形式,进行训练得到所述CRF模型。3.根据权利要求2所述的方法,其特征在于,采用所述CRF模型对未分词的语料进行分词包括 使用所述有效的字符特征将所述未分词的语料转化为特征向量形式,采用所述CRF模型进行分词。4.根据权利要求3所述的方法,其特征在于,使用有效的字符特征将所述已分词的语料表示成特征向量形式包括判断所述已分词的语料中的字符是否是数字,如果是则用标记“N”表示;判断所述已分词的语料中的字符是否是字母,如果是则用标记“L”表示;判断所述已分词的语料中的字符是否是标点符号,如果是则用标记“P”表示;判断所述已分词的语料中的字符是否是时间词,如果是则用标记“D”表示;如果以上所有判断均为否,则记为 “C,,; 使用所述有效的字符特征将所述未分词的语料转化为特征向量形式包括判断所述未分词的语料中的字符是否是数字,如果是则用标记“N”表示;判断所述未分词的语料中的字符是否是字母,如果是则用标记“L”表示;判断所述未分词的语料中的字符是否是标点符号,如果是则用标记“P”表示;判断所述未分词的语料中的字符是否是时间词,如果是则用标记“D”表示;如果以上所有判断均为否,则记为“C”。5.根据权利要求1所述的方法,其特征在于,用于训练所述已分词的语料的模板的格式如下6...
【专利技术属性】
技术研发人员:秦晓,万小军,吴於茜,
申请(专利权)人:北京大学,北大方正集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。