当前位置: 首页 > 专利查询>北京大学专利>正文

中文分词方法和装置制造方法及图纸

技术编号:8532865 阅读:153 留言:0更新日期:2013-04-04 15:53
本发明专利技术提供了中文分词方法,包括:对已分词的语料进行训练得到CRF模型;采用CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设置的条件,是则加入到已分词的语料中;循环执行上述步骤,直至已分词的语料的规模不再扩大,得到最终的CRF模型。本发明专利技术提供了中文分词装置,包括:训练模块,用于对已分词的语料进行训练得到CRF模型;分词模块,用于采用CRF模型对未分词的语料进行分词;加入模块,用于判断分词成功的语料是否满足设置的条件,是则加入到已分词的语料中;循环模块,用于循环调用训练模块、分词模块和加入模块,直至已分词的语料的规模不再扩大,得到最终的CRF模型。本发明专利技术提高了分词速率,减少了分词歧义。

【技术实现步骤摘要】

本专利技术涉及中文处理领域,具体而言,涉及一种中文分词方法和装置
技术介绍
相关技术提供了一种基于词典的分词方法,此方法又称为机械的分词方法。此方 法需要一个分词词典,主要特点是比较简单,容易实现,但分词速率较慢,容易产生歧义。
技术实现思路
本专利技术旨在提供一种中文分词方法和装置,以解决相关技术分词速率较慢,容易 产生歧义的问题。在本专利技术的实施例中,提供了一种中文分词方法,包括对已分词的语料进行训练 得到CRF模型;采用CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设 置的条件,如果是,则加入到已分词的语料中;循环执行上述步骤,直至已分词的语料的规 模不再扩大,得到最终的CRF模型。在本专利技术的实施例中,提供了一种中文分词装置,包括训练模块,用于对已分词 的语料进行训练得到CRF模型;分词模块,用于采用CRF模型对未分词的语料进行分词; 加入模块,用于判断分词成功的语料是否满足设置的条件,如果是,则加入到已分词的语料 中;循环模块,用于循环调用训练模块、分词模块和加入模块,直至已分词的语料的规模不 再扩大,得到最终的CRF模型。本专利技术上述实施例的中文分词方法和装置因为采用CRF技术,所以克服了基于词 典的分词方法分词速率较慢,容易产生歧义的问题,进而达到了提高分词速率,减少分词歧 义的效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图1示出了根据本专利技术实施例的中文分词方法的流程图2是跨领域的中文分词的装置图3是分词模型的训练和测试的流程图4是语句筛选的流程图5示出了根据本专利技术实施例的中文分词装置的示意图具体实施方式下面将参考附图并结合实施例,来详细说明本专利技术。图1示出了根据本专利技术实施例的中文分词方法的流程图,包括步骤S10,对已分词的语料进行训练得到CRF模型;步骤S20,采用CRF模型对未分词的语料进行分词;步骤S30,判断分词成功的语料是否满足设置的条件,如果是,则加入到已分词的 语料中;步骤S40,循环执行上述步骤,直至已分词的语料的规模不再扩大,得到最终的 CRF模型。基于词典的分词方法分词速率较慢,容易产生歧义,而本实施例采用了 CRF技术, 所以克服了基于词典的分词方法分词速率较慢,容易产生歧义的问题,进而达到了提高分 词速率,减少分词歧义的效果。条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观 测序列的基础上对目标序列进行建模,重点解决序列化标注(在本专利技术中,标注即分词)的 问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的 转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最 大熵马尔科夫模型)难以避免的标记偏置问题。CRF(Conditional random field,条件随机场)理论可以用于序列标记、数据分 割、组块分析等自然语言处理任务中。在中文分词、中文人名识别、歧义消解等汉语自然语 言处理任务中都有应用,表现很好。目前基于CRFs的主要系统实现有CRF,FlexCRF,CRF++。 条件随机场模型是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个 标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即 给定观察序列0,求最佳序列S。优选地,步骤SlO包括使用有效的字符特征将已分词的语料表示成特征向量形 式,进行训练得到CRF模型。优选地,使用有效的字符特征将已分词的语料表示成特征向量形式包括判断已分词的语料中的字符是否是数字,如果是则用标记“N” (Number)表示;判断已分词的语料中的字符是否是字母,如果是则用标记“L” (Letter)表示;判断已分词的语料中的字符是否是标点符号(包括中文和西文标点),如果是则 用标记“P” (Puncture)表示;判断已分词的语料中的字符是否是时间词,如果是则用标记“D” (Date)表示;如果以上所有判断均为否,则记为“C”(Character),表示除以上四种类型外的所有普通字符。优选地,采用CRF模型对未分词的语料进行分词包括使用有效的字符特征将未 分词的语料转化为特征向量形式,采用CRF模型进行分词。优选地,使用有效的字符特征将未分词的语料转化为特征向量形式包括判断未分词的语料中的字符是否是数字,如果是则用标记“N”表示;判断未分词的语料中的字符是否是字母,如果是则用标记“L”表示;判断未分词的语料中的字符是否是标点符号,如果是则用标记“P”表示;判断未分词的语料中的字符是否是时间词,如果是则用标记“D”表示;如果以上所有判断均为否,则记为“C”。优选地,设计合适的特征模板,进行CRF模型的训练,得到初始的统计模型。本发 明优选实施例使用5窗口的特征模板格式,模板格式如下本文档来自技高网...

【技术保护点】
一种中文分词方法,其特征在于,包括:对已分词的语料进行训练得到CRF模型;采用所述CRF模型对未分词的语料进行分词;判断分词成功的语料是否满足设置的条件,如果是,则加入到所述已分词的语料中;循环执行上述步骤,直至所述已分词的语料的规模不再扩大,得到最终的CRF模型。

【技术特征摘要】
1.一种中文分词方法,其特征在于,包括 对已分词的语料进行训练得到CRF模型; 采用所述CRF模型对未分词的语料进行分词; 判断分词成功的语料是否满足设置的条件,如果是,则加入到所述已分词的语料中; 循环执行上述步骤,直至所述已分词的语料的规模不再扩大,得到最终的CRF模型。2.根据权利要求1所述的方法,其特征在于,对已分词的语料进行训练得到CRF模型包括 使用有效的字符特征将所述已分词的语料表示成特征向量形式,进行训练得到所述CRF模型。3.根据权利要求2所述的方法,其特征在于,采用所述CRF模型对未分词的语料进行分词包括 使用所述有效的字符特征将所述未分词的语料转化为特征向量形式,采用所述CRF模型进行分词。4.根据权利要求3所述的方法,其特征在于,使用有效的字符特征将所述已分词的语料表示成特征向量形式包括判断所述已分词的语料中的字符是否是数字,如果是则用标记“N”表示;判断所述已分词的语料中的字符是否是字母,如果是则用标记“L”表示;判断所述已分词的语料中的字符是否是标点符号,如果是则用标记“P”表示;判断所述已分词的语料中的字符是否是时间词,如果是则用标记“D”表示;如果以上所有判断均为否,则记为 “C,,; 使用所述有效的字符特征将所述未分词的语料转化为特征向量形式包括判断所述未分词的语料中的字符是否是数字,如果是则用标记“N”表示;判断所述未分词的语料中的字符是否是字母,如果是则用标记“L”表示;判断所述未分词的语料中的字符是否是标点符号,如果是则用标记“P”表示;判断所述未分词的语料中的字符是否是时间词,如果是则用标记“D”表示;如果以上所有判断均为否,则记为“C”。5.根据权利要求1所述的方法,其特征在于,用于训练所述已分词的语料的模板的格式如下6...

【专利技术属性】
技术研发人员:秦晓万小军吴於茜
申请(专利权)人:北京大学北大方正集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1