一种分词系统及方法技术方案

技术编号:2833875 阅读:383 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种分词系统及方法。所述方法包括如下步骤:A.将待分词文本利用切分标记分割成字串;B.对所述字串进行机械分词处理;C.对机械分词结果中的连续单字进行地名识别。本发明专利技术实现了对包含地名、街道名称的文本的分词,提高了分词的准确度。

【技术实现步骤摘要】

本专利技术涉及分词领域,尤其涉及。
技术介绍
分词是指将字序列切分成有意义的词序列,又称为切词。分词系统将组成 文本的字串自动转换成词串的过程称为自动切分。相对来说,英语等印欧语言的词之间有空格等符号分格,切分比较容易。而汉语文本是连续的汉字串,其 中的词与词之间没有明确的分隔标记,分词系统需要自动识别词边界,将汉字 串切分为正确的词串。现有较成熟的分词方法是专利文献CN02127005.8中公开的分词方法,该 方法是基于字符串匹配的分词方法。这种基于字符串匹配的分词方法又称为机 械分词方法,它是按照一定的策略将待处理的字串与词库中的词条进行匹配, 若在词库中找到某个字符串,则匹配成功。但机械分词方法在地名的识别上存 在如下缺陷基于字符串匹配的分词方法中,只能识别词库中已经收录的词条,地名和 街道名称众多,无法完全收录,识别效果较差;基于字符串匹配的分词方法中,无法识别新的地名和街道名称,每天都有 可能产生新的地名和街道名称,但词库没有进行同步更新,也就无法进行识别。
技术实现思路
本专利技术所要解决的技术问题是提供一种包含地名识别的分词系统及方法, 实现对包含地名、街道名称的文本的分词,以提高分词的准确度。 为解决上述技术问题,本专利技术提供技术方案如下 一种分词方法,包括如下步骤 A 、将待分词文本利用切分标记分割成字串; B 、对所述字串进行机械分词处理; C、对机械分词结果中的连续单字进行地名识别。所述步骤B具体包括将所述字串与机械分词词库进行匹配,将匹配成 功的字串作为词输出,并将匹配失败的字串作为单字处理。所述步骤C具体包括将机械分词结果中的连续单字与预先定义的地名 模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单 字继续作为单字处理。步骤C之后还包括将地名识别中匹配成功的地名添加到机械分词词库中。所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括 标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、 构词能力差的单字词。一种分词系统,包^fe:预处理才莫块,用于将待分词文本利用切分标记分割成字串; 机械分词模块,用于对所述分割的字串进行机械分词处理; 地名识别模块,用于对所述机械分词处理得到的连续单字进行地名识别。 所述机械分词模块进一步用于将所述分割的字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并将匹配失败的字串作为单字处理。所述地名识别^t块进一步用于将所述机械分词处理得到的连续单字与预先定义的地名模式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配失败的连续单字继续作为单字处理。所述分词系统还包括地名模式库维护模块,用于维护地名识别模块使用的地命模式库信息;词库维护模块,用于维护机械分词模块使用的机械分词词库信息。所述地名识别模块,进一步用于将匹配成功的地名发送到词典维护模块; 所述词库维护模块,进一步用于将所述匹配成功的地名信息增加到机械分词词 库中去。本专利技术所述的分词系统及方法,具有如下主要有益效果 利用机械分词结合地名模式匹配,实现了对包含地名、街道名称的文本的 分词,提高了分词的准确度;进一步,识别出的地名可以作为新增地名更新到 机械分词词库中,在分词的同时有效扩展了机械分词词库中的地名信息。附图说明图l为本专利技术较佳实施例的分词系统的结构示意图; 图2为本专利技术较佳实施例的分词方法的流程示意图。具体实施方式本专利技术的基本思想是先利用切分标记将待分词文本分割成字串;然后对 所述字串进行机械分词处理,在机械分词处理中,将匹配失败的字串作为单字 处理;最后对机械分词结果中连续的单字进行地名识别。如此,便可以识别出 常见的地名、街道名称,提高了分词的准确率。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实 施例对本专利技术进行详细描述。请参照图1,本专利技术较佳实施例的分词系统主要包括预处理模块10、机械 分词模块20和地名识别模块30,其中预处理模块10,对待分词文本进行初步分词,将待分词文本利用切分标 记分割成字串,并将得到的字串发送到机械分词模块20。所述切分标记包括 显示切分标记和隐式切分标记,所述显示切分标记包括标点符号、数字、字母 和ASCII字符,所述隐式切分标记包括出现频率高、构词能力差的单字词。 预处理模块10可以对中文、非中文文本进行分割,还可以对数词短语、时间 短语、货币表示等进行识别。机械分词模块20,接收预处理模块IO发送的字串,并对所述字串进行机 械分词处理。机械分词模块20将所述字串与机械分词词库进行匹配,将匹配 成功的字串作为词^T出,并将匹配失败的字串作为单字处理;并判断是否有连 续的单字,若有,则需要进行地名识别,将所述连续的单字发送到地名识别模 块30进行地名识别。其中,机械分词模块20可以采用正向最大匹配法、逆向最大匹配法或者 最小切分算法等机械分词方法,在机械分词中所采用的词库查找算法为二分查 找算法。机械分词词库以一组已经排序的词语为输入,所有头字符相同的词语 划为一个集合作为分词库,查找词语时,先根据第一个字符找到分词库,再从 该分词库中定位该词语。地名识别模块30,接收机械分词模块20发送的连续单字信息,并对所述连续单字进行地名识别。地名识别模块30将机械分词结果中的连续单字与预 先定义的地名^i式库进行匹配,将匹配成功的连续单字作为地名输出,将匹配 失败的连续单字继续作为单字处理。其中,所述地名模式库中定义了地址的一些通用的命名规则,比如将省、 县、村、镇、道等特征字定义为地名后缀的方式形成模式。所述地名模式库还 可以根据本分词系统应用地区的地名规则进行定制,比如对于上海地区,地名规则中则包含"xx弄,,等特殊的才莫式信息。地名模式库的匹配方式有两种, 一种是直接将所述连续单字与地名模式库进行匹配;另外一种是先利用地名模 式库中定义的特征词进行识别,再采用模式识别的方式进行匹配。本专利技术较佳实施例的分词系统还可包括地名模式库维护模块(图未示), 该地名模式库维护模块,用于维护地名识别模块30使用的地命模式库信息, 例如对地名模式库进行增加、修改、删除等相关操作。本专利技术较佳实施例的分词系统还可包括词库维护模块(图未示),该词库 维护模块,用于维护机械分词模块20使用的机械分词词库信息,例如对词库 进行增加、修改、删除等相关操作。在本专利技术的较佳实施例的分词系统中,地名识别模块30还进一步用于将 匹配成功的地名发送到词库维护模块,词库维护才莫块将接收到的地名信息增加 到机械分词词库中去。这样,在下一次分词时,直接在机械分词模块20中就 可识别出该地名,而不需要再由地名识别模块30去识别该地名。请参照图2,本专利技术较佳实施例的分词方法主要包括如下步骤步骤201、将待分词文本利用切分标记分割成字串;所述切分标记包括显示切分标记和隐式切分标记,所述显示切分标记包括 标点符号、数字、字母和ASCII字符,所述隐式切分标记包括出现频率高、 构词能力差的单字词。步骤202、对所述字串进行机械分词处理;将所述字串与机械分词词库进行匹配,将匹配成功的字串作为词输出,并 将匹配失败的字串作为单字处理。步骤203、对机械分词结果中的连续单字进行地名识别。将机械分词结果中的连续单字与预先定本文档来自技高网...

【技术保护点】
一种分词方法,其特征在于,包括如下步骤:A、将待分词文本利用切分标记分割成字串;B、对所述字串进行机械分词处理;C、对机械分词结果中的连续单字进行地名识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘丽丽陈德松
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1