中文分词方法及装置制造方法及图纸

技术编号:20177096 阅读:36 留言:0更新日期:2019-01-23 00:29
本发明专利技术实施例提供一种中文分词方法和装置,该方法包括:S1、获取待分词M语句;S2、将M语句中第i个预设长度子句组成第一字符串与训练语料库精确匹配,若成功,获取分词结果进入S3,若失败,进入S4,i初始值为1;S3、将第二字符串作精确匹配,第二字符串是在第一字符串尾部加入排序靠后的j个字符得到的,j初始值为1,若失败,将i值增加预设长度进入S2,若成功,获取分词结果,将j值增加1重复S3;S4、将第一字符串作模糊匹配,获取分词结果,将i值增加预设长度进入S2;S5、若S2至S4任一执行后,M语句中所有字符对应子句均获取到分词结果,终止匹配并合并所有的分词结果。该方法可利用有限语料库进行中文分词。

Chinese Word Segmentation Method and Device

The embodiment of the present invention provides a Chinese word segmentation method and device, which includes: S1, acquiring the M statement to be partitioned; S2, forming the first string of the first preset length clause in M statement and accurately matching the training corpus; if successful, acquiring the result of word segmentation into S3, if unsuccessful, into S4, I with an initial value of 1; S3, making an accurate matching of the second string, where the second string is in The initial value of J is 1. If it fails, the preset length of I is increased to S2. If it succeeds, the result of word segmentation is increased by 1 repetition S3. S4, the first string is fuzzily matched, the result of word segmentation is obtained, and the preset length of I is increased to S2. S5, if S2 to S4 is executed, all character counterparts in M statement will be added. Sentences all get the segmentation results, terminate the matching and merge all the segmentation results. This method can use limited corpus for Chinese word segmentation.

【技术实现步骤摘要】
中文分词方法及装置
本专利技术实施例涉及计算机
,尤其涉及一种中文分词方法及装置。
技术介绍
中文分词一直是中文自然语言处理领域必不可少的首要任务,是中文信息处理的基础。中文分词问题可以简单地概括为在给定的句子间插入分隔符,把汉字字符串切分为准确的词串。由于缺少词的标准定义,传统上的中文分词任务首先要根据语言学规范制定词语定义,界定词语边界,然后在此基础上建立符合该词语规范的分词系统。传统的中文分词基于词典的匹配方法,实际上是以词典为依据对分词语句进行匹配。因为词典中的词语长度较短,因此通过这种匹配所得到的分词结果存在严重的分词歧义问题。虽然存在大量的分词歧义问题,但基于词典匹配的算法往往对已登录词有很高的分词准确率。近些年随着深度学习的兴起,特征表示学习逐渐成为机器学习的一个新兴分支。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征。自2006年Hinton提出深度学习后,已有的工作表明,随着网络层数的加深,深度学习算法可以显著的提高分类的性能。虽然现有的中文分词算法已经达到很高的精确度,但是在特定工程领域内,如工程招标领域内,从实践角度出发仍然没有一个令人满意的本文档来自技高网...

【技术保护点】
1.一种中文分词方法,其特征在于,包括:S1、获取待进行中文分词的M语句;S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配...

【技术特征摘要】
1.一种中文分词方法,其特征在于,包括:S1、获取待进行中文分词的M语句;S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;S5、若所述S2至S4中任一执行完毕之后,所述M语句中的所有字符所在的子句均已获取到对应的分词结果,则终止所述S2至S4,并将所述精确匹配的分词结果和所述模糊匹配的分词结果进行合并。2.根据权利要求1所述的方法,其特征在于,步骤S4中所述获取所述模糊匹配的分词结果,具体为:从所述训练语料库中获取第三字符串的全部第三分词结果以及对应的统计概率;其中,所述第三字符串与所述第一字符串模糊匹配成功;根据统计概率大于预设概率阈值的第三分词结果,对所述第一字符串进行分词。3.根据权利要求1所述的方法,其特征在于,所述M语句是指将待分词语句按照预设规则进行划分,得到的若干个M语句中的一个。4.根据权利要求3所述的方法,其特征在于,所述预设规则具体为:以标点符号为标志,将待分词语句划分为若干个M语句。5.根据权利要求4所述的方法,其特征在于,在所述以标点符号为标志,将待分词语句划分为若...

【专利技术属性】
技术研发人员:赵琦
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1