一种中文的分词方法及装置制造方法及图纸

技术编号:17733874 阅读:49 留言:0更新日期:2018-04-18 11:22
本发明专利技术实施例公开了一种中文的分词方法及装置。所述方法包括:获取待分词文本的特征信息,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;根据特征信息,确定待分词文本中的所有自然区间;将自然区间划分为歧义区间和非歧义区间;确定歧义区间中的候选词,并将候选词与非歧义区间中的文本进行匹配;根据匹配结果确定候选词的分词规则,并按照分词规则对所述歧义区间的文本进行分词处理。通过采用上述技术方案,有效提高了分词结果与待分词文本语境之间的关联性,使得分词的准确度得到提升。相对于现有技术提供的分词方案,本发明专利技术实施例提供的技术方案计算量较小,在一定程度上也可以提高分词的快速性。

A Chinese word segmentation method and device

An embodiment of the invention discloses a Chinese word segmentation method and device. The method comprises: acquiring characteristic information to text segmentation, the feature information including paragraph division, punctuation marks or spaces in at least one; according to the characteristics of information, to determine all the natural interval in text segmentation; the natural interval is divided into ambiguity interval and non ambiguity interval; determining a candidate word ambiguity interval the text and matching of candidate words and non ambiguity interval; determining a candidate word segmentation rules according to the matching result, and in accordance with the rules of the text segmentation ambiguity interval of word segmentation. Through the adoption of the above technical scheme, the correlation between the results of the participle and the context of the text of the participle is improved effectively, and the accuracy of the participle is improved. Compared with the segmentation scheme provided by the existing technology, the technical solution provided by the embodiment of this invention is small, and to a certain extent, it can also improve the speediness of word segmentation.

【技术实现步骤摘要】
一种中文的分词方法及装置
本专利技术实施例涉及分词
,尤其涉及一种中文的分词方法及装置。
技术介绍
随着互联网的高速发展,网络应用趋向多元化,网上的信息量急剧增加。其中,分词是进行信息处理、信息检索的基础,所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中,而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程。一般情况下,在英文的行文中,单词之间是以空格作为自然分界符的,中文中的字、句和段也可通过明显的分界符来简单划界,唯独中文中的词没有一个形式上的分界符。同时由于中文语言的固有特性,对于一个词而言,没有明确的词定义、词和词之间也没有分隔符。此外,新词,专有名词的不断涌现等因素也将导致分词很难做到100%的准确。现有分词技术采用的主要方法是将字符匹配法、理解法以及统计相结合形成的复合型分词法。由于复合后的分词算法运算量较大,采用的语法规则也较为复杂,在保证分词准确度的基础上极易导致分词的效率降低。而若只采用上述分词算法中的其中一种或两种进行分词,虽然可以减少计算量,提高运算速度,但是在分词过程中所考虑的语境因素并不全面。因此,分词的准确度容易受到影响。所以,现有技术提供的分词方式并不能兼容分词的准确度和快速性。
技术实现思路
本专利技术实施例提供一种中文的分词方法及装置,实现了在保证分词准确度的同时,减少了分词过程中的计算量,提高了分词效率。为实现上述目的,本专利技术实施例采用如下技术方案:第一方面,本专利技术实施例提供了一种中文的分词方法,所述方法包括:获取待分词文本的特征信息;根据所述特征信息,确定所述待分词文本中的所有自然区间,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;将所述自然区间划分为歧义区间和非歧义区间;确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。第二方面,本专利技术实施例提供了一种中文的分词装置,所述装置包括:特征信息获取模块,用于获取待分词文本的特征信息;自然区间确定模块,用于根据所述特征信息,确定所述待分词文本中的所有自然区间,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;区间划分模块,用于将所述自然区间划分为歧义区间和非歧义区间;候选词匹配模块,用于确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;分词处理模块,用于根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。本专利技术实施例的技术方案中,获取待分词文本的特征信息,该特征信息可以包括段落划分、标点符号或空格符中的一种或多种。根据上述特征信息,可确定文本中的所有自然区间。在将自然区间划分为歧义区间和非歧义区间后,通过确定出歧义区间中的候选词,并将候选词与非歧义区间中的文本进行匹配,可根据匹配结果确定候选词的分词规则。通过按照该分词规则对歧义区间中的文本进行分词处理后,可得到与文本语境密切相关的分词。通过采用上述技术方案,有效提高了分词结果与待分词文本语境之间的关联性,使得分词的准确度得到提升。相对于现有技术提供的分词方案,本专利技术实施例提供的技术方案计算量较小,在一定程度上也可以提高分词的快速性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本专利技术实施例的内容和这些附图获得其他的附图。图1为本专利技术实施例一提供的一种中文的分词方法的流程示意图;图2为本专利技术实施例二提供的一种中文的分词方法的流程示意图;图3为本专利技术实施例三提供的一种中文的分词装置的结构框图。具体实施方式为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本专利技术实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1为本专利技术实施例一提供的一种中文的分词方法的流程示意图。本实施例的方法可以中文的分词装置来执行,其中该装置可由软件和/或硬件实现,一般可集成在具有分词功能的搜索引擎中。如图1所示,该方法可以包括:S110:获取待分词文本的特征信息。其中,待分词文本可以为单个句子,也可以为由多个句子所构成的一个段落,还可以为由多个段落所构成的文章等。对于中文而言,存在对文本进行初步划分的至少一个划分标准,例如可根据段落划分、标点符号和空格等控制字符中的至少一种或多种对文本进行划分。上述控制字符均可作为文本的特征信息,用于将中文文本,即连续的字符串序列划分为多个字符串序列。其中,每个字符串序列均可作为文本中独立的个体,以供搜索引擎进行进一步的识别。S120:根据特征信息,确定待分词文本中的所有自然区间。其中,自然区间是在分词过程中,根据待分词文本的至少一种特征信息对文本进行初次划分后的多个序列。该多个序列相互之间不存在组合成词的可能性。例如,对于一个句子,“我今天在路上遇到了一名警察,他当时正面向市政府。”,通过识别标点符号(逗号),可将上述句子划分为“我今天在路上遇到了一名警察”和“他当时正面向市政府”两个自然区间。示例性的,在划分自然区间的过程中,可按照文本中字符的位置依次对每个字符进行识别,当识别出某个特征信息时,可将该特征信息之前的所有字符作为一个自然区间,并按照上述方式依次识别该特征信息之后的所有字符,直到确定待分词文本中的所有自然区间。S130:将自然区间划分为歧义区间和非歧义区间。示例性的,对于待分词文本中的所有自然区间而言,均存在歧义区间和非歧义区间两种不同的类型。示例性的,可采用现有技术提供的分词词典对自然区间进行划分,具体可以为:对于每个自然区间,按照字符所在文本中的位置依次识别自然区间中的字符,并判断该字符与相邻字符所组成的词语在现有的分词词典中是否存在,若存在,则可表明某个字符可同时与相邻的字符构成词组,进而可将该字符及其相邻字符所构成的区间作为歧义区间;若不存在,则表明该字符为单个字或只属于某一个词,因此该字符可作为非歧义区间中的字符或词组。具体的,仍以句子“我今天在路上遇到了一名警察,他当时正面向市政府。”为例,对于字符“面”,由于“正面”和“面向”均可作为词组,则可将“正面向”划分为歧义区间。而“我今天在路上遇到了一名警察”可作为非歧义区间。优选的,将自然区间划分为歧义区间和非歧义区间的方式还可为:根据预设字符编码规则,将待分词文本中每个字符对应的字节信息存入字符矩阵,直到存入所有自然区间;在预设基础词典和预设分类词典中查询字符矩阵中的第N+K个字符与第N个字符是否可构成词组,若是,则将所构成词组的属性信息存储到与字符矩阵对应的关联矩阵;基于关联矩阵遍历自然区间,将自然区间划分为歧义区间和非歧义区间。其中,预设字符编码规则是指GBK(ChineseInternalCodeSpecification,汉字编码字符集)或UT本文档来自技高网...
一种中文的分词方法及装置

【技术保护点】
一种中文的分词方法,其特征在于,所述方法包括:获取待分词文本的特征信息,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;根据所述特征信息,确定所述待分词文本中的所有自然区间;将所述自然区间划分为歧义区间和非歧义区间;确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。

【技术特征摘要】
1.一种中文的分词方法,其特征在于,所述方法包括:获取待分词文本的特征信息,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;根据所述特征信息,确定所述待分词文本中的所有自然区间;将所述自然区间划分为歧义区间和非歧义区间;确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。2.根据权利要求1所述的方法,其特征在于,所述将所述自然区间划分为歧义区间和非歧义区间,包括:根据预设字符编码规则,将所述待分词文本中每个字符对应的字节信息存入字符矩阵,直到存入所有自然区间;在预设基础词典和预设分类词典中查询所述字符矩阵中的第N+K个字符与第N个字符是否构成词组,若是,则将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵;其中,N和K均为整数,用于表示字符矩阵中的字符个数;基于所述关联矩阵遍历所述自然区间中的每个字符,将所述自然区间划分为歧义区间和非歧义区间。3.根据权利要求2所述的方法,其特征在于,基于所述关联矩阵遍历所述自然区间中的每个字符,将所述自然区间划分为歧义区间和非歧义区间,包括:对于所述自然区间中的任意字符,如果在所述关联矩阵中为单个字符或只属于单个词,则将所述自然区间确定为非歧义区间;如果所述自然区间中的字符在所述关联矩阵中同时属于依次排列的至少两个词,则将所述至少两个词所在的区间确定为歧义区间;相应的,所述确定所述歧义区间中的候选词,包括:将所述关联矩阵中依次排列的,且包含有相同字符的至少两个词均作为所述歧义区间中的候选词。4.根据权利要求2所述的方法,其特征在于,根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理,包括:如果所述候选词与所述非歧义区间中的词语相匹配,则统计所述候选词在所述非歧义区间中出现的第一频率;其中,所述非歧义区间中的词语为基于预设原始分词算法进行第一分词预处理后的词语;基于所述第一频率确定所述候选词所对应的候选切分规则的权重,并按照权重最大的候选切分规则对所述歧义区间的文本进行分词处理。5.根据权利要求4所述的方法,其特征在于,基于所述第一频率确定所述候选词所对应的候选切分规则的权重之后,所述方法还包括:统计所述候选词在预设分类词典中出现的第二频率;基于所述第二频率,累加所述候选切分规则的权重,得到权重最大的候选切分规则。6.根据权利要求5所述的方法,其特征在于,所述将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵之后,所述...

【专利技术属性】
技术研发人员:杨良志汪志新丁德平王向军
申请(专利权)人:彩讯科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1