An embodiment of the invention discloses a Chinese word segmentation method and device. The method comprises: acquiring characteristic information to text segmentation, the feature information including paragraph division, punctuation marks or spaces in at least one; according to the characteristics of information, to determine all the natural interval in text segmentation; the natural interval is divided into ambiguity interval and non ambiguity interval; determining a candidate word ambiguity interval the text and matching of candidate words and non ambiguity interval; determining a candidate word segmentation rules according to the matching result, and in accordance with the rules of the text segmentation ambiguity interval of word segmentation. Through the adoption of the above technical scheme, the correlation between the results of the participle and the context of the text of the participle is improved effectively, and the accuracy of the participle is improved. Compared with the segmentation scheme provided by the existing technology, the technical solution provided by the embodiment of this invention is small, and to a certain extent, it can also improve the speediness of word segmentation.
【技术实现步骤摘要】
一种中文的分词方法及装置
本专利技术实施例涉及分词
,尤其涉及一种中文的分词方法及装置。
技术介绍
随着互联网的高速发展,网络应用趋向多元化,网上的信息量急剧增加。其中,分词是进行信息处理、信息检索的基础,所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中,而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程。一般情况下,在英文的行文中,单词之间是以空格作为自然分界符的,中文中的字、句和段也可通过明显的分界符来简单划界,唯独中文中的词没有一个形式上的分界符。同时由于中文语言的固有特性,对于一个词而言,没有明确的词定义、词和词之间也没有分隔符。此外,新词,专有名词的不断涌现等因素也将导致分词很难做到100%的准确。现有分词技术采用的主要方法是将字符匹配法、理解法以及统计相结合形成的复合型分词法。由于复合后的分词算法运算量较大,采用的语法规则也较为复杂,在保证分词准确度的基础上极易导致分词的效率降低。而若只采用上述分词算法中的其中一种或两种进行分词,虽然可以减少计算量,提高运算速度,但是在分词过程中所考虑的语境因素并不全面。因此,分词的准确度容易受到影响。所以,现有技术提供的分词方式并不能兼容分词的准确度和快速性。
技术实现思路
本专利技术实施例提供一种中文的分词方法及装置,实现了在保证分词准确度的同时,减少了分词过程中的计算量,提高了分词效率。为实现上述目的,本专利技术实施例采用如下技术方案:第一方面,本专利技术实施例提供了一种中文的分词方法,所述方法包括:获取待分词文本的特征信息;根据所述特征信息,确定 ...
【技术保护点】
一种中文的分词方法,其特征在于,所述方法包括:获取待分词文本的特征信息,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;根据所述特征信息,确定所述待分词文本中的所有自然区间;将所述自然区间划分为歧义区间和非歧义区间;确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。
【技术特征摘要】
1.一种中文的分词方法,其特征在于,所述方法包括:获取待分词文本的特征信息,其中,所述特征信息包括段落划分、标点符号或空格符中至少之一;根据所述特征信息,确定所述待分词文本中的所有自然区间;将所述自然区间划分为歧义区间和非歧义区间;确定所述歧义区间中的候选词,并将所述候选词与所述非歧义区间中的文本进行匹配;根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理。2.根据权利要求1所述的方法,其特征在于,所述将所述自然区间划分为歧义区间和非歧义区间,包括:根据预设字符编码规则,将所述待分词文本中每个字符对应的字节信息存入字符矩阵,直到存入所有自然区间;在预设基础词典和预设分类词典中查询所述字符矩阵中的第N+K个字符与第N个字符是否构成词组,若是,则将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵;其中,N和K均为整数,用于表示字符矩阵中的字符个数;基于所述关联矩阵遍历所述自然区间中的每个字符,将所述自然区间划分为歧义区间和非歧义区间。3.根据权利要求2所述的方法,其特征在于,基于所述关联矩阵遍历所述自然区间中的每个字符,将所述自然区间划分为歧义区间和非歧义区间,包括:对于所述自然区间中的任意字符,如果在所述关联矩阵中为单个字符或只属于单个词,则将所述自然区间确定为非歧义区间;如果所述自然区间中的字符在所述关联矩阵中同时属于依次排列的至少两个词,则将所述至少两个词所在的区间确定为歧义区间;相应的,所述确定所述歧义区间中的候选词,包括:将所述关联矩阵中依次排列的,且包含有相同字符的至少两个词均作为所述歧义区间中的候选词。4.根据权利要求2所述的方法,其特征在于,根据匹配结果确定所述候选词的分词规则,并按照所述分词规则对所述歧义区间的文本进行分词处理,包括:如果所述候选词与所述非歧义区间中的词语相匹配,则统计所述候选词在所述非歧义区间中出现的第一频率;其中,所述非歧义区间中的词语为基于预设原始分词算法进行第一分词预处理后的词语;基于所述第一频率确定所述候选词所对应的候选切分规则的权重,并按照权重最大的候选切分规则对所述歧义区间的文本进行分词处理。5.根据权利要求4所述的方法,其特征在于,基于所述第一频率确定所述候选词所对应的候选切分规则的权重之后,所述方法还包括:统计所述候选词在预设分类词典中出现的第二频率;基于所述第二频率,累加所述候选切分规则的权重,得到权重最大的候选切分规则。6.根据权利要求5所述的方法,其特征在于,所述将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵之后,所述...
【专利技术属性】
技术研发人员:杨良志,汪志新,丁德平,王向军,
申请(专利权)人:彩讯科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。