中文分词方法及系统技术方案

技术编号:20448886 阅读:38 留言:0更新日期:2019-02-27 02:58
本发明专利技术提供的中文分词方法及系统,获取指定领域的目标文本,与预置的隐马尔可夫模型HMM模型;利用核心词典对目标文本进行分词处理,得到第一目标词网;采用HMM模型的Viterbi算法,对第一目标词网进行消歧处理,得到第二目标词网;利用实体识别模型,对目标文本进行实体识别处理,得到目标实体词;将目标实体词纳入到第二目标词网中,得到第三目标词网;采用HMM模型的Viterbi算法,对第三目标词网进行消歧处理,得到最优分词序列;利用HMM模型,对最优分词序列进行词性标注,得到目标分词结果。本发明专利技术的技术方案,提高了针对指定领域的中文文本的分词准确性与分词效率,大幅提高了针对指定领域中文文本的分词质量。

Chinese Word Segmentation Method and System

The Chinese word segmentation method and system provided by the invention acquires the target text in the specified field and preset HMM model; uses the core dictionary to segment the target text and obtains the first target word network; uses the Viterbi algorithm of the HMM model to disambiguate the first target word network and obtains the second target word network by using entity recognition model; The text is processed by entity recognition to get the target entity word; the target entity word is integrated into the second target word network to get the third target word network; the third target word network is disambiguated by Viterbi algorithm of HMM model, and the optimal segmentation sequence is obtained; the optimal segmentation sequence is tagged by HMM model, and the result of target segmentation is obtained. The technical scheme of the invention improves the accuracy and efficiency of word segmentation for Chinese text in a specified field, and greatly improves the quality of word segmentation for Chinese text in a specified field.

【技术实现步骤摘要】
中文分词方法及系统
本专利技术涉及信息处理
,更具体的说,涉及中文分词方法及系统。
技术介绍
中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉及到分词问题,如搜索引擎、机器翻译、自动文摘、分类聚类、语言识别,人机对话等。现有的中文分词算法,大致可分为基于字符串匹配的分词方法与基于统计的分词方法。基于字符串匹配的分词方法,又称为机械分词方法,常用的算法有正向最大匹配法、逆向最大匹配法、最小匹配方法等,这类方法简单、分词效率较高,但面对语言现象丰富的中文文本进行分词时,其正确率较低,分词质量较差;基于统计的分词方法,针对中文文本进行分词时正确率有所提高,但是在面对特定领域的中文文本时,由于特定领域与通用领域的词汇结合会产生“跨界”问题(也即,交集型歧义切分问题),同样会导致最终的分词质量较差的问题。因此,目前迫切需要一种能够针对特定领域的中文文本,实现准确、高效的分词处理的技术方案。
技术实现思路
有鉴于此,本专利技术提供了一种中文分词方法及系统,以解决目前的中文分词方案在针对特征领域的中文文本时,其分词质量较差的技术问题。为实现上述目的,本专利技术提供如下技术方案:一种中文分词方法,所述方法包括:获取指定领域的目标文本,与预置的隐马尔可夫模型HMM模型;其中,所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型;利用所述核心词典对所述目标文本进行分词处理,得到多个分词候选集,形成第一目标词网;采用所述HMM模型的维特比Viterbi算法,对所述第一目标词网进行消歧处理,得到第二目标词网;利用所述实体识别模型,对所述目标文本进行实体识别处理,得到目标实体词;将所述目标实体词纳入到所述第二目标词网中,得到第三目标词网;采用所述HMM模型的维特比Viterbi算法,对所述第三目标词网进行消歧处理,得到最优分词序列;利用所述HMM模型,对所述最优分词序列进行词性标注,得到目标分词结果。优选的,所述核心词典存储在双数组Trie树中;所述利用所述核心词典对所述目标文本进行分词处理,得到多个分词候选集,形成第一目标词网包括:基于所述双数组Trie树,将所述目标文件与所述核心词典进行匹配,得到多个分词候选集,形成第一目标词网。优选的,所述采用所述HMM模型的维特比Viterbi算法,对所述第一目标词网进行消歧处理,得到第二目标词网包括:采用所述HMM模型的维特比Viterbi算法,获取所述第一目标词网中各个分词候选集的概率值;从所述第一目标词网中剔除概率值非最大的分词候选集,得到第二目标词网。优选的,所述利用所述实体识别模型,对所述目标文本进行实体识别处理,得到目标实体词包括:利用所述实体识别模型,根据所述目标文本构建目标角色网;所述目标角色网用于表征所述目标文本中的角色与词汇之间的关系网;采用所述HMM模型的维特比Viterbi算法,对所述目标角色网进行消歧处理,得到角色最优解,作为目标实体词;其中,所述实体识别模型中构建了角色标注序列,并拟合了不同角色之间的转移概率。优选的,所述利用所述HMM模型,对所述最优分词序列进行词性标注,得到目标分词结果包括:根据所述核心词典,获取所述最优分词序列中各个词汇分别对应的不同词性,形成所述最优分词序列对应的目标词性网;利用所述HMM模型的维特比Viterbi算法,对所述目标词性网进行消歧处理,得到最优词性标注序列,作为目标分词结果。优选的,在所述利用所述HMM模型,对所述最优分词序列进行词性标注,得到目标分词结果之后,所述方法还包括:当检测到所述目标分词结果有误时,利用预设的自定义领域词典,对所述目标分词结果进行更正。优选的,所述HMM模型的训练过程包括:获取所述指定领域的语料库;通过对所述语料库进行解析处理,获取所述所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型。优选的,所述HMM模型的训练过程还包括:根据所述语料库中词汇的类型,确定与所述类型相匹配的等效词;将所述等效词纳入到所述核心词典与所述接续词典中。优选的,所述HMM模型的训练过程还包括:利用所述实体识别模型,提取所述语料库中的实体词;将所述实体词纳入到所述核心词典中。一种中文分词系统,所述系统包括:信息获取单元,用于获取指定领域的目标文本,与预置的隐马尔可夫模型HMM模型;其中,所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型;分词处理单元,用于利用所述核心词典对所述目标文本进行分词处理,得到多个分词候选集,形成第一目标词网;消歧处理单元,用于采用所述HMM模型的维特比Viterbi算法,对所述第一目标词网进行消歧处理,得到第二目标词网;实体识别单元,用于利用所述实体识别模型,对所述目标文本进行实体识别处理,得到目标实体词;将所述目标实体词纳入到所述第二目标词网中,得到第三目标词网;所述消歧处理单元,还用于采用所述HMM模型的维特比Viterbi算法,对所述第三目标词网进行消歧处理,得到最优分词序列;词性标注单元,用于利用所述HMM模型,对所述最优分词序列进行词性标注,得到目标分词结果。从上述的技术方案可以看出,本专利技术提供的中文分词方法及系统,将机械分词方式与统计分词方式相结合,通过良好的流程控制与架构设计,在获取指定领域的目标文本与预置的隐马尔可夫模型HMM模型后,利用核心词典对目标文本进行分词处理,得到第一目标词网;采用维特比Viterbi算法对第一目标词网进行消歧处理,得到第二目标词网;利用实体识别模型对目标文本进行实体识别处理,得到目标实体词;将目标实体词纳入到第二目标词网中得到第三目标词网;采用维特比Viterbi算法对第三目标词网进行消歧处理,得到最优分词序列;利用HMM模型对最优分词序列进行词性标注,得到目标分词结果,从而提高了针对指定领域的中文文本的分词准确性与分词效率,大幅提高了针对指定领域中文文本的分词质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的中文分词方法的一种流程图;图2为本专利技术实施例提供的中文分词方法的业务流程示意图;图3为本专利技术实施例提供的中文分词方法的另一种流程图;图4为本专利技术实施例提供的HMM模型训练过程的流程图;图5为本专利技术实施例提供的HMM模型训练过程的示意图;图6为本专利技术实施例提供的中文分词系统的一种结构示意图;图7为本专利技术实施例提供的中文分词系统的另一种结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。随着移动互联网的快速发展,人们的日常生活与互联网紧密相连,互联网信息成为信息获取的主要来源,已经广泛渗透到各个领域。而中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉本文档来自技高网...

【技术保护点】
1.一种中文分词方法,其特征在于,所述方法包括:获取指定领域的目标文本,与预置的隐马尔可夫模型HMM模型;其中,所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型;利用所述核心词典对所述目标文本进行分词处理,得到多个分词候选集,形成第一目标词网;采用所述HMM模型的维特比Viterbi算法,对所述第一目标词网进行消歧处理,得到第二目标词网;利用所述实体识别模型,对所述目标文本进行实体识别处理,得到目标实体词;将所述目标实体词纳入到所述第二目标词网中,得到第三目标词网;采用所述HMM模型的维特比Viterbi算法,对所述第三目标词网进行消歧处理,得到最优分词序列;利用所述HMM模型,对所述最优分词序列进行词性标注,得到目标分词结果。

【技术特征摘要】
1.一种中文分词方法,其特征在于,所述方法包括:获取指定领域的目标文本,与预置的隐马尔可夫模型HMM模型;其中,所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型;利用所述核心词典对所述目标文本进行分词处理,得到多个分词候选集,形成第一目标词网;采用所述HMM模型的维特比Viterbi算法,对所述第一目标词网进行消歧处理,得到第二目标词网;利用所述实体识别模型,对所述目标文本进行实体识别处理,得到目标实体词;将所述目标实体词纳入到所述第二目标词网中,得到第三目标词网;采用所述HMM模型的维特比Viterbi算法,对所述第三目标词网进行消歧处理,得到最优分词序列;利用所述HMM模型,对所述最优分词序列进行词性标注,得到目标分词结果。2.如权利要求1所述的方法,其特征在于,所述核心词典存储在双数组Trie树中;所述利用所述核心词典对所述目标文本进行分词处理,得到多个分词候选集,形成第一目标词网包括:基于所述双数组Trie树,将所述目标文件与所述核心词典进行匹配,得到多个分词候选集,形成第一目标词网。3.如权利要求1所述的方法,其特征在于,所述采用所述HMM模型的维特比Viterbi算法,对所述第一目标词网进行消歧处理,得到第二目标词网包括:采用所述HMM模型的维特比Viterbi算法,获取所述第一目标词网中各个分词候选集的概率值;从所述第一目标词网中剔除概率值非最大的分词候选集,得到第二目标词网。4.如权利要求1所述的方法,其特征在于,所述利用所述实体识别模型,对所述目标文本进行实体识别处理,得到目标实体词包括:利用所述实体识别模型,根据所述目标文本构建目标角色网;所述目标角色网用于表征所述目标文本中的角色与词汇之间的关系网;采用所述HMM模型的维特比Viterbi算法,对所述目标角色网进行消歧处理,得到角色最优解,作为目标实体词;其中,所述实体识别模型中构建了角色标注序列,并拟合了不同角色之间的转移概率。5.如权利要求1所述的方法,其特征在于,所述利用所述HMM模型,对所述最优分词序列进行词性标注,得到目标分词...

【专利技术属性】
技术研发人员:钟留娥闵博田文宝
申请(专利权)人:北京搜狐新动力信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1