中文分词方法及系统技术方案

技术编号：20448886 阅读：38 留言：0更新日期：2019-02-27 02:58

本发明专利技术提供的中文分词方法及系统，获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型；利用核心词典对目标文本进行分词处理，得到第一目标词网；采用HMM模型的Viterbi算法，对第一目标词网进行消歧处理，得到第二目标词网；利用实体识别模型，对目标文本进行实体识别处理，得到目标实体词；将目标实体词纳入到第二目标词网中，得到第三目标词网；采用HMM模型的Viterbi算法，对第三目标词网进行消歧处理，得到最优分词序列；利用HMM模型，对最优分词序列进行词性标注，得到目标分词结果。本发明专利技术的技术方案，提高了针对指定领域的中文文本的分词准确性与分词效率，大幅提高了针对指定领域中文文本的分词质量。

Chinese Word Segmentation Method and System

The Chinese word segmentation method and system provided by the invention acquires the target text in the specified field and preset HMM model; uses the core dictionary to segment the target text and obtains the first target word network; uses the Viterbi algorithm of the HMM model to disambiguate the first target word network and obtains the second target word network by using entity recognition model; The text is processed by entity recognition to get the target entity word; the target entity word is integrated into the second target word network to get the third target word network; the third target word network is disambiguated by Viterbi algorithm of HMM model, and the optimal segmentation sequence is obtained; the optimal segmentation sequence is tagged by HMM model, and the result of target segmentation is obtained. The technical scheme of the invention improves the accuracy and efficiency of word segmentation for Chinese text in a specified field, and greatly improves the quality of word segmentation for Chinese text in a specified field.

全部详细技术资料下载

【技术实现步骤摘要】
中文分词方法及系统
本专利技术涉及信息处理
，更具体的说，涉及中文分词方法及系统。
技术介绍
中文自动分词是中文信息处理的一项重要的基础性工作，许多中文信息处理项目中都涉及到分词问题，如搜索引擎、机器翻译、自动文摘、分类聚类、语言识别，人机对话等。现有的中文分词算法，大致可分为基于字符串匹配的分词方法与基于统计的分词方法。基于字符串匹配的分词方法，又称为机械分词方法，常用的算法有正向最大匹配法、逆向最大匹配法、最小匹配方法等，这类方法简单、分词效率较高，但面对语言现象丰富的中文文本进行分词时，其正确率较低，分词质量较差；基于统计的分词方法，针对中文文本进行分词时正确率有所提高，但是在面对特定领域的中文文本时，由于特定领域与通用领域的词汇结合会产生“跨界”问题(也即，交集型歧义切分问题)，同样会导致最终的分词质量较差的问题。因此，目前迫切需要一种能够针对特定领域的中文文本，实现准确、高效的分词处理的技术方案。
技术实现思路
有鉴于此，本专利技术提供了一种中文分词方法及系统，以解决目前的中文分词方案在针对特征领域的中文文本时，其分词质量较差的技术问题。为实现上述目的，本专利技术提供如下技术方案：一种中文分词方法，所述方法包括：获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型；其中，所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型；利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网；采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网；利用所述实体...

【技术保护点】
1.一种中文分词方法，其特征在于，所述方法包括：获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型；其中，所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型；利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网；采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网；利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词；将所述目标实体词纳入到所述第二目标词网中，得到第三目标词网；采用所述HMM模型的维特比Viterbi算法，对所述第三目标词网进行消歧处理，得到最优分词序列；利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果。

【技术特征摘要】
1.一种中文分词方法，其特征在于，所述方法包括：获取指定领域的目标文本，与预置的隐马尔可夫模型HMM模型；其中，所述HMM模型包含所述指定领域对应的核心词典、接续词典、词性转移矩阵与实体识别模型；利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网；采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网；利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词；将所述目标实体词纳入到所述第二目标词网中，得到第三目标词网；采用所述HMM模型的维特比Viterbi算法，对所述第三目标词网进行消歧处理，得到最优分词序列；利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词结果。2.如权利要求1所述的方法，其特征在于，所述核心词典存储在双数组Trie树中；所述利用所述核心词典对所述目标文本进行分词处理，得到多个分词候选集，形成第一目标词网包括：基于所述双数组Trie树，将所述目标文件与所述核心词典进行匹配，得到多个分词候选集，形成第一目标词网。3.如权利要求1所述的方法，其特征在于，所述采用所述HMM模型的维特比Viterbi算法，对所述第一目标词网进行消歧处理，得到第二目标词网包括：采用所述HMM模型的维特比Viterbi算法，获取所述第一目标词网中各个分词候选集的概率值；从所述第一目标词网中剔除概率值非最大的分词候选集，得到第二目标词网。4.如权利要求1所述的方法，其特征在于，所述利用所述实体识别模型，对所述目标文本进行实体识别处理，得到目标实体词包括：利用所述实体识别模型，根据所述目标文本构建目标角色网；所述目标角色网用于表征所述目标文本中的角色与词汇之间的关系网；采用所述HMM模型的维特比Viterbi算法，对所述目标角色网进行消歧处理，得到角色最优解，作为目标实体词；其中，所述实体识别模型中构建了角色标注序列，并拟合了不同角色之间的转移概率。5.如权利要求1所述的方法，其特征在于，所述利用所述HMM模型，对所述最优分词序列进行词性标注，得到目标分词...

【专利技术属性】
技术研发人员：钟留娥，闵博，田文宝，
申请(专利权)人：北京搜狐新动力信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人