一种中文分词方法及系统技术方案

技术编号：21200223 阅读：43 留言：0更新日期：2019-05-25 01:21

本发明专利技术公开了一种中文分词方法及系统，对训练集语料库中的语料区分正常词和稀有词，采用BiLSTM+CRF模型对训练集语料库中的语料训练，得到的标注集中包含了是正常词还是稀有词的标注，所述BiLSTM模型实时根据计算的损失函数进行更新，所述损失函数在计算时引入所述语料的词频损失函数。由于本发明专利技术实施例在调整BiLSTM+CRF模型时充分考虑了所述语料的词频，并在训练得到的标注集中将正常词和稀有词进行区分，所以提高了稀有词语料的标注准确率，从而提高了中文分词的效果。

A Chinese Word Segmentation Method and System

The invention discloses a Chinese word segmentation method and system, which distinguishes normal words from rare words in the training corpus, uses BiLSTM+CRF model to train corpus in the training corpus, and obtains the annotation set containing the annotation of normal words or rare words. The BiLSTM model is updated in real time according to the calculated loss function, and the loss function is quoted in calculation. Frequency loss function into the corpus. Because the embodiment of the present invention fully considers the word frequency of the said corpus when adjusting the BiLSTM+CRF model, and distinguishes the normal words from the rare words in the labeling set acquired by the training, it improves the labeling accuracy of the rare words corpus, thereby improving the effect of Chinese word segmentation.

全部详细技术资料下载

【技术实现步骤摘要】
一种中文分词方法及系统
本专利技术涉及中文信息处理技术，特别涉及一种中文分词方法及系统。
技术介绍
在基于中文的自然语言处理过程中，由于与英文中词与词之间有固定的自然分界符的不同，对中文进行分词通常是处理中文信息任务的基础；同时由于中文自身的复杂性，中文分词也一直是处理中文信息任务的难题。因此，中文分词是进行词性标注、命名实体识别、关键词提取等后续自然语言处理任务的基础。在进行中文分词时引入了神经网络，神经网络采用基于长短期记忆条件随机场算法(BiLSTM+CRF)模型对训练集语料库中的语料进行分词处理，将分词视为字级别的序列标注问题，将分词过程转换为每个字在文本序列中标注的过程，采用四词位的标注集(B,M,E,S)来标注语料，以确定中文分词结果，其中B表示开始，M表示中间，E表示结尾，S表示单字。采用BiLSTM+CRF模型的神经网络，在进行中文分词处理时，无需人为地提取语料中蕴含的特征，并能够取得较好的中文分词结果。尽管采用BiLSTM+CRF模型的神经网络的引入使得中文分词的准确率进一步提升，但对于稀有词的标注准确率却依然不高，特别是对一些具有歧义的词语，如字符串“硕士研究生产”则不能取得很好的中文分词结果。
技术实现思路
有鉴于此，本专利技术实施例提供一种中文分词方法，该方法能够提高训练集语料库中的稀有词语料的标注准确率。本专利技术实施例还提供一种中文分词系统，该系统能够提高训练语料库中的稀有词语语料的标注准确率。根据上述目的，本专利技术是这样实现的：一种中文分词方法，包括：A、基于词频统计方式对训练集语料库中的语料进行区分，区分得到正常词和稀有词；B...

【技术保护点】
1.一种中文分词方法，其特征在于，包括：A、基于词频统计方式对训练集语料库中的语料进行区分，区分得到正常词和稀有词；B、采用基于长短期记忆条件随机场算法BiLSTM+CRF模型对训练集语料库中的语料训练，得到的标注集中包含了是正常词还是稀有词的标注；C、根据得到的语料标注集进行损失函数的计算，所述损失函数包括所述语料的词频损失函数；D、根据得到的损失函数对所述BiLSTM+CRF模型中的BiLSTM进行更新后，按照所述步骤B～C的过程继续执行，直到得到的中文分词结果满足设定的预期值。

【技术特征摘要】
1.一种中文分词方法，其特征在于，包括：A、基于词频统计方式对训练集语料库中的语料进行区分，区分得到正常词和稀有词；B、采用基于长短期记忆条件随机场算法BiLSTM+CRF模型对训练集语料库中的语料训练，得到的标注集中包含了是正常词还是稀有词的标注；C、根据得到的语料标注集进行损失函数的计算，所述损失函数包括所述语料的词频损失函数；D、根据得到的损失函数对所述BiLSTM+CRF模型中的BiLSTM进行更新后，按照所述步骤B～C的过程继续执行，直到得到的中文分词结果满足设定的预期值。2.如权利要求1所述的方法，其特征在于，步骤A所述基于词频统计方式对训练集语料库中的语料进行区分为：设置词频阈值，当设定语料大于等于所设置的词频阈值时，则将设定语料标注为正常值，给予设置标签0；当设定语料小于所设置的词频阈值时，则将设定语料标注为稀有词，给予设置标签1。3.如权利要求1所述的方法，其特征在于，所述采用BiLSTM+CRF模型对训练集语料库中的语料训练还包括：设置注意力机制，在采用BiLSTM+CRF模型对训练集语料库中的语料训练的同时，采用注意力机制进行处理。4.如权利要求3所述的方法，其特征在于，所述采用注意力机制进行处理在BiLS...

【专利技术属性】
技术研发人员：赵琦，韦玮，
申请(专利权)人：普天信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人