The invention discloses a Chinese word segmentation method and system, which distinguishes normal words from rare words in the training corpus, uses BiLSTM+CRF model to train corpus in the training corpus, and obtains the annotation set containing the annotation of normal words or rare words. The BiLSTM model is updated in real time according to the calculated loss function, and the loss function is quoted in calculation. Frequency loss function into the corpus. Because the embodiment of the present invention fully considers the word frequency of the said corpus when adjusting the BiLSTM+CRF model, and distinguishes the normal words from the rare words in the labeling set acquired by the training, it improves the labeling accuracy of the rare words corpus, thereby improving the effect of Chinese word segmentation.
【技术实现步骤摘要】
一种中文分词方法及系统
本专利技术涉及中文信息处理技术,特别涉及一种中文分词方法及系统。
技术介绍
在基于中文的自然语言处理过程中,由于与英文中词与词之间有固定的自然分界符的不同,对中文进行分词通常是处理中文信息任务的基础;同时由于中文自身的复杂性,中文分词也一直是处理中文信息任务的难题。因此,中文分词是进行词性标注、命名实体识别、关键词提取等后续自然语言处理任务的基础。在进行中文分词时引入了神经网络,神经网络采用基于长短期记忆条件随机场算法(BiLSTM+CRF)模型对训练集语料库中的语料进行分词处理,将分词视为字级别的序列标注问题,将分词过程转换为每个字在文本序列中标注的过程,采用四词位的标注集(B,M,E,S)来标注语料,以确定中文分词结果,其中B表示开始,M表示中间,E表示结尾,S表示单字。采用BiLSTM+CRF模型的神经网络,在进行中文分词处理时,无需人为地提取语料中蕴含的特征,并能够取得较好的中文分词结果。尽管采用BiLSTM+CRF模型的神经网络的引入使得中文分词的准确率进一步提升,但对于稀有词的标注准确率却依然不高,特别是对一些具有歧义的词语,如字符串“硕士研究生产”则不能取得很好的中文分词结果。
技术实现思路
有鉴于此,本专利技术实施例提供一种中文分词方法,该方法能够提高训练集语料库中的稀有词语料的标注准确率。本专利技术实施例还提供一种中文分词系统,该系统能够提高训练语料库中的稀有词语语料的标注准确率。根据上述目的,本专利技术是这样实现的:一种中文分词方法,包括:A、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;B ...
【技术保护点】
1.一种中文分词方法,其特征在于,包括:A、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;B、采用基于长短期记忆条件随机场算法BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注;C、根据得到的语料标注集进行损失函数的计算,所述损失函数包括所述语料的词频损失函数;D、根据得到的损失函数对所述BiLSTM+CRF模型中的BiLSTM进行更新后,按照所述步骤B~C的过程继续执行,直到得到的中文分词结果满足设定的预期值。
【技术特征摘要】
1.一种中文分词方法,其特征在于,包括:A、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;B、采用基于长短期记忆条件随机场算法BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注;C、根据得到的语料标注集进行损失函数的计算,所述损失函数包括所述语料的词频损失函数;D、根据得到的损失函数对所述BiLSTM+CRF模型中的BiLSTM进行更新后,按照所述步骤B~C的过程继续执行,直到得到的中文分词结果满足设定的预期值。2.如权利要求1所述的方法,其特征在于,步骤A所述基于词频统计方式对训练集语料库中的语料进行区分为:设置词频阈值,当设定语料大于等于所设置的词频阈值时,则将设定语料标注为正常值,给予设置标签0;当设定语料小于所设置的词频阈值时,则将设定语料标注为稀有词,给予设置标签1。3.如权利要求1所述的方法,其特征在于,所述采用BiLSTM+CRF模型对训练集语料库中的语料训练还包括:设置注意力机制,在采用BiLSTM+CRF模型对训练集语料库中的语料训练的同时,采用注意力机制进行处理。4.如权利要求3所述的方法,其特征在于,所述采用注意力机制进行处理在BiLS...
【专利技术属性】
技术研发人员:赵琦,韦玮,
申请(专利权)人:普天信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。