一种中文分词方法及系统技术方案

技术编号:21200223 阅读:43 留言:0更新日期:2019-05-25 01:21
本发明专利技术公开了一种中文分词方法及系统,对训练集语料库中的语料区分正常词和稀有词,采用BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注,所述BiLSTM模型实时根据计算的损失函数进行更新,所述损失函数在计算时引入所述语料的词频损失函数。由于本发明专利技术实施例在调整BiLSTM+CRF模型时充分考虑了所述语料的词频,并在训练得到的标注集中将正常词和稀有词进行区分,所以提高了稀有词语料的标注准确率,从而提高了中文分词的效果。

A Chinese Word Segmentation Method and System

The invention discloses a Chinese word segmentation method and system, which distinguishes normal words from rare words in the training corpus, uses BiLSTM+CRF model to train corpus in the training corpus, and obtains the annotation set containing the annotation of normal words or rare words. The BiLSTM model is updated in real time according to the calculated loss function, and the loss function is quoted in calculation. Frequency loss function into the corpus. Because the embodiment of the present invention fully considers the word frequency of the said corpus when adjusting the BiLSTM+CRF model, and distinguishes the normal words from the rare words in the labeling set acquired by the training, it improves the labeling accuracy of the rare words corpus, thereby improving the effect of Chinese word segmentation.

【技术实现步骤摘要】
一种中文分词方法及系统
本专利技术涉及中文信息处理技术,特别涉及一种中文分词方法及系统。
技术介绍
在基于中文的自然语言处理过程中,由于与英文中词与词之间有固定的自然分界符的不同,对中文进行分词通常是处理中文信息任务的基础;同时由于中文自身的复杂性,中文分词也一直是处理中文信息任务的难题。因此,中文分词是进行词性标注、命名实体识别、关键词提取等后续自然语言处理任务的基础。在进行中文分词时引入了神经网络,神经网络采用基于长短期记忆条件随机场算法(BiLSTM+CRF)模型对训练集语料库中的语料进行分词处理,将分词视为字级别的序列标注问题,将分词过程转换为每个字在文本序列中标注的过程,采用四词位的标注集(B,M,E,S)来标注语料,以确定中文分词结果,其中B表示开始,M表示中间,E表示结尾,S表示单字。采用BiLSTM+CRF模型的神经网络,在进行中文分词处理时,无需人为地提取语料中蕴含的特征,并能够取得较好的中文分词结果。尽管采用BiLSTM+CRF模型的神经网络的引入使得中文分词的准确率进一步提升,但对于稀有词的标注准确率却依然不高,特别是对一些具有歧义的词语,如字符串“硕士研究生产”则不能取得很好的中文分词结果。
技术实现思路
有鉴于此,本专利技术实施例提供一种中文分词方法,该方法能够提高训练集语料库中的稀有词语料的标注准确率。本专利技术实施例还提供一种中文分词系统,该系统能够提高训练语料库中的稀有词语语料的标注准确率。根据上述目的,本专利技术是这样实现的:一种中文分词方法,包括:A、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;B、采用基于长短期记忆条件随机场算法BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注;C、根据得到的语料标注集进行损失函数的计算,所述损失函数包括所述语料的词频损失函数;D、根据得到的损失函数对所述BiLSTM+CRF模型中的BiLSTM进行更新后,按照所述步骤B~C的过程继续执行,直到得到的中文分词结果满足设定的预期值。步骤A所述基于词频统计方式对训练集语料库中的语料进行区分为:设置词频阈值,当设定语料大于等于所设置的词频阈值时,则将设定语料标注为正常值,给予设置标签0;当设定语料小于所设置的词频阈值时,则将设定语料标注为稀有词,给予设置标签1。所述采用BiLSTM+CRF模型对训练集语料库中的语料训练还包括:设置注意力机制,在采用BiLSTM+CRF模型对训练集语料库中的语料训练的同时,采用注意力机制进行处理。所述采用注意力机制进行处理在BiLSTM和CRF之间进行,或者在BiLSTM中的前向LSTM计算或/和后向LSTM计算中进行。所述损失函数采用以下公式计算:其中,w1为正常值的权值,L正为正常词的损失函数,L稀为稀有词的损失函数,λ是正则项系数。一种中文分词系统,包括:统计词频模块、改进模型模块及损失函数计算模块,其中,统计词频模块,用于词频统计区分训练集语料库中的正常词和稀有词;改进模型模块,用于采用BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注,其中,所述BiLSTM模型根据计算得到的损失函数进行更新;损失函数计算模块,用于根据改进模型模块得到的标注集计算损失函数,提供给改进模型模块,所述损失计算函数包括所述语料的词频损失函数。所述改进模型模块,还用于在采用BiLSTM+CRF模型对训练集语料库中的语料训练,设置了注意力机制。所述损失函数计算模块,还用于根据改进模型模块得到的标注集计算损失函数为:其中,w1为权值,L正为正常词的损失函数,L稀为稀有词的损失函数,λ是正则项系数。由上述方案可以看出,本专利技术实施例对训练集语料库中的语料区分正常词和稀有词,采用BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注,所述BiLSTM模型实时根据计算的损失函数进行更新,所述损失函数在计算时引入所述语料的词频损失函数。由于本专利技术实施例在调整BiLSTM+CRF模型时充分考虑了所述语料的词频,并在训练得到的标注集中将正常词和稀有词进行区分,所以提高了稀有词语料的标注准确率,从而提高了中文分词的效果。附图说明图1为本专利技术实施例提供的中文分词方法流程图;图2为本专利技术实施例提供的采用BiLSTM+CRF模型对训练集语料库中的语料训练的过程示意图;图3为本专利技术实施例提供的中文分词系统结构示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本专利技术作进一步详细说明。在
技术介绍
采用BiLSTM+CRF模型对训练集语料库中的语料进行中文分词标注时,由于正常词语占据语料库中的绝大部分,分词模型学习的都是正常词语料的特征,因此采用BiLSTM+CRF模型对训练集语料库中的稀有词语料的分词效果并不好。本专利技术实施例充分考虑了训练集语料库中的稀有词语料,基于词频统计区分训练集语料库中的正常词和稀有词后,采用BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注。其中,所述BiLSTM模型能够根据后续计算的损失函数进行更新,所述损失函数在计算时引入所述语料的词频损失函数。这样,由于本专利技术实施例在调整BiLSTM+CRF模型时充分考虑了所述语料的词频,并在训练得到的标注集中将正常词和稀有词进行区分,所以提高了稀有词语料的标注准确率,从而提高了中文分词的效果。进一步地,在采用BiLSTM+CRF模型对训练集语料库中的语料进行训练时,还可以加入注意力(Attention-based)机制,更进一步提高中文分词效果。神经网络中的注意力机制是基于人类视觉中发现的注意机制,最终应用在图像领域。其基本思想是:人们在进行观察图像的时候,其实并不是一次将整幅图像的每个位置像素都看过,大多是根据需求将注意力集中到图像的特定部分,而且人类会人家之前观察的图像学习到未来要观察图像注意力应该集中的位置,在自然语言处理(NLP)过程中音容注意力机制,加强语料前后的关联程度,可以提升词语切分的准确率。图1为本专利技术实施例提供的中文分词方法流程图,其具体步骤为:步骤101、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;步骤102、采用BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注;步骤103、根据得到的语料标注集进行损失函数的计算,所述损失函数包括所述语料的词频损失函数;步骤104,根据得到的损失函数对所述BiLSTM+CRF模型中的BiLSTM进行更新后,按照所述步骤102~步骤103的过程执行,直到得到的中文分词结果满足设定的预期值。在该步骤中,所设定的预期值与真实中文分词结果相关,是预先设定好的。在该方法中,所述步骤102采用BiLSTM+CRF模型对训练集语料库中的语料训练还包括:设置注意力机制,在采用BiLSTM+CRF模型对训练集语料库中的语料训练之后,采用注意力机制对训练后的所述语料进行处理。在该方法中,步骤101中的所述词频统计方式中的词频指的是某一设定的语料在训练集语料库中出现的次数,比如设置词频阈值,当本文档来自技高网
...

【技术保护点】
1.一种中文分词方法,其特征在于,包括:A、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;B、采用基于长短期记忆条件随机场算法BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注;C、根据得到的语料标注集进行损失函数的计算,所述损失函数包括所述语料的词频损失函数;D、根据得到的损失函数对所述BiLSTM+CRF模型中的BiLSTM进行更新后,按照所述步骤B~C的过程继续执行,直到得到的中文分词结果满足设定的预期值。

【技术特征摘要】
1.一种中文分词方法,其特征在于,包括:A、基于词频统计方式对训练集语料库中的语料进行区分,区分得到正常词和稀有词;B、采用基于长短期记忆条件随机场算法BiLSTM+CRF模型对训练集语料库中的语料训练,得到的标注集中包含了是正常词还是稀有词的标注;C、根据得到的语料标注集进行损失函数的计算,所述损失函数包括所述语料的词频损失函数;D、根据得到的损失函数对所述BiLSTM+CRF模型中的BiLSTM进行更新后,按照所述步骤B~C的过程继续执行,直到得到的中文分词结果满足设定的预期值。2.如权利要求1所述的方法,其特征在于,步骤A所述基于词频统计方式对训练集语料库中的语料进行区分为:设置词频阈值,当设定语料大于等于所设置的词频阈值时,则将设定语料标注为正常值,给予设置标签0;当设定语料小于所设置的词频阈值时,则将设定语料标注为稀有词,给予设置标签1。3.如权利要求1所述的方法,其特征在于,所述采用BiLSTM+CRF模型对训练集语料库中的语料训练还包括:设置注意力机制,在采用BiLSTM+CRF模型对训练集语料库中的语料训练的同时,采用注意力机制进行处理。4.如权利要求3所述的方法,其特征在于,所述采用注意力机制进行处理在BiLS...

【专利技术属性】
技术研发人员:赵琦韦玮
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1