模型生成方法、文本分类方法、装置及计算机可读存储介质制造方法及图纸

技术编号:21299045 阅读:20 留言:0更新日期:2019-06-12 07:47
本发明专利技术提供了一种模型生成方法、文本分类方法、装置及计算机可读存储介质,属于计算机技术领域。该方法可以利用第一文本分类模型,根据样本文本包含的每个字的样本拼音向量及样本字向量,训练得到目标文本分类模型。这样,利用该生成的目标文本分类模型在对待分类文本进行分类时,能够基于该待分类文本中包含的字的拼音向量及字向量进行分类,由于通过拼音向量可以降低待分类文本中出现的错别字对分类准确性造成的偏差,同时,以字为单位进行分类,可以提高待分类文本包含的字被训练该目标文本分类模型时所使用的训练样本所覆盖的机率,进而进一步提高分类效果,提高目标文本分类模型的泛化能力。

Model Generation Method, Text Classification Method, Device and Computer Readable Storage Media

The invention provides a model generation method, a text classification method, a device and a computer readable storage medium, belonging to the field of computer technology. The method can use the first text categorization model to train the target text categorization model according to the sample Pinyin vectors and sample word vectors of each word contained in the sample text. In this way, the target text classification model can be used to classify the categorized text based on the Pinyin vectors and word vectors of the words contained in the text to be categorized. Because the Pinyin vectors can reduce the deviation of the classification accuracy caused by the wrong words in the text to be categorized, and at the same time, the text to be categorized by words can be improved. The included words are covered by the training samples used to train the target text categorization model, which further improves the classification effect and the generalization ability of the target text categorization model.

【技术实现步骤摘要】
模型生成方法、文本分类方法、装置及计算机可读存储介质
本专利技术属于计算机
,特别是涉及一种模型生成方法、文本分类方法、装置及计算机可读存储介质。
技术介绍
目前,在自然语言处理方面,文本分类得到了广泛的应用,例如,在对用户输入进行意图识别时,往往是对该用户输入进行文本分类来实现识别意图。现有技术中,在进行文本分类时,往往是将目标文本划分为多个词语,然后利用文本分类模型,基于每个词语的词向量进行分类。但是,目标文本中往往是通过对用户输入的语音进行转化得到的,或者是获取用户手动输入文字得到的,这样,受到语音转换精度,或者用户手动输入的准确度的影响,目标文本中可能会存在错别字,进而导致基于该目标文本进行分类的准确性,同时,文本分类模型的训练数据有限,可能无法完全覆盖目标分类中的每个词语,这样,利用文本分类模型,以词向量为依据进行分类,也会影响分类的准确性。
技术实现思路
本专利技术提供一种模型生成方法、文本分类方法、装置及计算机可读存储介质,以便解决文本分类的准确率较低的问题。依据本专利技术的第一方面,提供了一种模型生成方法,应该方法包括:将样本文本输入第一文本分类模型;根据所述样本文本包含的每个字的样本拼音向量及样本字向量,并利用所述第一文本分类模型,获取所述样本文本的预测类别值;基于所述样本文本的预测类别值以及所述样本文本的真实类别值,获取所述第一文本分类模型的损失值;若所述损失值在预设范围内,将所述第一文本分类模型作为目标文本分类模型。可选的,所述方法还包括:若所述损失值不在所述预设范围内,基于所述损失值表示的损失程度调整所述第一文本分类模型的参数,得到第二文本分类模型;基于所述样本文本对所述第二文本分类模型继续训练,直至所述损失值在所述预设范围内,将所述第二文本分类模型作为目标文本分类模型。可选的,所述将样本文本输入第一文本分类模型之前,所述方法还包括:对所述第一文本分类模型中各层的参数进行初始化;其中,所述第一文本分类模型包括向量embedding层、长短期记忆LSTM层以及软最大值softmax层;所述embedding层中的参数至少包括:每个样本文本中每个字的字向量以及所有拼音字符的向量。可选的,所述根据所述样本文本包含的每个字的样本拼音向量及样本字向量,并利用所述第一文本分类模型,获取所述样本文本的预测类别,包括:根据所述样本文本包含的每个字的样本拼音向量及样本字向量,确定每个字的样本最终向量;基于每个字的样本最终向量,确定所述样本文本的文本向量;基于所述样本文本的文本向量,确定所述样本文本的预测类别。可选的,所述根据所述样本文本包含的每个字的样本拼音向量及样本字向量,确定每个字的样本最终向量,包括:确定每个字的样本字向量,以及根据每个字的拼音字符串确定每个字的样本拼音向量;将每个字的样本字向量以及样本拼音向量进行拼接,得到每个字的样本最终向量。可选的,所述embedding层中的参数还包括:不同词性的词性向量;所述根据所述样本文本包含的每个字的样本拼音向量及样本字向量,确定每个字的样本最终向量,包括:基于领域词典对所述样本文本进行分词操作,得到所述样本文本包含的多个样本词语;确定每个样本词语中包含的每个字以及每个字的拼音字符串,得到所述样本文本中包含的每个字以及每个字的拼音字符串;确定每个字的样本字向量,以及根据每个字所属样本词语的词性,确定每个字的样本词性向量;根据每个字的拼音字符串确定每个字的样本拼音向量;将每个字的样本字向量、样本拼音向量以及样本词性向量进行拼接,得到每个字的样本最终向量。可选的,所述根据每个字的拼音字符串确定每个字的样本拼音向量,包括:对于每个字,确定所述字的拼音字符串中每个拼音字符的向量;根据每个拼音字符的向量,确定所述样本拼音向量。依据本专利技术的第二方面,提供了一种文本分类方法,所述方法包括:将待分类文本输入目标文本分类模型;通过所述目标文本分类模型对所述待分类文本进行分类,得到所述待分类文本的类别;其中,所述目标文本分类模型是利用第一方面中任一项所述的方法生成的。可选的,所述目标文本分类模型至少包括embedding层、LSTM层以及softmax层;所述通过所述目标文本分类模型对所述待分类文本进行分类,得到所述待分类文本的类别,包括:通过所述embedding层以及所述LSTM层根据所述待分类文本中每个字的字向量以及拼音向量,确定每个字的最终向量;通过所述LSTM层基于每个字的最终向量,确定所述待分类文本的文本向量;通过所述softmax层基于所述文本向量,对所述目标文本进行分类,得到所述待分类文本的类别。可选的,所述通过所述embedding层以及所述LSTM层根据所述待分类文本中每个字的字向量以及拼音向量,确定每个字的最终向量,包括:通过所述embedding层确定每个字的字向量,以及通过所述embedding层及所述LSTM层根据每个字的拼音字符串确定每个字的拼音向量;通过所述embedding层将每个字的字向量及拼音向量进行拼接,得到每个字的最终向量。可选的,所述通过所述embedding层以及所述LSTM层根据所述待分类文本中每个字的字向量以及拼音向量,确定每个字的最终向量,包括:通过所述embedding层基于领域词典对所述待分类文本进行分词操作,得到所述待分类文本包含的多个词语;通过所述embedding层确定每个词语中包含的每个字以及每个字的拼音字符串,得到所述待分类文本中包含的每个字以及每个字的拼音字符串;通过所述embedding层确定每个字的字向量,以及根据每个字所属词语的词性,确定每个字的词性向量;通过所述embedding层及所述LSTM层根据每个字的拼音字符串确定每个字的拼音向量;通过所述embedding层将每个字的字向量、拼音向量以及词性向量进行拼接,得到每个字的最终向量。可选的,所述通过所述embedding层及所述LSTM层根据每个字的拼音字符串确定每个字的拼音向量,包括:对于每个字,通过所述embedding层确定所述字的拼音字符串中每个拼音字符的向量;通过所述LSTM层根据每个拼音字符的向量,确定所述字的拼音向量。依据本专利技术的第三方面,提供了一种模型生成装置,所述装置包括:输入模块,用于将样本文本输入第一文本分类模型;第一获取模块,用于根据所述样本文本包含的每个字的样本拼音向量及样本字向量,并利用所述第一文本分类模型,获取所述样本文本的预测类别值;第二获取模块,用于基于所述样本文本的预测类别值以及所述样本文本的真实类别值,获取所述第一文本分类模型的损失值;确定模块,用于若所述损失值在预设范围内,将所述第一文本分类模型作为目标文本分类模型。可选的,所述装置还包括:调整模块,用于若所述损失值不在所述预设范围内,基于所述损失值表示的损失程度调整所述第一文本分类模型的参数,得到第二文本分类模型;训练模块,用于基于所述样本文本对所述第二文本分类模型继续训练,直至所述损失值在所述预设范围内,将所述第二文本分类模型作为目标文本分类模型。可选的,所述装置还包括:初始化模块,用于对所述第一文本分类模型中各层的参数进行初始化;其中,所述第一文本分类模型包括向量embedding层、长短期记忆LSTM层以及软最大值softmax层;所述本文档来自技高网...

【技术保护点】
1.一种模型生成方法,其特征在于,所述方法包括:将样本文本输入第一文本分类模型;根据所述样本文本包含的每个字的样本拼音向量及样本字向量,并利用所述第一文本分类模型,获取所述样本文本的预测类别值;基于所述样本文本的预测类别值以及所述样本文本的真实类别值,获取所述第一文本分类模型的损失值;若所述损失值在预设范围内,将所述第一文本分类模型作为目标文本分类模型。

【技术特征摘要】
1.一种模型生成方法,其特征在于,所述方法包括:将样本文本输入第一文本分类模型;根据所述样本文本包含的每个字的样本拼音向量及样本字向量,并利用所述第一文本分类模型,获取所述样本文本的预测类别值;基于所述样本文本的预测类别值以及所述样本文本的真实类别值,获取所述第一文本分类模型的损失值;若所述损失值在预设范围内,将所述第一文本分类模型作为目标文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述损失值不在所述预设范围内,基于所述损失值表示的损失程度调整所述第一文本分类模型的参数,得到第二文本分类模型;基于所述样本文本对所述第二文本分类模型继续训练,直至所述损失值在所述预设范围内,将所述第二文本分类模型作为目标文本分类模型。3.根据权利要求2所述的方法,其特征在于,所述将样本文本输入第一文本分类模型之前,所述方法还包括:对所述第一文本分类模型中各层的参数进行初始化;其中,所述第一文本分类模型包括向量embedding层、长短期记忆LSTM层以及软最大值softmax层;所述embedding层中的参数至少包括:每个样本文本中每个字的字向量以及所有拼音字符的向量。4.根据权利要求3所述的方法,其特征在于,所述根据所述样本文本包含的每个字的样本拼音向量及样本字向量,并利用所述第一文本分类模型,获取所述样本文本的预测类别,包括:根据所述样本文本包含的每个字的样本拼音向量及样本字向量,确定每个字的样本最终向量;基于每个字的样本最终向量,确定所述样本文本的文本向量;基于所述样本文本的文本向量,确定所述样本文本的预测类别。5.根据权利要求4所述的方法,其特征在于,所述根据所述样本文本包含的每个字的样本拼音向量及样本字向量,确定每个字的样本最终向量,包括:确定每个字的样本字向量,以及根据每个字的拼音字符串确定每个字的样本拼音向量;将每个字的样本字向量以及样本拼音向量进行拼接,得到每个字的样本最终向量。6.根据权利要求4所述的方法,其特征在于,所述embedding层中的参数还包括:不同词性的词性向量;所述根据所述样本文本包含的每个字的样本拼音向量及样本字向量,确定每个字的样本最终向量,包括:基于领域词典对所述样本文本进行分词操作,得到所述样本文本包含的多个样本词语;确定每个样本词语中包含的每个字以及每个字的拼音字符串,得到所述样本文本中包含的每个字以及每个字的拼音字符串;确定每个字的样本字向量,以及根据每个字所属样本词语的词性,确定每个字的样本词性向量;根据每个字的拼音字符串确定每个字的样本拼音向量;将每个字的样本字向量、样本拼音向量以及样本词性向量进行拼接,得到每个字的样本最终向量。7.根据权利要求5或6所述的方法,其特征在于,所述根据每个字的拼音字符串确定每个字的样本拼音向量,包括:对于每个字,确定所述字的拼音字符串中每个拼音字符的向量;根据每个拼音字符的向量,确定所述样本拼音向量。8.一种文本分类方法,其特征在于,所述方法包括:将待分类文本输入目标文本分类模型;通过所述目标文本分类模型对所述待分类文本进行分类,得到所述待分类文本的类别;其中,所述目标文本分类模型是利用权利要求1至7中任一项所述的方法生成的。9.根据权利要求8所述的方法,其特征在于,所述目标文本分类模型至少包括embedding层、LSTM层以及softmax层;所述通过所述目标文本分类模型对所述待分类文本进行分类,得到所述待分类文本的类别,包括:通过所述embedding层以及所述LSTM层根据所述待分类文本中每个字的字向量以及拼音向量,确定每个字的最终向量;通过所述LSTM层基于每个字的最终向量,确定所述待分类文本的文本向量;通过所述softmax层基于所述文本向量,对所述目标文本进行分类,得到所述待分类文本的类别。10.根据权利要求9所述的方法,其特征在于,所述通过所述embedding层以及所述LSTM层根据所述待分类文本中每个字的字向量以及拼音向量,确定每个字的最终向量,包括:通过所述embedding层确定每个字的字向量,以及通过所述embedding层及所述LSTM层根据每个字的拼音字符串确...

【专利技术属性】
技术研发人员:龙翔
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1