文本分类方法、装置和电子设备制造方法及图纸

技术编号:24331259 阅读:28 留言:0更新日期:2020-05-29 19:40
本申请公开了一种文本分类方法、装置和电子设备,该方法包括:获得待分类的文本;将文本输入到已经过训练的文本分类模型,得到文本分类模型中多个二分类器输出的概率值,二分类器输出的概率值表示文本属于二分类器对应的正例文本类别的概率;获得构建出的纠错编码表,纠错编码表至少包括:多个文本类别与多个二分类器之间的码位值的对应关系,文本类别与二分类器之间的码位值用于表示文本类别是否属于二分类器对应的正例文本类别;按照多个二分类器输出的概率值以及纠错编码表中文本类别与多个二分类器对应的码位值,从多个文本类别中确定满足匹配条件的目标文本类别;将文本归类为目标文本类别。本申请的方案可以提高文本分类的精准度。

Text classification methods, devices and electronic equipment

【技术实现步骤摘要】
文本分类方法、装置和电子设备
本申请涉及数据处理
,更具体地说,涉及一种文本分类方法、装置和电子设备。
技术介绍
文本分类是指对文本按照一定的分类体系或者标准进行分类标记,以确定出文本所属的类别。文本分类已经应用于垃圾邮件过滤、情感分析等多个领域。然而,现有的文本分类方式普遍存在文本分类精准度较差,无法达到较好的分类效果。
技术实现思路
本申请的目的是提供一种文本分类方法、装置和电子设备,以提高文本分类的精准度。为实现上述目的,本申请提供了如下技术方案:一种文本分类方法,包括:获得待分类的文本;将所述文本输入到已经过训练的文本分类模型,得到所述文本分类模型中多个二分类器输出的概率值,所述二分类器输出的概率值表示所述文本属于所述二分类器对应的正例文本类别的概率;获得构建出的纠错编码表,所述纠错编码表至少包括:多个文本类别与所述多个二分类器之间的码位值的对应关系,所述文本类别与所述二分类器之间的码位值用于表示所述文本类别是否属于所述二分类器对应的正例文本类别;按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定满足匹配条件的目标文本类别;将所述文本归类为所述目标文本类别。优选的,所述按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定满足匹配条件的目标文本类别,包括:按照所述多个二分类器输出的概率值,确定所述文本属于所述多个二分类器各自对应的正例文本类别的第一分布特征;依据所述第一分布特征以及所述纠错编码表中所述文本类别对应的第二分布特征,从所述多个文本类别中,确定出第二分布特征与所述第一分布特征之间的相似度满足条件的目标文本类别,所述文本类别对应的第二分布特征为所述文本类别与多个二分类器之间的码位值的分布特征。优选的,所述按照所述多个二分类器输出的概率值,确定所述文本属于所述多个二分类器各自对应的正例文本类别的第一分布特征,包括:按照概率值与编码值之间的转换关系,依次将所述多个二分类器输出的概率值转换为编码值,得到由所述多个二分类器输出的概率值转换出的多个编码值构成的第一编码向量;所述依据所述第一分布特征以及所述纠错编码表中所述文本类别对应的第二分布特征,从所述多个文本类别中,确定出第二分布特征与所述第一分布特征之间的相似度满足条件的目标文本类别,包括:依据所述纠错编码表,构建出所述文本类别对应的第二编码向量,所述文本类别对应的第二编码向量为所述文本类别与多个二分类器之间的码位值构成的向量;从所述多个文本类别中,选取出第二编码向量与所述第一编码向量之间的海明距离最小的目标文本类别。优选的,所述从所述多个文本类别中,选取出第二编码向量与所述第一编码向量之间的海明距离最小的目标文本类别,包括:如果所述多个文本类别中,第二编码向量与所述第一编码向量之间的海明距离最小的候选文本类别有一个,则将对应的海明距离最小的文本类别确定为目标文本类别;如果所述候选文本类别有多个,则通过如下任意一种方式从多个候选文本类别中选取出目标文本类别:从多个所述候选文本类别中随机选取一个候选文本类别为目标文本类别;或者,从纠错编码表中确定所述候选文本类别属于正例文本类别的前设定数量个二分类器,将所述文本分类模型中所述前设定数量个二分类器输出的概率值加和,得到所述候选文本类别对应的正例概率和,将对应的正例概率和最大的候选文本类别确定为目标文本类别;或者,将所述候选文本类别与多个分类器对应的码位值分别与所述多个分类器输出的概率值作差,得到多个差值,并计算所述多个差值各自的绝对值的绝对值加和,将对应的绝对值加和最小的候选文本类别确定为目标文本类别。优选的,所述文本分类模型为基于Transformer的双向编码器BERT模型。优选的,所述纠错编码表为在训练所述文本分类模型的过程中构建完成,且所述文本分类模型和所述纠错编码表通过如下方式得到:获取文本训练集,所述文本训练集中包括标注有类别的多个文本训练样本;按照纠错输出码的构建规则以及所述文本训练集中所述文本训练样本所标注的类别,构建纠错编码表,其中,对于所述纠错编码表中每个二分类器,所述文本训练集中属于所述二分类器的正例文本类别的文本训练样本与属于所述二分类器的负例文本类别的文本训练样本的数量比例满足第一设定比例范围;将所述文本训练样本输入待训练的文本分类模型,得到所述文本分类模型的多个二分类器输出所述文本训练样本对应的概率值;按照所述多个二分类器输出所述文本训练样本对应的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定所述文本训练样本对应的预测文本类别;基于所述多个文本训练样本的预测文本类别以及实际标注的类别,检测所述文本分类模型的预测精准度是否符合要求;如果所述文本分类模型的预测精准度不符合要求,则按照设定的损失函数调整所述文本分类模型的内部参数,并按照文本训练集中属于正例类别样本的文本训练样本和属于负例类别样本的文本训练样本的数量比例满足第二比例范围,调整所述纠错编码表;如果所述文本分类模型的预测精准度符合要求,则得到训练出的文本分类模型和构建出的纠错编码表。又一方面,本申请还提供了一种文本分类装置,包括:文本获得单元,用于获得待分类的文本;文本预测单元,用于将所述文本输入到已经过训练的文本分类模型,得到所述文本分类模型中多个二分类器输出的概率值,所述二分类器输出的概率值表示所述文本属于所述二分类器对应的正例文本类别的概率;表获得单元,用于获得构建出的纠错编码表,所述纠错编码表至少包括:多个文本类别与所述多个二分类器之间的码位值的对应关系,所述文本类别与所述二分类器之间的码位值用于表示所述文本类别是否属于所述二分类器对应的正例文本类别;类别匹配单元,用于按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定满足匹配条件的目标文本类别;文本归类单元,用于将所述文本归类为所述目标文本类别。又一方面,本申请还提供了一种电子设备,包括:处理器和存储器;所述处理器,用于获得待分类的文本;将所述文本输入到已经过训练的文本分类模型,得到所述文本分类模型中多个二分类器输出的概率值,所述二分类器输出的概率值表示所述文本属于所述二分类器对应的正例文本类别的概率;获得构建出的纠错编码表,所述纠错编码表至少包括:多个文本类别与所述多个二分类器之间的码位值的对应关系,所述文本类别与所述二分类器之间的码位值用于表示所述文本类别是否属于所述二分类器对应的正例文本类别;按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定本文档来自技高网...

【技术保护点】
1.一种文本分类方法,包括:/n获得待分类的文本;/n将所述文本输入到已经过训练的文本分类模型,得到所述文本分类模型中多个二分类器输出的概率值,所述二分类器输出的概率值表示所述文本属于所述二分类器对应的正例文本类别的概率;/n获得构建出的纠错编码表,所述纠错编码表至少包括:多个文本类别与所述多个二分类器之间的码位值的对应关系,所述文本类别与所述二分类器之间的码位值用于表示所述文本类别是否属于所述二分类器对应的正例文本类别;/n按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定满足匹配条件的目标文本类别;/n将所述文本归类为所述目标文本类别。/n

【技术特征摘要】
1.一种文本分类方法,包括:
获得待分类的文本;
将所述文本输入到已经过训练的文本分类模型,得到所述文本分类模型中多个二分类器输出的概率值,所述二分类器输出的概率值表示所述文本属于所述二分类器对应的正例文本类别的概率;
获得构建出的纠错编码表,所述纠错编码表至少包括:多个文本类别与所述多个二分类器之间的码位值的对应关系,所述文本类别与所述二分类器之间的码位值用于表示所述文本类别是否属于所述二分类器对应的正例文本类别;
按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定满足匹配条件的目标文本类别;
将所述文本归类为所述目标文本类别。


2.根据权利要求1所述的方法,所述按照所述多个二分类器输出的概率值以及所述纠错编码表中所述文本类别与多个二分类器对应的码位值,从所述多个文本类别中确定满足匹配条件的目标文本类别,包括:
按照所述多个二分类器输出的概率值,确定所述文本属于所述多个二分类器各自对应的正例文本类别的第一分布特征;
依据所述第一分布特征以及所述纠错编码表中所述文本类别对应的第二分布特征,从所述多个文本类别中,确定出第二分布特征与所述第一分布特征之间的相似度满足条件的目标文本类别,所述文本类别对应的第二分布特征为所述文本类别与多个二分类器之间的码位值的分布特征。


3.根据权利要求2所述的方法,所述按照所述多个二分类器输出的概率值,确定所述文本属于所述多个二分类器各自对应的正例文本类别的第一分布特征,包括:
按照概率值与编码值之间的转换关系,依次将所述多个二分类器输出的概率值转换为编码值,得到由所述多个二分类器输出的概率值转换出的多个编码值构成的第一编码向量;
所述依据所述第一分布特征以及所述纠错编码表中所述文本类别对应的第二分布特征,从所述多个文本类别中,确定出第二分布特征与所述第一分布特征之间的相似度满足条件的目标文本类别,包括:
依据所述纠错编码表,构建出所述文本类别对应的第二编码向量,所述文本类别对应的第二编码向量为所述文本类别与多个二分类器之间的码位值构成的向量;
从所述多个文本类别中,选取出第二编码向量与所述第一编码向量之间的海明距离最小的目标文本类别。


4.根据权利要求3所述的方法,所述从所述多个文本类别中,选取出第二编码向量与所述第一编码向量之间的海明距离最小的目标文本类别,包括:
如果所述多个文本类别中,第二编码向量与所述第一编码向量之间的海明距离最小的候选文本类别有一个,则将对应的海明距离最小的文本类别确定为目标文本类别;
如果所述候选文本类别有多个,则通过如下任意一种方式从多个候选文本类别中选取出目标文本类别:
从多个所述候选文本类别中随机选取一个候选文本类别为目标文本类别;
或者,
从纠错编码表中确定所述候选文本类别属于正例文本类别的前设定数量个二分类器,将所述文本分类模型中所述前设定数量个二分类器输出的概率值加和,得到所述候选文本类别对应的正例概率和,将对应的正例概率和最大的候选文本类别确定为目标文本类别;
或者,
将所述候选文本类别与多个分类器对应的码位值分别与所述多个分类器输出的概率值作差,得到多个差值,并计算所述多个差值各自的绝对值的绝对值加和,将对应的绝对值加和最小的候选文本类别确定为目标文本类别。


5.根据权利要求1所述的方法,所述文本分类模型为基于Transformer的双向编码器BERT模型。


6.根据权利要求1或5所述的方法,所述纠错编码表为在训练所述文本分类模型的过程中构建完成,且所述文本分类模型和所述纠错编码表通过如下方式得到:
获取文本训练集,所述文本训练集中包括标注有类别的多个文本训练样本;
按照纠错输出码的构建规则以及所述文本训练集中所述文本训练样本所标注的类别,构建纠错编码表,其中,对于所述纠错编码表中每个二分类器,所述文本训练集中属于所述二分类器的正例文本类别的文本训练样本与属于所述二分类器的负例文本类别的文本训练样本的数量比例满足第一设定比例范围;
将所...

【专利技术属性】
技术研发人员:甄建静王悦林
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1