【技术实现步骤摘要】
文本分类的方法和装置
本说明书涉及数据处理
,尤其涉及一种文本分类的方法和装置。
技术介绍
文本分类是自然语言处理(NLP,NaturalLanguageProcessing)应用领域中最常见也最重要的任务类型。对于预先定义的两个到多个类别,由计算机自动将一段文本归属于其中的一个类别。用来分类的一段文本可以是短语、句子、段落、直至整篇文档。文本分类在知识管理、社交媒体数据分析、客户服务、垃圾邮件过滤、预防网络犯罪等领域得到了广泛的应用。随着各种应用的类别精细程度逐步增加,提高文本分类的准确度已经成为亟待解决的问题。
技术实现思路
有鉴于此,本说明书提供一种文本分类的方法,包括:由语义编码模型得到待分类文本的语义特征向量;对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向 ...
【技术保护点】
1.一种文本分类的方法,包括:/n由语义编码模型得到待分类文本的语义特征向量;/n对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;/n将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对所述待分类文本进行分类;所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。/n
【技术特征摘要】
1.一种文本分类的方法,包括:
由语义编码模型得到待分类文本的语义特征向量;
对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量;
将所述语义特征向量和统计特征向量输入门控网络模型,在门控网络模型中先对所述语义特征向量中满足预定增强条件的元素采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,再基于增强特征向量对所述待分类文本进行分类;所述语义编码模型和门控网络模型采用有标签的训练样本进行联合训练。
2.根据权利要求1所述的方法,所述语义特征向量、所述统计特征向量和所述增强特征向量具有相同的维度;
所述对语义特征向量中满足预定增强条件的元素,采用所述统计特征向量进行增强,得到待分类文本的增强特征向量,包括:对语义特征向量中满足预定增强条件的元素,采用所述统计特征向量中与所述满足预定增强条件的元素对应维度的元素进行预定运算后,作为增强特征向量中与所述满足预定增强条件的元素对应维度的元素。
3.根据权利要求1所述的方法,所述预定增强条件包括:采用对称激活函数激活所述语义特征向量,激活后的元素值在预定增强区域范围内。
4.根据权利要求3所述的方法,所述预定增强区域范围根据所述对称激活函数的强弱分界点、和生成待分类文本中词的统计信息时所采用语料数据集的大小来确定。
5.根据权利要求1所述的方法,所述基于增强特征向量对所述待分类文本进行分类,包括:以增强特征向量作为查询向量Query,以语义特征向量作为键向量Key和值向量Value,进行特征自注意;采用自注意的输出向量生成分类结果。
6.根据权利要求1所述的方法,所述对待分类文本中词的统计信息进行编码,得到待分类文本的统计特征向量,包括:将待分类文本中词的统计信息输入变分自编码器VAE,以VAE的隐层特征表示向量作为待分类文本的统计特征向量;所述VAE在训练语义编码模型和门控网络模型前预先完成训练。
7.根据权利要求1所述的方法,所述词的统计信息包括统计信息向量,统计信息向量的每个元素对应于一个分类的预定类别,所述元素根据在语料数据集中属于对应预定类别的语料确定。
8.根据权利要求1所述的方法,所述由语义编码模型得到待分类文本的语义特征向量,包括:将待分类文本中词的字典下标表征向量输入语义编码模型,语义编码模型的输出即为待分类文本的语义特征向量;
所述语义编码模型为以下任意一种模型:卷积神经网络CNN、长短期记忆网络LSTM、变换器Transformer、基于自注意力机制的双向编码表示模型BERT。
9.一种文本分类的装置,包括:
语义特征向量单元,用于由语义编码模型得到待分类文本的语义特征向量;
统计特征向量单元,用于对待分类文本中词的统计信息进行编码,得到待...
【专利技术属性】
技术研发人员:李显明,
申请(专利权)人:蚂蚁智信杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。