【技术实现步骤摘要】
一种文本分类方法、装置及计算机设备
本专利技术涉及计算机
,特别涉及一种文本分类方法、装置及计算机设备。
技术介绍
相关技术中,将可能同时属于多个类别的文本称之为多标签文本,随着人工智能技术的发展,基于机器学习的多标签文本分类方法被广泛应用。然而,现有技术一般把多标签任务分为多个单标签二元分类任务,使用待分类文本和类别标签的关系来进行分类,这种分类方法虽然能够捕获到待分类文本与类别标签间的关系,但是忽略了类别标签与类别标签之间的关系,从而导致文本分类的准确性差。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种文本分类方法、装置及计算机设备。所述技术方案如下:一方面,提供了一种文本分类方法,所述方法包括:获取待分类文本以及预设类别标签向量;基于文本分类模型的编码通道对所述待分类文本进行内容编码处理,得到内容编码向量;根据所述预设类别标签向量和所述内容编码向量,确定待解码向量;基于所述文本分类模型的解码通道、目标条件向量和所述解码通道前一时刻所输出的目标类别标签向量对所述待解码向量解码,得到所述待分类文本的类别标签;所述目标条件向量为根据所述内容编 ...
【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类文本以及预设类别标签向量;基于文本分类模型的编码通道对所述待分类文本进行内容编码处理,得到内容编码向量;根据所述预设类别标签向量和所述内容编码向量,确定待解码向量;基于所述文本分类模型的解码通道、目标条件向量和所述解码通道前一时刻所输出的目标类别标签向量对所述待解码向量解码,得到所述待分类文本的类别标签;所述目标条件向量为根据所述内容编码向量和所述解码通道前一时刻的隐层状态向量确定的向量。
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类文本以及预设类别标签向量;基于文本分类模型的编码通道对所述待分类文本进行内容编码处理,得到内容编码向量;根据所述预设类别标签向量和所述内容编码向量,确定待解码向量;基于所述文本分类模型的解码通道、目标条件向量和所述解码通道前一时刻所输出的目标类别标签向量对所述待解码向量解码,得到所述待分类文本的类别标签;所述目标条件向量为根据所述内容编码向量和所述解码通道前一时刻的隐层状态向量确定的向量。2.根据权利要求1所述的文本分类方法,其特征在于,所述基于文本分类模型的编码通道对所述待分类文本进行内容编码处理,得到内容编码向量包括:基于文本分类模型的第一编码通道对所述待分类文本进行第一内容编码处理,得到第一内容编码向量;基于文本分类模型的第二编码通道对所述第一内容编码向量进行第二内容编码处理,得到第二内容编码向量;将所述第一内容编码向量和所述第二内容编码向量作为所述内容编码向量。3.根据权利要求2所述的文本分类方法,其特征在于,所述基于文本分类模型的第一编码通道对所述待分类文本进行第一内容编码处理包括:对所述待分类文本进行分词处理,得到所述待分类文本的词序列;确定所述词序列中词对应的词元素序列,以及所述词序列中词的词性和位置标识;将所述词序列中的词、所述词元素序列中的词元素、所述词序列中词的词性和位置标识映射为对应的向量,得到所述待分类文本的词向量、词元素向量、词性向量和位置向量;对所述待分类文本的词向量、词元素向量、词性向量和位置向量进行组合,得到所述待分类文本的特征向量;基于文本分类模型的第一编码通道对所述待分类文本的特征向量进第一内容编码处理,得到第一内容编码向量。4.根据权利要求3所述的文本分类方法,其特征在于,所述对所述待分类文本的词向量、词元素向量、词性向量和位置向量进行组合,得到所述待分类文本的特征向量包括:根据所述词序列中词对应的词元素向量,确定所述词序列中词对应的词元素组合向量;将所述词序列中每个词对应的词向量、词元素组合向量、词性向量和位置向量进行加和,得到第一特征向量;确定所述词向量、词元素组合向量、词性向量和位置向量对应的权重值;根据所述权重值对所述词序列中每个词对应的词向量、词元素组合向量、词性向量和位置向量进行加权求和,得到第二特征向量;将所述第一特征向量和第二特征向量进行加和,得到所述待分类文本的特征向量。5.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述预设类别标签向量和所述内容编码向量,确定待解码向量包括:确定所述内容编码向量中的目标内容向量;确定所述目标内...
【专利技术属性】
技术研发人员:吴俊江,雷植程,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。