一种基于多池化网络的文本处理方法、装置和相关设备制造方法及图纸

技术编号:24854799 阅读:32 留言:0更新日期:2020-07-10 19:08
本申请实施例公开了一种基于多池化网络的文本处理方法、装置和相关设备,该方法包括:获取反馈文本信息;反馈文本信息为在第一终端的用户反馈界面中所录入的文本信息;由与反馈文本信息相关联的目标文本模型输出反馈文本信息中的目标分词相关联的分词关联特征;将分词关联特征分别输入目标文本模型中的多个池化层,通过多个池化层分别对分词关联特征进行多池化处理,输出与多个池化层相关联的池化结果向量,根据与多个池化层相关联的池化结果向量,生成目标拼接向量信息;通过目标文本模型对目标拼接向量信息进行分类处理,得到与目标拼接向量信息相匹配的反馈类型标签。采用本申请,可以提高对文本分类的准确度。

【技术实现步骤摘要】
一种基于多池化网络的文本处理方法、装置和相关设备
本申请涉及计算机
,尤其涉及一种基于多池化网络的文本处理方法、装置和相关设备。
技术介绍
当用户在使用某些软件(例如,软件X)的时候,会通过统一的反馈入口对该软件X中所涉及的某些业务进行反馈,进而会使该软件X的后台收到针对不同业务的反馈文本信息。若采用人工分类的方式对这些反馈文本信息中的每条反馈文本信息进行归类处理,则可能存在误归类的现象,比如,可能会将反馈文本信息A的分类类型(例如,分类1)错误地归类到其他分类类型(例如,分类2),以至于会降低文本分类的准确度。
技术实现思路
本申请提供一种基于多池化网络的文本处理方法、装置和相关设备,可以提高对图像的分类准确率。本申请实施例一方面提供一种基于多池化网络的文本处理方法,包括:获取反馈文本信息;反馈文本信息为在第一终端的用户反馈界面中所录入的文本信息;获取与反馈文本信息相关联的目标文本模型,将反馈文本信息中的目标分词输入目标文本模型,由目标文本模型输出与反馈文本信息相关联的分词关联特征;将分词关联特征分别输入目标文本模型中的多个池化层,通过多个池化层对分词关联特征进行多池化处理,输出与多个池化层相关联的池化结果向量,根据与多个池化层相关联的池化结果向量,生成目标拼接向量信息;通过目标文本模型对目标拼接向量信息进行分类处理,得到与目标拼接向量信息相匹配的反馈类型标签。本申请实施例一方面提供一种基于多池化网络的文本处理装置,包括:反馈信息获取模块,用于获取反馈文本信息;反馈文本信息为在第一终端的用户反馈界面中所录入的文本信息;分词特征获取模块,用于获取与反馈文本信息相关联的目标文本模型,将反馈文本信息中的目标分词输入目标文本模型,由目标文本模型输出与反馈文本信息相关联的分词关联特征;池化结果拼接模块,用于将分词关联特征分别输入目标文本模型中的多个池化层,通过多个池化层对分词关联特征进行多池化处理,输出与多个池化层相关联的池化结果向量,根据与多个池化层相关联的池化结果向量,生成目标拼接向量信息;反馈标签确定模块,用于通过目标文本模型对目标拼接向量信息进行分类处理,得到与目标拼接向量信息相匹配的反馈类型标签。其中,装置还包括:异常过滤模块,用于获取具有异常符号过滤功能的正则关系表,基于正则关系表对反馈文本信息中的异常符号进行过滤处理,将过滤处理后的反馈文本信息作为待处理文本信息;分词处理模块,用于获取与目标文本模型相关联的分词词典,基于分词词典对待处理文本信息进行分词处理,得到与待处理文本信息相关联的N个分词,将N个分词分别作为反馈文本信息中的目标分词;N为正整数。其中,分词特征获取模块包括:目标模型获取单元,用于获取与反馈文本信息相关联的目标文本模型;目标向量确定单元,用于通过目标文本模型中的词向量层分别对N个目标分词进行编码处理,得到每个目标分词对应的目标编码向量;每个目标分词对应的目标编码向量的维度信息均为1×L;L为正整数;目标序列确定单元,用于在反馈文本信息中确定每个目标分词的位置信息,基于每个目标分词的位置信息对每个目标分词对应的目标编码向量进行拼接处理,得到与反馈文本信息相关联的目标向量序列;目标向量序列的维度信息为N×L;特征提取单元,用于通过目标文本模型中的卷积层,从目标向量序列中提取N个目标分词之间的局部依赖关系,将提取到的局部依赖关系作为目标向量序列中的分词关联特征。其中,特征提取单元包括:卷积核获取子单元,用于获取目标文本模型的卷积层中的K个卷积核;K为正整数,且K个卷积核中的每个卷积核的尺寸信息互不相同;卷积核确定子单元,用于在K个卷积核中获取第i个卷积核;第i个卷积核的尺寸信息为Ri×L;i为小于或者等于K的正整数;卷积处理子单元,用于将维度信息为N×L的目标向量序列输入尺寸信息为Ri×L的第i个卷积核,由第i个卷积核对目标向量序列进行卷积处理,以提取N个目标分词之间的局部依赖关系;关联特征确定子单元,用于将提取到的局部依赖关系作为目标向量序列中的分词关联特征;一个卷积核对应一个分词关联特征,且第i个卷积核对应的分词关联特征的维度信息为(N-Ri+1)×1。其中,多个池化层包含第一池化层和第二池化层;池化结果拼接模块包括:第一结果向量确定单元,用于将分词关联特征输入第一池化层,得到与第一池化层相关联的第一池化结果向量;第二结果向量确定单元,用于将分词关联特征输入第二池化层,得到与第二池化层相关联的第二池化结果向量;第一池化结果向量的维度信息与第二池化结果向量的维度信息相同;结果向量拼接单元,用于通过目标文本模型中的全连接层,将第一池化结果向量和第二池化结果向量进行拼接处理,得到与多个池化层相关联的目标拼接向量信息。其中,装置还包括:分组标签获取模块,用于获取与反馈类型标签相匹配的业务分组标签;反馈文本推送模块,用于基于业务分组标签将反馈文本信息推送给业务分组标签所绑定的公共广播群组,以使与公共广播群组相关联的第二终端输出反馈文本信息。本申请实施例一方面提供一种基于多池化网络的文本处理方法,包括:获取与用户反馈界面相关联的训练样本信息和训练样本信息的样本分类标签;训练样本信息为在用户反馈界面中所录入的反馈样本信息;获取包含多个池化层的初始文本模型,将训练样本信息中的样本分词输入初始文本模型,由初始文本模型输出与训练样本信息相关联的样本关联特征;将样本关联特征分别输入初始文本模型中的多个池化层,通过多个池化层对样本关联特征进行多池化处理,输出与多个池化层相关联的样本池化向量,根据与多个池化层相关联的样本池化向量,生成样本拼接向量信息;通过初始文本模型对样本拼接向量信息进行分类处理,得到与样本拼接向量信息相匹配的预测样本标签;基于预测样本标签、样本分类标签对初始文本模型进行训练,将训练后的初始文本模型确定为目标文本模型;目标文本模型用于预测获取到的反馈文本信息的反馈类型标签。本申请实施例一方面提供一种基于多池化网络的文本处理装置,包括:训练样本获取模块,用于获取与用户反馈界面相关联的训练样本信息和训练样本信息的样本分类标签;训练样本信息为在用户反馈界面中所录入的反馈样本信息;样本特征获取模块,用于获取包含多个池化层的初始文本模型,将训练样本信息中的样本分词输入初始文本模型,由初始文本模型输出与训练样本信息相关联的样本关联特征;池化处理模块,用于将样本关联特征分别输入初始文本模型中的多个池化层,通过多个池化层对样本关联特征进行多池化处理,输出与多个池化层相关联的样本池化向量,根据与多个池化层相关联的样本池化向量,生成样本拼接向量信息;预测标签确定模块,用于通过初始文本模型对样本拼接向量信息进行分类处理,得到与样本拼接向量信息相匹配的预测样本标签;初始模型训练模块,用于基于预测本文档来自技高网...

【技术保护点】
1.一种基于多池化网络的文本处理方法,其特征在于,包括:/n获取反馈文本信息;所述反馈文本信息为在第一终端的用户反馈界面中所录入的文本信息;/n获取与所述反馈文本信息相关联的目标文本模型,将所述反馈文本信息中的目标分词输入所述目标文本模型,由所述目标文本模型输出与所述反馈文本信息相关联的分词关联特征;/n将所述分词关联特征分别输入所述目标文本模型中的多个池化层,通过所述多个池化层对所述分词关联特征进行多池化处理,输出与所述多个池化层相关联的池化结果向量,根据与所述多个池化层相关联的池化结果向量,生成目标拼接向量信息;/n通过所述目标文本模型对所述目标拼接向量信息进行分类处理,得到与所述目标拼接向量信息相匹配的反馈类型标签。/n

【技术特征摘要】
1.一种基于多池化网络的文本处理方法,其特征在于,包括:
获取反馈文本信息;所述反馈文本信息为在第一终端的用户反馈界面中所录入的文本信息;
获取与所述反馈文本信息相关联的目标文本模型,将所述反馈文本信息中的目标分词输入所述目标文本模型,由所述目标文本模型输出与所述反馈文本信息相关联的分词关联特征;
将所述分词关联特征分别输入所述目标文本模型中的多个池化层,通过所述多个池化层对所述分词关联特征进行多池化处理,输出与所述多个池化层相关联的池化结果向量,根据与所述多个池化层相关联的池化结果向量,生成目标拼接向量信息;
通过所述目标文本模型对所述目标拼接向量信息进行分类处理,得到与所述目标拼接向量信息相匹配的反馈类型标签。


2.根据权利要求1所述的方法,其特征在于,在所述获取与所述反馈文本信息相关联的目标文本模型,将所述反馈文本信息中的目标分词输入所述目标文本模型,由所述目标文本模型输出与所述反馈文本信息相关联的分词关联特征之前,还包括:
获取具有异常符号过滤功能的正则关系表,基于所述正则关系表对所述反馈文本信息中的异常符号进行过滤处理,将过滤处理后的反馈文本信息作为待处理文本信息;
获取与所述目标文本模型相关联的分词词典,基于所述分词词典对所述待处理文本信息进行分词处理,得到与所述待处理文本信息相关联的N个分词,将所述N个分词分别作为所述反馈文本信息中的目标分词;所述N为正整数。


3.根据权利要求2所述的方法,其特征在于,所述获取与所述反馈文本信息相关联的目标文本模型,将所述反馈文本信息中的目标分词输入所述目标文本模型,由所述目标文本模型输出与所述反馈文本信息相关联的分词关联特征,包括:
获取与所述反馈文本信息相关联的目标文本模型;
通过所述目标文本模型中的词向量层分别对N个目标分词进行编码处理,得到每个目标分词对应的目标编码向量;所述每个目标分词对应的目标编码向量的维度信息均为1×L;所述L为正整数;
在所述反馈文本信息中确定所述每个目标分词的位置信息,基于所述每个目标分词的位置信息对所述每个目标分词对应的目标编码向量进行拼接处理,得到与所述反馈文本信息相关联的目标向量序列;所述目标向量序列的维度信息为N×L;
通过所述目标文本模型中的卷积层,从所述目标向量序列中提取所述N个目标分词之间的局部依赖关系,将提取到的局部依赖关系作为所述目标向量序列中的分词关联特征。


4.根据权利要求3所述的方法,其特征在于,所述通过所述目标文本模型中的卷积层,从所述目标向量序列中提取所述N个目标分词之间的局部依赖关系,将提取到的局部依赖关系作为所述目标向量序列中的分词关联特征,包括:
获取所述目标文本模型的卷积层中的K个卷积核;所述K为正整数,且所述K个卷积核中的每个卷积核的尺寸信息互不相同;
在所述K个卷积核中获取第i个卷积核;所述第i个卷积核的尺寸信息为Ri×L;所述i为小于或者等于所述K的正整数;
将维度信息为N×L的所述目标向量序列输入尺寸信息为Ri×L的所述第i个卷积核,由所述第i个卷积核对所述目标向量序列进行卷积处理,以提取所述N个目标分词之间的局部依赖关系;
将提取到的局部依赖关系作为所述目标向量序列中的分词关联特征;一个卷积核对应一个分词关联特征,且所述第i个卷积核对应的分词关联特征的维度信息为(N-Ri+1)×1。


5.根据权利要求1所述的方法,其特征在于,所述多个池化层包含第一池化层和第二池化层;
所述将所述分词关联特征分别输入所述目标文本模型中的多个池化层,通过所述多个池化层对所述分词关联特征进行多池化处理,输出与所述多个池化层相关联的池化结果向量,根据与所述多个池化层相关联的池化结果向量,生成目标拼接向量信息,包括:
将所述分词关联特征输入所述第一池化层,得到与所述第一池化层相关联的第一池化结果向量;
将所述分词关联特征输入所述第二池化层,得到与所述第二池化层相关联的第二池化结果向量;所述第一池化结果向量的维度信息与所述第二池化结果向量的维度信息相同;
通过所述目标文本模型中的全连接层,将所述第一池化结果向量和所述第二池化结果向量进行拼接处理,得到与所述多个池化层相关联的目标拼接向量信息。


6.根据权利要求1所述的方法,其特征在于,还包括:
获取与所述反馈类型标签相匹配的业务分组标签;
基于所述业务分组标签将所述反馈文本信息推送给所述业务分组标签所绑定的公共广播群组,以使与所述公共广播群组相关联的第二终端输出所述反馈文本信息。


7.一种基于多池化网络的文本处理方法,其特征在于,包括:
获取与用户反馈界面相关联的训练样本信息和所述训练样本信息的样本分类标签;所述训练样本信息为在用户反馈界面中所录入的反馈样本信息;
获取包含多个池化层的初始文本模型,将所述训练样本信息中的样本分词输入所述初始文本模型,由所述初始文本模型输出与所述训练样本信息相关联的样本关联特征;
将所述样本关联特征分别输入所述初始文本模型中的多个池化层,通过所述多个池化层对所述样本关联特征进行多池化处理,输出与所述多个池化层相关联的样本池化向量,根据与所述多个池化层相关联的样本池化向量,生成样本拼接向量信息;
通过所述初始文本模型对所述样本拼接向量信息进行分类处理,得到与所述样本拼接向量信息相匹配的预测样本标签;
基于所述预测样本标签、所述样本分类标签对所述初始文本模型进行训练,将训练后的初始文本模型确定为目标文本模型;所述目标文本模型用于预测获取到的反馈文本信息的反馈类型标签。


8.根据权利要求7所述的方法,其特征在于,所述获取与用户反馈界面相关联的训练样本信息和所述训练样本信息的样本分类标签,包括:
将携带第一样本标签的反馈样本信息作为第一样本信息,将携带第二标签信息的反馈样本信息作为第二样本信息;所述第一样本标签不同于所述第二样本标签;
将所述第一样本信息和所述第二样本信息,作为与用户反馈界面相关联的训练样本信息;
将所述第一样本标签和所述第二样本标签作为所述...

【专利技术属性】
技术研发人员:李卓聪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1