【技术实现步骤摘要】
文本数据的分类方法、装置、电子设备及存储介质
[0001]本公开涉及数据处理
,特别涉及一种文本数据的分类方法、装置、电子设备及存储介质。
技术介绍
[0002]随着各行各业数字化转型产生海量的垂直领域文本,根据具体业务实施长文本分类技术有助于各类型组织单位对非结构化文本大数据进行管理和数据分析、数据开发等工作。但对于长文本来说,序列特别长,有时可以达到几千上万字。对于这种序列过长的长文本,进行文章内的语义嵌套、语义冲突对标注以及模型训练等操作都存在较大的困难。
[0003]在相关技术中,主要基于机器学习、深度学习、预训练模型的方法实现长文本分类。然而,在使用上述技术进行长文本分类的相关方法中,在进行句子语义表示时仅仅根据单个句子的特征进行表征,没有考虑到长文本篇章中的其它句子的信息,由此导致句子的语义表示出现漂移,从而影响最终的长文本篇章语义表示,降低了长文本分类的准确性。并且,在长文本序列过长的情况下直接进行分类,无论使用何种模型都难以获取较为理想的结果。
技术实现思路
[0004]本公开提 ...
【技术保护点】
【技术特征摘要】
1.一种文本数据的分类方法,其特征在于,包括:将待分类的文本数据划分为多个文本语句,将所述多个文本语句转换为多个初始文本语句向量;将所述多个初始文本语句向量输入至少一级词句交互融合模型进行词句交互融合处理,得到多个句交互文本语句向量;将所述多个句交互文本语句向量输入预设分类模型进行分类处理,得到所述文本数据的分类结果;其中,所述词句交互融合模型包括:词交互融合子模块以及句交互融合子模块;将所述多个初始文本语句向量输入每级词句交互融合模型进行词句交互融合处理,得到多个句交互文本语句向量,包括:通过所述词交互融合子模块,对每个初始文本语句向量中的各个向量元素进行融合处理,得到与每个初始文本语句向量相对应的词交互文本语句向量;通过所述句交互融合子模块,对多个词交互文本语句向量进行融合处理,得到与每个词交互文本语句向量相对应的句交互文本语句向量。2.根据权利要求1所述的方法,其特征在于,所述至少一级词句交互融合模型为S级词句交互融合模型,S为大于等于2的整数;则所述将所述多个初始文本语句向量输入至少一级词句交互融合模型进行词句交互融合处理,得到多个句交互文本语句向量包括:将所述多个初始文本语句向量输入第i
‑
1级词句交互融合模型进行词句交互融合处理,得到由所述第i
‑
1级词句交互融合模型输出的多个句交互文本语句向量;将所述第i
‑
1级词句交互融合模型输出的多个句交互文本语句向量作为新的初始文本语句向量,输入所述第i级词句交互融合模型进行词句交互融合处理,得到由所述第i级词句交互融合模型输出的多个句交互文本语句向量,其中i为大于等于2且小于等于S的整数。3.根据权利要求1
‑
2任一所述的方法,其特征在于,所述预设分类模型为图像分类模型;每个句交互文本语句向量为二维向量,其中,所述二维向量的两个维度分别用于表征对应的文本语句中的字词数量以及每个字词对应的词嵌入向量的长度;所述将所述多个句交互文本语句向量输入预设分类模型进行分类处理,得到所述文本数据的分类结果包括:将所述多个句交互文本语句向量转换为三维语义特征矩阵;其中,所述三维语义特征矩阵的三个维度分别用于表征对应的文本语句中的字词数量、每个字词对应的词嵌入向量的长度、以及句交互文本语句向量对应的语句数量;将所述三维语义特征矩阵输入所述图像分类模型,得到所述文本数据的分类结果;其中,所述三维语义特征矩阵的三个维度分别对应于图像分类模型中的图像长度、图像宽度以及通道数量。4.根据权利要求3所述的方法,其特征在于,所述将待分类的文本数据划分为多个文本语句之前,还包括:在所述待分类的文本数据中包含的文本语句的数量大于N的情况下,对所述文本语句进行语句删减操作,以使删减处理后的所述文本语句的数量为N;在所述待分类的文本数据中包含的文本语句的数量...
【专利技术属性】
技术研发人员:邓泽贵,蒋宁,肖冰,马超,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。