【技术实现步骤摘要】
文本处理方法及装置、电子设备及存储介质
[0001]本申请涉及信息
,尤其涉及一种文本处理方法及装置、电子设备及存储介质。
技术介绍
[0002]随着网络的发展以及数字化终端设备的普及,互联网文本数据成为人们获取信息的重要来源,但是文本数据非结构化的特性使人们难以理解、利用数据中有价值的信息。自然语言处理为该问题提供了有效的解决方案,通过文本分类等任务,可以从海量数据中快速准确地挖掘有用信息。
[0003]相关技术提出了多种文本分类方法,例如基于机器学习的文本分类、基于卷积神经网络(convolutional neural network,CNN)的文本分类、以及基于改进的长短记忆网(Bidirectional long short memory network,BiLSTM)的文本分类。
[0004]但是基于机器学习分类核心是人工特征工程,对分类模型的则要求非常宽松。然而人工特征工程非常复杂,需要相关的领域经验,并且具有很强的主观性。当特征提取的质量差时,该方案的分类性能受到严重影响。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:利用M个卷积核对基于文本得到的文本序列进行特征提取,得到M个第一特征图;其中,不同所述卷积核的粒度不同;其中,所述M为不小于2的正整数;分别对M个所述第一特征图进行池化处理,得到M个第二特征图;对M个所述第二特征图进行编码,得到特征向量;基于所述特征向量,对所述文本进行分类。2.根据权利要求1所述的方法,其特征在于,所述分别对M个所述第一特征图进行池化处理,得到M个第二特征图,包括:对第m个所述第一特征图进行K
‑
最大池化,得到第m个所述第二特征图;其中,所述第二特征图为:稀疏特征图;所述m为小于或等于所述M的正整数,其中,所述第二特征图与所述第一特征图的大小相同。3.根据权利要求1或2所述的方法,其特征在于,所述对M个所述第二特征图进行编码,得到特征向量,包括:融合M个所述第二特征图,得到1个所述第三特征图;对所述第三特征图编码,得到特征向量。4.根据权利要求3所述的方法,其特征在于,所述融合M个所述第二特征图得到1个所述第三特征图,包括:将M个所述第二特征图中第i行第j列的特征值拼接,构成所述第三特征图中第i行第j列的特征向量,其中,所述i为小于或等于I的正整数;j为小于或等于J的正整数,其中,I为所述第二特征图的总行数;J为所述第二特征图的总列数。5.根据权利要求3所述的方法,其特征在于,所述对M个所述第二特征图进行编码,得到特征向量,包括:利用双向长短记忆网模块对所述第三特征图进行编码,得到所述特征向量。6.根据权利要求5所述的方法,其特征在于,所述双向长短记忆网模块包括:前向长短记忆网和后向长短记忆网;所述利用双向长短记忆网模块对M个所述第三特征图进行编码,得到所述特征向量,包括:利用所述前向记忆网对所述第三特征图从前后向编码,得到第一向量;利用所述后向记忆网对所述第三特征图从后向前编码,得到第二向量;融合所述第一向量和所述第二向量得到所述编码向量。7.根据权利要求1所述的方法,其特征在于,所述基于所述特征向量,对所述文本进行分类,包括:利用softmax模块对接不同时刻的所述编码向量的拼接向量进行处理,得到所述文本的分类结果。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述文本转换为词向量;基于所述词向量生成原始序列;将所述原始序列的首尾两端添加一个或多个0元素,得到所述文本序列。9.一种文本处理装置,其特征在于,所述装置包括:
提取模块,用于利用M个卷积核对基于文本得到的文本序列进行特征提取,得到M个第...
【专利技术属性】
技术研发人员:张涛,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。