【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质
[0001]本公开实施例涉及互联网
,尤其涉及一种文本处理方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]当前,随着互联网的普及和数字化技术的快速发展,大量的文本数据被创造出来,通过对文本数据进行处理和利用,可以实现风险检测
、
精确信息推送等各类功能
。
[0003]现有技术中,对文本数据的处理,通常是基于预训练的文本处理模型来实现的,然而,当待处理的文本数据需要基于其所归属的文本处理场景,使用对应的文本处理模型来进行处理时,仍需要人工经验对待处理的文本数据进行全文阅读和理解后,才能确定文本处理场景,之后确定匹配的文本处理模型和方案对文本进行处理,
[0004]因此,现有技术中的方案,由于无法识别文本处理场景,造成了文本数据处理效率低
、
文本效果差的问题
。
技术实现思路
[0005]本公开实施例提供一种文本处理方法
、
装置
、
电子设备及存储介质,以克服现有技术中无法高效准确识别文本处理场景的问题
。
[0006]第一方面,本公开实施例提供一种文本处理方法,包括:
[0007]获取待处理文本,并对所述待处理文本进行特征提取,得到语义特征空间,所述语义特征空间中包括构成所述待处理文本的至少两个文本段的语义特征向量;获取至少两个文本处理场景所对应的场景特征空间,所述场景特征空间 ...
【技术保护点】
【技术特征摘要】
1.
一种文本处理方法,其特征在于,包括:获取待处理文本,并对所述待处理文本进行特征提取,得到语义特征空间,所述语义特征空间中包括构成所述待处理文本的至少两个文本段的语义特征向量;获取至少两个文本处理场景所对应的场景特征空间,所述场景特征空间中包括至少两个所述文本处理场景对应的处理内容关键字的语义特征向量;根据所述语义特征空间的空间特征和至少两个所述场景特征空间的空间特征,确定目标文本处理场景,其中,所述空间特征表征语义特征向量在特征空间中的分布特征
。2.
根据权利要求1所述的方法,其特征在于,在所述获取至少两个文本处理场景所对应的场景特征空间之后,所述方法还包括:获得语义特征空间的空间特征和场景特征空间的空间特征;其中,所述语义特征空间的空间特征为第一空间特征,所述第一空间特征表征所述语义特征空间中每一语义特征向量与所述场景特征空间中的语义特征向量的相似度的分布特征;所述场景特征空间的空间特征为第二空间特征,所述第二空间特征表征所述场景特征空间中每一当前语义特征向量与其他语义特征向量的相似度的分布特征,其中,当前语义特征向量是所述场景特征空间中依次获取的语义特征向量,所述其他语义特征向量是所述场景特征空间中除所述当前语义特征向量外的语义特征向量,所述分布特征是针对所述当前语义特征向量对应的相似度的分布统计结果;所述根据所述语义特征空间的空间特征和至少两个所述场景特征空间的空间特征,确定目标文本处理场景,包括:针对第一空间特征和第二空间特征,进行总体均值假设检验,得到预设置信度下所述第一空间特征所归属的目标文本处理场景
。3.
根据权利要求2所述的方法,其特征在于,所述方法还包括:依次获取所述场景特征空间中每一语义特征向量与其他语义特征向量的余弦相似度;根据每一语义特征向量与其他语义特征向量的余弦相似度,得到相似度度量矩阵;基于所述相似度度量矩阵的对角线,将所述相似度度量矩阵划分为两个特征区域;针对任一所述特征区域,沿行或列对所有余弦相似度进行统计,得到所述相似度度量矩阵对应的不同余弦相似度之间的相似度的分布特征;根据所述相似度度量矩阵,得到所述第二空间特征
。4.
根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行特征提取,得到语义特征空间,包括:基于目标窗长,对所述待处理文本进行滑动划分,得到至少两个文本段;对所述至少两个文本段进行特征提取,得到对应的第一语义特征向量;基于至少两个所述第一语义特征向量,得到所述语义特征空间
。5.
根据权利要求4所述的方法,其特征在于,所述基于目标窗长,对所述待处理文本进行滑动划分,得到至少两个文本段,包括:根据所述待处理文本中断句标识的平均距离,得到目标重叠率;基于所述目标重叠率和所述目标窗长,对所述待处理文本对应的纯文本进行滑动划分,得到至少两个文本段,其中,所述纯文本为所述待处理文本去除所述断句标识后的文
本
。6.
根据权利要求4所述的方法,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。