文本处理方法技术

技术编号:39495117 阅读:10 留言:0更新日期:2023-11-24 11:21
本公开实施例提供一种文本处理方法

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质


[0001]本公开实施例涉及互联网
,尤其涉及一种文本处理方法

装置

电子设备及存储介质


技术介绍

[0002]当前,随着互联网的普及和数字化技术的快速发展,大量的文本数据被创造出来,通过对文本数据进行处理和利用,可以实现风险检测

精确信息推送等各类功能

[0003]现有技术中,对文本数据的处理,通常是基于预训练的文本处理模型来实现的,然而,当待处理的文本数据需要基于其所归属的文本处理场景,使用对应的文本处理模型来进行处理时,仍需要人工经验对待处理的文本数据进行全文阅读和理解后,才能确定文本处理场景,之后确定匹配的文本处理模型和方案对文本进行处理,
[0004]因此,现有技术中的方案,由于无法识别文本处理场景,造成了文本数据处理效率低

文本效果差的问题


技术实现思路

[0005]本公开实施例提供一种文本处理方法

装置

电子设备及存储介质,以克服现有技术中无法高效准确识别文本处理场景的问题

[0006]第一方面,本公开实施例提供一种文本处理方法,包括:
[0007]获取待处理文本,并对所述待处理文本进行特征提取,得到语义特征空间,所述语义特征空间中包括构成所述待处理文本的至少两个文本段的语义特征向量;获取至少两个文本处理场景所对应的场景特征空间,所述场景特征空间中包括至少两个所述文本处理场景对应的处理内容关键字的语义特征向量;根据所述语义特征空间的空间特征和至少两个所述场景特征空间的空间特征,确定目标文本处理场景,其中,所述空间特征表征语义特征向量在特征空间中的分布特征

[0008]第二方面,本公开实施例提供一种文本处理装置,包括:
[0009]第一提取模块,用于获取待处理文本,并对所述待处理文本进行特征提取,得到语义特征空间,所述语义特征空间中包括构成所述待处理文本的至少两个文本段的语义特征向量;
[0010]第二提取模块,用于获取至少两个文本处理场景所对应的场景特征空间,所述场景特征空间中包括至少两个所述文本处理场景对应的处理内容关键字的语义特征向量;
[0011]处理模块,用于根据所述语义特征空间的空间特征和至少两个所述场景特征空间的空间特征,确定目标文本处理场景,其中,所述空间特征表征语义特征向量在特征空间中的分布特征

[0012]第三方面,本公开实施例提供一种电子设备,包括:处理器和存储器;
[0013]所述存储器存储计算机执行指令;
[0014]所述处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执
行如上第一方面以及第一方面各种可能的设计所述的文本处理方法

[0015]第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的文本处理方法

[0016]第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的文本处理方法

[0017]本实施例提供的文本处理方法

装置

电子设备及存储介质,通过获取待处理文本,并对所述待处理文本进行特征提取,得到语义特征空间,所述语义特征空间中包括构成所述待处理文本的至少两个文本段的语义特征向量;获取至少两个文本处理场景所对应的场景特征空间,所述场景特征空间中包括至少两个所述文本处理场景对应的处理内容关键字的语义特征向量;根据所述语义特征空间的空间特征和至少两个所述场景特征空间的空间特征,确定目标文本处理场景,其中,所述空间特征表征语义特征向量在特征空间中的分布特征

通过将待处理文本对应的语义特征转换语义特征空间,将文本处理场景对应的语义特征转换为场景特征空间,并在特征空间层面进行对比,从而确定与待处理文本匹配的目标文本处理场景,提高文本处理效率和文本处理效果

附图说明
[0018]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图

[0019]图1为本公开实施例提供的文本处理方法的一种应用场景图;
[0020]图2为本公开实施例提供的文本处理方法的流程示意图一;
[0021]图3为图2所示实施例中步骤
S101
的具体实现过程的流程图;
[0022]图4为本公开实施例提供的一种生成语义特征空间的过程示意图;
[0023]图5为图3所示实施例中步骤
S1011
的具体实现过程的流程图;
[0024]图6为本公开实施例提供的一种场景特征空间的示意图;
[0025]图7为本公开实施例提供文本处理方法的流程示意图二;
[0026]图8为图7所示实施例中步骤
S207
的具体实现过程的流程图;
[0027]图9为图7所示实施例中步骤
S211
的具体实现过程的流程图;
[0028]图
10
为本公开实施例提供的一种第一空间特征的生成过程示意图;
[0029]图
11
为本公开实施例提供的一种第二空间特征的生成过程示意图;
[0030]图
12
为本公开实施例提供的一种进行总体均值假设检验的过程示意图;
[0031]图
13
为本公开实施例提供的文本处理装置的结构框图;
[0032]图
14
为本公开实施例提供的一种电子设备的结构示意图;
[0033]图
15
为本公开实施例提供的电子设备的硬件结构示意图

具体实施方式
[0034]为使本公开实施例的目的

技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例

基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围

[0035]需要说明的是,本公开所涉及的用户信息
(
包括但不限于用户设备信息

用户个人信息等
)
和数据
(
包括但不限于用于分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本处理方法,其特征在于,包括:获取待处理文本,并对所述待处理文本进行特征提取,得到语义特征空间,所述语义特征空间中包括构成所述待处理文本的至少两个文本段的语义特征向量;获取至少两个文本处理场景所对应的场景特征空间,所述场景特征空间中包括至少两个所述文本处理场景对应的处理内容关键字的语义特征向量;根据所述语义特征空间的空间特征和至少两个所述场景特征空间的空间特征,确定目标文本处理场景,其中,所述空间特征表征语义特征向量在特征空间中的分布特征
。2.
根据权利要求1所述的方法,其特征在于,在所述获取至少两个文本处理场景所对应的场景特征空间之后,所述方法还包括:获得语义特征空间的空间特征和场景特征空间的空间特征;其中,所述语义特征空间的空间特征为第一空间特征,所述第一空间特征表征所述语义特征空间中每一语义特征向量与所述场景特征空间中的语义特征向量的相似度的分布特征;所述场景特征空间的空间特征为第二空间特征,所述第二空间特征表征所述场景特征空间中每一当前语义特征向量与其他语义特征向量的相似度的分布特征,其中,当前语义特征向量是所述场景特征空间中依次获取的语义特征向量,所述其他语义特征向量是所述场景特征空间中除所述当前语义特征向量外的语义特征向量,所述分布特征是针对所述当前语义特征向量对应的相似度的分布统计结果;所述根据所述语义特征空间的空间特征和至少两个所述场景特征空间的空间特征,确定目标文本处理场景,包括:针对第一空间特征和第二空间特征,进行总体均值假设检验,得到预设置信度下所述第一空间特征所归属的目标文本处理场景
。3.
根据权利要求2所述的方法,其特征在于,所述方法还包括:依次获取所述场景特征空间中每一语义特征向量与其他语义特征向量的余弦相似度;根据每一语义特征向量与其他语义特征向量的余弦相似度,得到相似度度量矩阵;基于所述相似度度量矩阵的对角线,将所述相似度度量矩阵划分为两个特征区域;针对任一所述特征区域,沿行或列对所有余弦相似度进行统计,得到所述相似度度量矩阵对应的不同余弦相似度之间的相似度的分布特征;根据所述相似度度量矩阵,得到所述第二空间特征
。4.
根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行特征提取,得到语义特征空间,包括:基于目标窗长,对所述待处理文本进行滑动划分,得到至少两个文本段;对所述至少两个文本段进行特征提取,得到对应的第一语义特征向量;基于至少两个所述第一语义特征向量,得到所述语义特征空间
。5.
根据权利要求4所述的方法,其特征在于,所述基于目标窗长,对所述待处理文本进行滑动划分,得到至少两个文本段,包括:根据所述待处理文本中断句标识的平均距离,得到目标重叠率;基于所述目标重叠率和所述目标窗长,对所述待处理文本对应的纯文本进行滑动划分,得到至少两个文本段,其中,所述纯文本为所述待处理文本去除所述断句标识后的文

。6.
根据权利要求4所述的方法,...

【专利技术属性】
技术研发人员:秦洋洋邓淞王京伟
申请(专利权)人:抖音视界有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1