文本数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38378855 阅读:4 留言:0更新日期:2023-08-05 17:38
本申请公开一种文本数据处理方法、装置、电子设备及存储介质,该文本数据处理方法包括:获取文本数据;对所述文本数据进行扩充,并调用对应的约束条件对扩充后的文本数据进行筛选;将筛选得到的文本数据作为增强后的文本数据输出。本申请能够实现文本数据增强并降低产生噪声数据的概率。产生噪声数据的概率。产生噪声数据的概率。

【技术实现步骤摘要】
文本数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及计算机科学与人工智能
,具体涉及一种文本数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。在现有的对自然语言处理模型进行训练的方式中,通过从已知标签的数据中学习到映射关系并运用到具有同样关系的新数据中,完成对目标的打标、分类、预测等,因此参与训练的标注数据决定了模型性能上限。在现阶段自然语言处理任务中,高质量数据的缺失已经是模型性能提升的最大障碍,这一问题在具体的工业应用中尤为突出。在工业生产环境中,数据缺失的主要原因是真实数据本身的缺乏,即使有足够的标注人力,也因为数据源的不足而无法获得充足的标签数据。为了解决数据源缺乏的问题,通过文本数据增强技术对数据量进行扩充,从而提高模型的能力,满足具体的业务需求。
[0003]文本数据增强,即在尽量保证标签语义不变的前提下,用少量有标注的数据生成大量的有标注的数据,目前已被广泛使用在自然语言处理任务中。然而,现有的基于句子编码的文本增强技术方案在实施过程中会产生噪声数据,这种噪声数据在文本语义上已经和原句的语义发生了很大变化,增强后的文本数据不再符合标签定义。如果将这种噪声数据添加至训练数据集会降低训练数据的整体质量,损害模型学习能力。

技术实现思路

[0004]鉴于此,本申请提供一种文本数据处理方法、装置、电子设备及存储介质,能够实现文本数据增强并降低产生噪声数据的概率。
[0005]本申请提供一种文本数据处理方法,包括:
[0006]获取文本数据;
[0007]对所述文本数据进行扩充,并调用对应的约束条件对扩充后的文本数据进行筛选;
[0008]将筛选得到的文本数据作为增强后的文本数据输出。
[0009]可选地,所述对所述文本数据进行扩充,并调用对应的约束条件对扩充后的文本数据进行筛选,包括:
[0010]对作为所述文本数据的文本句中每个字符进行编码,以得到字符矩阵;
[0011]对所述字符矩阵进行修改,以得到修改后的字符矩阵,其中,对所述字符矩阵进行修改的方式包括对所述字符矩阵中的行或列进行增添、删减、替换或改变位置;
[0012]确定所述修改后的字符矩阵与所述字符矩阵的差异率;
[0013]当所述差异率小于预设阈值时,将所述修改后的字符矩阵作为通过筛选的文本数据,当所述差异程度大于所述预设阈值时,删除所述修改后的字符矩阵。
[0014]可选地,所述对所述字符矩阵进行修改,得到修改后的字符矩阵,包括:
[0015]将所述字符矩阵中每个字符归类到对应的词组,以得到多个词组;
[0016]对所述多个词组的位置进行调节,并将调节后的词组组成的矩阵作为所述修改后的字符矩阵。
[0017]可选地,所述确定所述修改后的字符矩阵与所述字符矩阵的差异率,包括:
[0018]将所述字符矩阵中每个字符的位置与所述修改后的字符矩阵中对应的字符的位置进行对比,并基于对比结果确定偏移值,以将所述偏移值作为所述差异率。
[0019]可选地,所述确定所述修改后的字符矩阵与所述字符矩阵的差异率,包括:
[0020]将所述修改后的字符矩阵与所述字符矩阵进行对比,以确定所述字符矩阵中缺失字符;
[0021]基于所述缺失字符的权重参数,确定所述缺失字符对于所述字符矩阵的贡献值,并将所述贡献值作为所述差异率,其中,所述缺失字符的权重参数至少包括词频和逆文档频率。
[0022]可选地,所述确定所述修改后的字符矩阵与所述字符矩阵的差异率,包括:
[0023]对所述字符矩阵中每个字符进行分析,并基于分析结果生成与所述字符矩阵绑定的标签;
[0024]基于所述标签,调用对应的特征维度与贡献值的映射关系;
[0025]将所述修改后的字符矩阵与所述字符矩阵进行对比,以确定所述字符矩阵中缺失特征维度;
[0026]基于所述对应的特征维度与贡献值的映射关系,确定所述缺失特征维度对于所述字符矩阵的贡献值,并将所述贡献值作为所述差异率。
[0027]可选地,所述基于所述标签,调用对应的特征维度与贡献值的映射关系,包括:
[0028]基于所述标签,对所述文本数据中多个文本句进行归类,得到对应的文本句集;
[0029]将所述对应的文本句集中每个文本句进行转换,以得到多个字符矩阵;
[0030]对所述多个字符矩阵进行矩阵运算,以得到文本特征矩阵;
[0031]基于预设函数,确定所述文本特征矩阵中每列的最大值;
[0032]基于所述文本特征矩阵中每列的最大值,生成所述对应的特征维度与贡献值的映射关系。
[0033]对应地,本申请提供一种文本数据处理装置,包括:
[0034]获取模块,用于获取文本数据;
[0035]增强模块,用于对所述文本数据进行扩充,并调用对应的约束条件对扩充后的文本数据进行筛选;
[0036]输出模块,用于将筛选得到的文本数据作为增强后的文本数据输出。此外,本申请还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如上任一项所述文本数据处理方法的步骤。
[0037]在此基础上,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上任一项所述文本数据处理方法的步骤。
[0038]本申请提供一种文本数据处理方法、装置、电子设备及存储介质,首先,获取文本数据,接着,对文本数据进行扩充,并调用对应的约束条件对扩充后的文本数据进行筛选,然后,将筛选得到的文本数据作为增强后的文本数据输出。本申请通过在对文本数据进行
扩充的阶段添加了约束条件,并基于约束条件筛选出增强后的文本数据,有效过滤噪声数据,从而降低噪声数据产生的概率,进而达到提高增强文本数据质量的目的。
附图说明
[0039]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本申请实施例提供的文本数据处理方法的第一流程示意图;
[0041]图2为本申请实施例提供的文本数据处理方法的第二流程示意图;
[0042]图3为本申请实施例提供的调节词组位置的示意图;
[0043]图4为本申请实施例提供的字符矩阵的示意图;
[0044]图5为本申请实施例提供的生成特征维度与贡献值的映射关系的示意图;
[0045]图6为本申请实施例提供的文本数据处理装置的结构示意图;
[0046]图7为本申请实施例提供的电子设备的结构示意图。...

【技术保护点】

【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:获取文本数据;对所述文本数据进行扩充,并调用对应的约束条件对扩充后的文本数据进行筛选;将筛选得到的文本数据作为增强后的文本数据输出。2.根据权利要求1所述的文本数据处理方法,其特征在于,所述对所述文本数据进行扩充,并调用对应的约束条件对扩充后的文本数据进行筛选,包括:对作为所述文本数据的文本句中每个字符进行编码,以得到字符矩阵;对所述字符矩阵进行修改,以得到修改后的字符矩阵,其中,对所述字符矩阵进行修改的方式包括对所述字符矩阵中的行或列进行增添、删减、替换或改变位置;确定所述修改后的字符矩阵与所述字符矩阵的差异率;当所述差异率小于预设阈值时,将所述修改后的字符矩阵作为通过筛选的文本数据,当所述差异程度大于所述预设阈值时,删除所述修改后的字符矩阵。3.根据权利要求2所述的文本数据处理方法,其特征在于,所述对所述字符矩阵进行修改,得到修改后的字符矩阵,包括:将所述字符矩阵中每个字符归类到对应的词组,以得到多个词组;对所述多个词组的位置进行调节,并将调节后的词组组成的矩阵作为所述修改后的字符矩阵。4.根据权利要求3所述的文本数据处理方法,其特征在于,所述确定所述修改后的字符矩阵与所述字符矩阵的差异率,包括:将所述字符矩阵中每个字符的位置与所述修改后的字符矩阵中对应的字符的位置进行对比,并基于对比结果确定偏移值,以将所述偏移值作为所述差异率。5.根据权利要求2所述的文本数据处理方法,其特征在于,所述确定所述修改后的字符矩阵与所述字符矩阵的差异率,包括:将所述修改后的字符矩阵与所述字符矩阵进行对比,以确定所述字符矩阵中缺失字符;基于所述缺失字符的权重参数,确定所述缺失字符对于所述字符矩阵的贡献值,并将所述贡献值作为所述差异率,其中,所述缺失字符的权重参数至少包括...

【专利技术属性】
技术研发人员:苟伟
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1