一种数据增强方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:28146012 阅读:12 留言:0更新日期:2021-04-21 19:30
本申请实施例属于人工智能中的自然语言处理技术领域,涉及一种数据增强方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的原始文本信息可存储于区块链中。本申请通过识别原始文本中可替换的非关键词文本,并对该非关键词文本进行语义识别,获得与上下文相关联的真实语义词文本,将原始文本信息中的该非关键词文本替换成真实语义词文本,使得替换后的目标文本信息依然保留有原始的语义,同时避免无用数据和错误数据的产生,有效提高文本数据增强的语义准确性,提高了文本分类模型的识别率,增强了模型的泛化能力。力。力。

【技术实现步骤摘要】
一种数据增强方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能中的自然语言处理
,尤其涉及一种数据增强方法、装置、计算机设备及存储介质。

技术介绍

[0002]在机器学习
,数据增强技术是扩充训练集的重要手段,常用于产生更多的新数据去训练模型,以使得模型更加精准,且更具泛化能力。
[0003]现有一种数据增强方法,通过将原有数据翻译为其他语言再翻译回原语言;或者随机替换同义词的方式,达到数据增强的目的。
[0004]然而,申请人发现传统的数据增强方法普遍不智能,对于应用于文本的数据增强技术,由于文本的上下文之间存在前后关联,如果盲目地对原始文本进行反转、截取或者替换等操作,将改变原始文本的语义,使得文本数据增强的语义准确性不高,由此可见,传统的数据增强方法存在文本数据增强的语义准确性较低的问题。

技术实现思路

[0005]本申请实施例的目的在于提出一种数据增强方法、装置、计算机设备及存储介质,以解决传统的数据增强方法存在文本数据增强的语义准确性较低的问题。
[0006]为了解决上述技术问题,本申请实施例提供一种数据增强方法,采用了如下所述的技术方案:
[0007]接收用户终端发送的数据增强请求,所述数据增强请求至少携带有原始文本信息;
[0008]对所述原始文本信息进行关键词过滤操作,得到非关键词文本;
[0009]将所述非关键词文本输入至词义分析模型进行词义识别操作,得到真实词义文本;
[0010]基于所述真实词义文本对所述原始文本信息进行非关键词替换操作,得到目标文本信息;
[0011]向所述用户终端输出所述目标文本信息。
[0012]为了解决上述技术问题,本申请实施例还提供一种数据增强装置,采用了如下所述的技术方案:
[0013]请求接收模块,用于接收用户终端发送的数据增强请求,所述数据增强请求至少携带有原始文本信息;
[0014]关键词过滤模块,用于对所述原始文本信息进行关键词过滤操作,得到非关键词文本;
[0015]词义识别模块,用于将所述非关键词文本输入至词义分析模型进行词义识别操作,得到真实词义文本;
[0016]非关键词替换模块,用于基于所述真实词义文本对所述原始文本信息进行非关键
词替换操作,得到目标文本信息;
[0017]目标文本输出模块,用于向所述用户终端输出所述目标文本信息。
[0018]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0019]包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的数据增强方法的步骤。
[0020]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
[0021]所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的数据增强方法的步骤。
[0022]与现有技术相比,本申请实施例主要有以下有益效果:
[0023]本申请提供的应用于文本的数据增强方法,包括:接收用户终端发送的数据增强请求,所述数据增强请求至少携带有原始文本信息;对所述原始文本信息进行关键词过滤操作,得到非关键词文本;将所述非关键词文本输入至词义分析模型进行词义识别操作,得到真实词义文本;基于所述真实词义文本对所述原始文本信息进行非关键词替换操作,得到目标文本信息;向所述用户终端输出所述目标文本信息。通过识别原始文本中可替换的非关键词文本,并对该非关键词文本进行语义识别,获得与上下文相关联的真实语义词文本,将原始文本信息中的该非关键词文本替换成真实语义词文本,使得替换后的目标文本信息依然保留有原始的语义,同时避免无用数据和错误数据的产生,有效提高文本数据增强的语义准确性,提高了文本分类模型的识别率,增强了模型的泛化能力。
附图说明
[0024]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本申请实施例一提供的数据增强方法的实现流程图;
[0026]图2是图1中步骤S102的一种具体实施方式的流程图;
[0027]图3是本申请实施例一提供的训练语义分析模型的实现流程图;
[0028]图4是图3中步骤S301的一种具体实施方式的流程图;
[0029]图5是图3中步骤S302的一种具体实施方式的流程图;
[0030]图6是图3中步骤S303的一种具体实施方式的流程图;
[0031]图7是本申请实施例一提供的数据增强装置的结构示意图:
[0032]图8是图7中关键词过滤模块120的结构示意图;
[0033]图9是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
[0034]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明
中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0035]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0036]为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0037]如图1所示,示出了本申请实施例一提供的数据增强方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
[0038]上述的数据增强方法,包括以下步骤:
[0039]步骤S101:接收用户终端发送的数据增强请求,数据增强请求至少携带有原始文本信息。
[0040]在本申请实施例中,用户终端指的是用于执行本申请提供的预防证件滥用的图像处理方法的终端设备,该用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本申请。
[0041]步骤S102:对原始文本信息进行关键词过滤操作,得到非关键词文本。...

【技术保护点】

【技术特征摘要】
1.一种数据增强方法,其特征在于,包括下述步骤:接收用户终端发送的数据增强请求,所述数据增强请求至少携带有原始文本信息;对所述原始文本信息进行关键词过滤操作,得到非关键词文本;将所述非关键词文本输入至词义分析模型进行词义识别操作,得到真实词义文本;基于所述真实词义文本对所述原始文本信息进行非关键词替换操作,得到目标文本信息;向所述用户终端输出所述目标文本信息。2.根据权利要求1所述的数据增强方法,其特征在于,所述对所述原始文本信息进行关键词过滤操作,得到非关键词文本的步骤,具体包括:基于TF

IDF统计方法对所述原始文本信息进行词频统计操作,得到词频统计结果;基于预设词频阈值对所述词频统计结果进行分类操作,得到所述非关键词。3.根据权利要求1所述的数据增强方法,其特征在于,在所述将所述非关键词文本输入至词义分析模型进行词义识别操作,得到真实词义文本的步骤之前,还包括:在本地数据库中获取样本文本,并确定所述样本文本中包含的每个分词;基于待训练的语义分析模型确定所述每个分词对应的词向量;在所述本地数据库中获取每个语义属性,根据所述待训练的语义分析模型中包含所述语义属性对应的注意力矩阵,以及所述每个分词对应的词向量,确定所述样本文本涉及所述语义属性的第一特征表示向量;根据所述待训练的语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及所述样本文本涉及每个语义属性的第一特征表示向量,确定所述样本文本涉及每个语义属性的第二特征表示向量;根据所述待训练的语义分析模型以及所述样本文本涉及每个语义属性的第二特征表示向量,确定所述待训练的语义训练模型输出的分类结果,所述分类结果包括所述样本文本所属的语义属性以及所述样本文本所属的语义属性对应的情感极性;根据所述分类结果和针对所述样本文本预设的标注,对所述语义分析模型中的模型参数进行调整,以完成对所述语义分析模型的训练。4.根据权利要求3所述的数据增强方法,其特征在于,所述在本地数据库中获取样本文本,并确定所述样本文本中包含的每个分词的步骤,具体包括:将所述每个分词输入所述语义分析模型中的语义表征层,得到所述语义表征层输出的每个分词分别对应的双向语义表示向量,作为每个分词对应的词向量。5.根据权利要求3所述的数据增强方法,其特征在于,所述基于待训练的语义分析...

【专利技术属性】
技术研发人员:郭丹丹
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1