文本增强方法、装置、设备及存储介质制造方法及图纸

技术编号:33247927 阅读:22 留言:0更新日期:2022-04-27 18:03
本发明专利技术涉及人工智能技术,揭露一种文本增强方法,包括:获取标准序列训练数据,对标准序列训练数据进行线性化处理,得到线性训练数据;对线性训练数据进行词嵌入处理,得到线性训练向量;对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对初始文本增强模型进行训练,得到训练好的文本增强模型;将线性训练向量输入至训练好的文本增强模型中进行增强处理,得到文本预测结果;对文本预测结果进行后验证处理,得到标准文本增强结果。此外,本发明专利技术还涉及区块链技术,线性训练数据可存储于区块链的节点。本发明专利技术还提出一种文本增强装置、电子设备以及存储介质。本发明专利技术可以提高文本增强的有效性。发明专利技术可以提高文本增强的有效性。发明专利技术可以提高文本增强的有效性。

【技术实现步骤摘要】
文本增强方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本增强方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]由于深度学习技术在自然语言处理的各个任务中都有广泛的应用,比如文本分类、序列标注等。但是深度学习模型参数规模巨大,往往需要大规模的标注数据才能进行有效的学习,然而大规模的标注数据往往耗费大量的人力及时间,线上真实应用时往往不能及时满足需求。针对这种现象,一些文本增强技术应运而生。
[0003]目前使用同义词替换的文本增强过于简单,且效果并不显著,其他的数据增强方法如反向翻译等等仅适用于翻译或者分类的任务,并不适用于序列标注任务。故当前的文本增强技术有非常强的局限性,同时,对序列标注来说仅仅保持整句语义不变生成的新样本是不能帮助提升序列标注任务的准确率的。故目前的文本增强技术有其应用范围狭窄的有效性(即可用性)不高。因此亟待提出一种更为有效的文本增强方法。

技术实现思路

[0004]本专利技术提供一种文本增强方法、装置及计算机可读存储介质,其主要目的在于提高文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本增强方法,其特征在于,所述方法包括:获取标准序列训练数据,对所述标准序列训练数据进行线性化处理,得到线性训练数据;利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量;对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,基于训练数据集对所述初始文本增强模型进行训练,得到训练好的文本增强模型;将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果;对所述文本预测结果进行后验证处理,得到标准文本增强结果。2.如权利要求1所述的文本增强方法,其特征在于,所述利用预设的词嵌入算法对所述线性训练数据进行词嵌入处理,得到线性训练向量,包括:以所述线性训练数据的总数为预设矩阵的列数,以预设固定参数为所述预设矩阵的行数,构建得到初始矩阵向量;将所述线性训练数据填入所述初始矩阵向量中的每一列的任意一个位置中,并将每一列中的除去所述线性训练数据以外的位置对应的数据填充为预设的标准数值,得到线性训练向量。3.如权利要求1所述的文本增强方法,其特征在于,所述将所述线性训练向量输入至所述训练好的文本增强模型中进行增强处理,得到文本预测结果,包括:通过所述训练好的文本增强模型中的输入门计算所述线性训练向量的状态值;通过所述训练好的文本增强模型中的遗忘门计算所述线性训练向量的激活值;根据所述状态值和所述激活值计算所述线性训练向量的状态更新值;利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数据;将所述初始文本数据输入至预设的全连接层中,得到预测概率,根据所述预测概率得到文本预测结果。4.如权利要求1所述的文本增强方法,其特征在于,所述利用所述训练好的文本增强模型中的输出门计算所述状态更新值对应的初始文本数据,包括:o
t
=tan h(c
t
)其中,o
t
表示初始文本数据,tan h表示输出门的激活函数,c
t
表示状态更新值。5.如权利要求1所述的文本增强方法,其特征在于,所述对预设的文本增强模型进行去拟合操作,得到初始文本增强模型,包括:获取预设的停止概率,并识别所述文本增...

【专利技术属性】
技术研发人员:黄海龙
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1