基于关键词识别的数据扩充方法、装置、设备及介质制造方法及图纸

技术编号：33528298 阅读：37 留言：0更新日期：2022-05-19 01:54

本申请涉及一种基于关键词识别的数据扩充方法，包括：获取训练文本，对训练文本进行分词处理，并识别文本分词中的关键词；对关键词进行掩码，并将掩码后的训练文本进行文本补全，得到第一扩充文本；从预设词库内筛选出关键词的相似词，利用相似词对训练文本内的关键词进行替换，得到第二扩充文本；对训练文本内除关键词之外的训练文本进行词语及标点符号置换，得到第三扩充文本；将训练文本、第一扩充文本、第二扩充文本和第三扩充文本汇集为扩充训练数据。此外，本申请还涉及一种基于关键词识别的数据扩充装置、设备及介质。本申请可解决对训练数据进行扩充的效率较低的问题。决对训练数据进行扩充的效率较低的问题。决对训练数据进行扩充的效率较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于关键词识别的数据扩充方法、装置、设备及介质

[0001]本申请涉及文本处理领域，尤其涉及一种基于关键词识别的数据扩充方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着网络时代的发展，随之产生的信息爆炸让人们需要花费大量的时间及精力对接触到的数据进行浏览及分析，进而导致人们对于信息的查阅疲劳以及厌倦，因此，利用算法模型对于数据中关键词进行抽取，进而高效地向人们展示信息核心成为了越来越常见的手段，但为了获取更加精确的关键词抽取算法模型，在抽取关键词的模型的训练过程中，需要使用到数量庞大的训练数据，现有的训练数据往往数量较少，且均需人工进行精确标注后才可用于训练，但依靠人工进行数据标注的方式来扩充训练数据的数量效率较低。

技术实现思路

[0003]本申请提供了一种基于关键词识别的数据扩充方法、装置及存储介质，以解决对训练数据进行扩充的效率较低的问题。
[0004]第一方面，本申请提供了一种基于关键词识别的数据扩充方法，所述方法包括：
[0005]获取训练文本，对所述训练文本进...

【技术保护点】

【技术特征摘要】
1.一种基于关键词识别的数据扩充方法，其特征在于，所述方法包括：获取训练文本，对所述训练文本进行分词处理，并识别分词处理后所述训练文本中的关键词；对所述训练文本中的关键词进行掩码，并将掩码后的训练文本进行文本补全，得到第一扩充文本；从预设词库内筛选所述关键词的相似词，利用所述相似词对所述训练文本内的所述关键词进行替换，得到第二扩充文本；对所述训练文本内除所述关键词之外的训练文本进行词语及标点符号置换，得到第三扩充文本；将所述训练文本、所述第一扩充文本、所述第二扩充文本和所述第三扩充文本汇集为扩充训练数据。2.根据权利要求1所述的基于关键词识别的数据扩充方法，其特征在于，所述对所述训练文本中的关键词进行掩码，并将掩码后的训练文本进行文本补全，得到第一扩充文本，包括：逐个从所述关键词中选取一个关键词为掩码关键词，在所述训练文本中对所述掩码关键词进行遮掩；截取所述训练文本中掩码关键词预设相邻范围的训练文本为相邻文本信息；利用预先训练的词语预测模型识别所述相邻文本信息的文本语义；逐个计算所述文本语义与多个预设的填充词之间的匹配度；选取所述匹配度最大的填充词，并利用所述匹配度最大的填充词对所述训练文本中所述掩码关键词的位置进行填充，得到第一扩充文本。3.根据权利要求1所述的基于关键词识别的数据扩充方法，其特征在于，所述从预设词库内筛选所述关键词的相似词，包括：统计每个所述关键词在所述训练文本中的词语位置；获取所述训练文本中所述词语位置的预设范围内的上下文信息，对所述上下文信息进行向量转换，得到上下文向量；逐个从所述关键词中选取其中一个关键词为目标关键词，根据所述目标关键词的词向量和上下文向量计算所述目标关键词与所述预设词库内每个词语的相似度；汇集所述相似度大于预设相似阈值的词语为所述目标关键词的相似词。4.根据权利要求1所述的基于关键词识别的数据扩充方法，其特征在于，所述对所述训练文本内除所述关键词之外的训练文本进行词语及标点符号置换，得到第三扩充文本，包括：从所述训练文本中剔除所述关键词，并随机从剔除所述关键词后的训练文本对应的文本分词中选取其中一个文本分词为扩充词；在所述训练文本中对所述扩充词进行N次复制，得到词语置换文本，其中，N为正整数；对所述训练文本内的标点符号进行随机替换操作或随机删除操作，得到标点置换文本；将所述标点置换文本和所述词语置换文本汇集为第三扩充文本。5.根据权利要求1所述的基于关键词识别的数据扩充方法，其特征在于，所...

【专利技术属性】
技术研发人员：张剑，刘代琴，黄仁杰，洪秀贞，
申请(专利权)人：深圳市北科瑞讯信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人