基于关键词识别的数据扩充方法、装置、设备及介质制造方法及图纸

技术编号:33528298 阅读:11 留言:0更新日期:2022-05-19 01:54
本申请涉及一种基于关键词识别的数据扩充方法,包括:获取训练文本,对训练文本进行分词处理,并识别文本分词中的关键词;对关键词进行掩码,并将掩码后的训练文本进行文本补全,得到第一扩充文本;从预设词库内筛选出关键词的相似词,利用相似词对训练文本内的关键词进行替换,得到第二扩充文本;对训练文本内除关键词之外的训练文本进行词语及标点符号置换,得到第三扩充文本;将训练文本、第一扩充文本、第二扩充文本和第三扩充文本汇集为扩充训练数据。此外,本申请还涉及一种基于关键词识别的数据扩充装置、设备及介质。本申请可解决对训练数据进行扩充的效率较低的问题。决对训练数据进行扩充的效率较低的问题。决对训练数据进行扩充的效率较低的问题。

【技术实现步骤摘要】
基于关键词识别的数据扩充方法、装置、设备及介质


[0001]本申请涉及文本处理领域,尤其涉及一种基于关键词识别的数据扩充方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着网络时代的发展,随之产生的信息爆炸让人们需要花费大量的时间及精力对接触到的数据进行浏览及分析,进而导致人们对于信息的查阅疲劳以及厌倦,因此,利用算法模型对于数据中关键词进行抽取,进而高效地向人们展示信息核心成为了越来越常见的手段,但为了获取更加精确的关键词抽取算法模型,在抽取关键词的模型的训练过程中,需要使用到数量庞大的训练数据,现有的训练数据往往数量较少,且均需人工进行精确标注后才可用于训练,但依靠人工进行数据标注的方式来扩充训练数据的数量效率较低。

技术实现思路

[0003]本申请提供了一种基于关键词识别的数据扩充方法、装置及存储介质,以解决对训练数据进行扩充的效率较低的问题。
[0004]第一方面,本申请提供了一种基于关键词识别的数据扩充方法,所述方法包括:
[0005]获取训练文本,对所述训练文本进行分词处理,并识别分词处理后所述训练文本中的关键词;
[0006]对所述训练文本中的关键词进行掩码,并将掩码后的训练文本进行文本补全,得到第一扩充文本;
[0007]从预设词库内筛选所述关键词的相似词,利用所述相似词对所述训练文本内的所述关键词进行替换,得到第二扩充文本;
[0008]对所述训练文本内除所述关键词之外的训练文本进行词语及标点符号置换,得到第三扩充文本;/>[0009]将所述训练文本、所述第一扩充文本、所述第二扩充文本和所述第三扩充文本汇集为扩充训练数据。
[0010]详细地,所述对所述训练文本中的关键词进行掩码,并将掩码后的训练文本进行文本补全,得到第一扩充文本,包括:
[0011]逐个从所述关键词中选取一个关键词为掩码关键词,在所述训练文本中对所述掩码关键词进行遮掩;
[0012]截取所述训练文本中掩码关键词预设相邻范围的训练文本为相邻文本信息;
[0013]利用预先训练的词语预测模型识别所述相邻文本信息的文本语义;
[0014]逐个计算所述文本语义与多个预设的填充词之间的匹配度;
[0015]选取所述匹配度最大的填充词,并利用所述匹配度最大的填充词对所述训练文本中所述掩码关键词的位置进行填充,得到第一扩充文本。
[0016]详细地,所述从预设词库内筛选所述关键词的相似词,包括:
[0017]统计每个所述关键词在所述训练文本中的词语位置;
[0018]获取所述训练文本中所述词语位置的预设范围内的上下文信息,对所述上下文信息进行向量转换,得到上下文向量;
[0019]逐个从所述关键词中选取其中一个关键词为目标关键词,根据所述目标关键词的词向量和上下文向量计算所述目标关键词与所述预设词库内每个词语的相似度;
[0020]汇集所述相似度大于预设相似阈值的词语为所述目标关键词的相似词。
[0021]详细地,所述对所述训练文本内除所述关键词之外的训练文本进行词语及标点符号置换,得到第三扩充文本,包括:
[0022]从所述训练文本中剔除所述关键词,并随机从剔除所述关键词后的训练文本对应的文本分词中选取其中一个文本分词为扩充词;
[0023]在所述训练文本中对所述扩充词进行N次复制,得到词语置换文本,其中,N为正整数;
[0024]对所述训练文本内的标点符号进行随机替换操作或随机删除操作,得到标点置换文本;
[0025]将所述标点置换文本和所述词语置换文本汇集为第三扩充文本。
[0026]详细地,所述对所述训练文本进行分词处理,包括:
[0027]利用预设标点符号编译的正则表达式提取所述训练文本中每个标点符号的符号位置;
[0028]根据所述符号位置将所述训练文本拆分为多个文本分句;
[0029]依次从所述文本分句中选取其中一个文本分句为目标分句;
[0030]按照预设词分隔符将所述目标分句进行拆分为多个文本分词。
[0031]详细地,所述分词处理后所述训练文本中包含多个文本分词,所述识别分词处理后所述训练文本中的关键词,包括:
[0032]将每一个所述文本分词转换为词向量;
[0033]获取预先训练的关键词分析模型,利用所述关键词分析模型对每个所述词向量进行预设次数的卷积及池化处理,得到向量特征;
[0034]根据所述向量特征计算每个所述词向量对应的文本分词为关键词的概率值;
[0035]选取所述概率值大于预设概率阈值的词向量对应的文本分词为关键词。
[0036]详细地,所述分词处理后所述训练文本中包含多个文本分词,所述识别分词处理后所述训练文本中的关键词,包括:
[0037]统计所述文本分词中每一个文本分词的出现频率;
[0038]选取所述出现频率大于预设频率阈值的文本分词为关键词。
[0039]第二方面,本申请提供了一种基于关键词识别的数据扩充装置,所述装置包括:
[0040]关键词抽取模块,用于获取训练文本,对所述训练文本进行分词处理,并识别分词处理后所述训练文本中的关键词;
[0041]第一扩充模块,用于对所述训练文本中的关键词进行掩码,并将掩码后的训练文本进行文本补全,得到第一扩充文本;
[0042]第二扩充模块,用于从预设词库内筛选所述关键词的相似词,利用所述相似词对所述训练文本内的所述关键词进行替换,得到第二扩充文本;
[0043]第三扩充模块,用于对所述训练文本内除所述关键词之外的训练文本进行词语及标点符号置换,得到第三扩充文本;
[0044]文本汇集模块,用于将所述训练文本、所述第一扩充文本、所述第二扩充文本和所述第三扩充文本汇集为扩充训练数据。
[0045]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
[0046]存储器,用于存放计算机程序;
[0047]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的基于关键词识别的数据扩充方法的步骤。
[0048]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于关键词识别的数据扩充方法的步骤。
[0049]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0050]本申请实施例提供的该方法,可通过对训练文本内的关键词进行掩码后补全操作以及相似词替换操作,以及对该训练文本内除所述关键词以外的训练文本中的词语及标点符号进行置换,来生成多种类型的扩充文本,无需依赖人工对海量的数据进行标注,即可迅速生成可用于关键词抽取任务的训练数据。可解决对训练数据进行扩充的效率较低的问题。
附图说明
[0051]此处的附图被并本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于关键词识别的数据扩充方法,其特征在于,所述方法包括:获取训练文本,对所述训练文本进行分词处理,并识别分词处理后所述训练文本中的关键词;对所述训练文本中的关键词进行掩码,并将掩码后的训练文本进行文本补全,得到第一扩充文本;从预设词库内筛选所述关键词的相似词,利用所述相似词对所述训练文本内的所述关键词进行替换,得到第二扩充文本;对所述训练文本内除所述关键词之外的训练文本进行词语及标点符号置换,得到第三扩充文本;将所述训练文本、所述第一扩充文本、所述第二扩充文本和所述第三扩充文本汇集为扩充训练数据。2.根据权利要求1所述的基于关键词识别的数据扩充方法,其特征在于,所述对所述训练文本中的关键词进行掩码,并将掩码后的训练文本进行文本补全,得到第一扩充文本,包括:逐个从所述关键词中选取一个关键词为掩码关键词,在所述训练文本中对所述掩码关键词进行遮掩;截取所述训练文本中掩码关键词预设相邻范围的训练文本为相邻文本信息;利用预先训练的词语预测模型识别所述相邻文本信息的文本语义;逐个计算所述文本语义与多个预设的填充词之间的匹配度;选取所述匹配度最大的填充词,并利用所述匹配度最大的填充词对所述训练文本中所述掩码关键词的位置进行填充,得到第一扩充文本。3.根据权利要求1所述的基于关键词识别的数据扩充方法,其特征在于,所述从预设词库内筛选所述关键词的相似词,包括:统计每个所述关键词在所述训练文本中的词语位置;获取所述训练文本中所述词语位置的预设范围内的上下文信息,对所述上下文信息进行向量转换,得到上下文向量;逐个从所述关键词中选取其中一个关键词为目标关键词,根据所述目标关键词的词向量和上下文向量计算所述目标关键词与所述预设词库内每个词语的相似度;汇集所述相似度大于预设相似阈值的词语为所述目标关键词的相似词。4.根据权利要求1所述的基于关键词识别的数据扩充方法,其特征在于,所述对所述训练文本内除所述关键词之外的训练文本进行词语及标点符号置换,得到第三扩充文本,包括:从所述训练文本中剔除所述关键词,并随机从剔除所述关键词后的训练文本对应的文本分词中选取其中一个文本分词为扩充词;在所述训练文本中对所述扩充词进行N次复制,得到词语置换文本,其中,N为正整数;对所述训练文本内的标点符号进行随机替换操作或随机删除操作,得到标点置换文本;将所述标点置换文本和所述词语置换文本汇集为第三扩充文本。5.根据权利要求1所述的基于关键词识别的数据扩充方法,其特征在于,所...

【专利技术属性】
技术研发人员:张剑刘代琴黄仁杰洪秀贞
申请(专利权)人:深圳市北科瑞讯信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1