基于多模态检索和关键词提取的社交文本增强方法与系统技术方案

技术编号:35780085 阅读:43 留言:0更新日期:2022-12-01 14:25
本申请提出了一种基于多模态检索和关键词提取的社交文本增强方法,包括:S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词;S2、采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的关键词控制所述生成模型的句子生成方向;S3、将原始语句输入到所述生成模型中,生成文本增强的第一生成语句;S4、基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。本申请具有能够对生成模型的生成方向、生成数量进行控制的效果。成数量进行控制的效果。成数量进行控制的效果。

【技术实现步骤摘要】
基于多模态检索和关键词提取的社交文本增强方法与系统


[0001]本申请涉及文本数据增强的
,具体涉及一种基于多模态检索和关键词提取的社交文本增强方法与系统。

技术介绍

[0002]随着科技的进步以及人工智能技术的发展,AI模型开始逐渐渗透进人们的生活之中,其中文本多分类任务作为自然语言处理的一个重要分支在生产及生活的各个方面也有着重要应用。从文本多分类模型的训练过程来看,数据收集对最终的模型结果有着重要的导向作用,数据的好坏和丰富性在一定程度上决定了最终模型的效果,但是在收集数据的过程中常常会遇到以下几个问题,一是数据较少的问题,二是数据类别不均衡的问题,前者会导致模型训练陷入过拟合状态,后者则可能导致模型对少样本的数据的分类效果较差。
[0003]针对这类问题,研究者利用文本数据增强的方式来解决这一问题。数据增强一般分为三类:(1)EDA(easy data augmentation),简单数据增强,主要是通过词语的替换(同义词替换)和句子的加噪(词语随机插入,词语随机交换,词语随机删除,语法树操作)两种方式进行数据增强。(2)数据生成,如seq

to

seq、Language Models等生成模型。(3)对抗生成,利用GAN等对抗模型进行句子生成。
[0004]上述三个数据增强的方式可以简要概括为两个方面,第一种是有监督的数据增强,即EDA数据增强,这类增强方法有着数据生成迅速,生成方向可控的特性,但是由于词语的加噪只是原文基础上词语的修改,所以生成的句子有着内容单调,重复率高等特点。第二种是无监督的数据增强,即上述的对抗生成方法和seq

to

seq方法,这种生成方法的优点是生成句子内容丰富,易于训练,缺点是生成句子的数量为一对一的形式,即一条输入样本生成一条句子,并且句子生成的方向不可控。
[0005]因此,针对上述问题,本申请基于多模态检索和主题RNN模型提出了一种新的数据增强方法,解决了句子生成模型的生成方向、生成数量不可控的问题。

技术实现思路

[0006]为了解决上述技术问题,本申请提出了一种基于多模态检索和关键词提取的社交文本增强方法与系统。
[0007]根据本申请的第一方面,提出了一种基于多模态检索和关键词提取的社交文本增强方法,包括以下步骤:
[0008]S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件;
[0009]S2、采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生成方向;
[0010]S3、将原始语句输入到所述生成模型中,生成文本增强的第一生成语句;以及
[0011]S4、基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。
[0012]优选的,所述步骤S1具体包括:
[0013]S11、将所述样本语句划分成2字词和3字词,利用凝固度算法计算每个词语的凝固度,并对凝固度低于预设阈值的词语再次进行分词操作,得到最终的词语集合;
[0014]S12、采用信息熵算法和TF

IDF算法衡量所述词语集合中每个词语的有效性,根据衡量结果筛选出关键词。
[0015]优选的,所述生成模型顺序包括嵌入层、双向LSTM模型、注意力层和单向LSTM模型,所述步骤S2具体包括:
[0016]S21、在所述嵌入层对所述训练样本分词后转化为第一词向量,在所述训练样本对应类别的所述关键词集合中随机选择关键词并转化为第二词向量;
[0017]S22、利用所述双向LSTM模型对所述第一词向量和所述第二词向量进行双向串联输出;
[0018]S23、所述注意力层对输出后的所述第一词向量和所述第二词向量进行注意力机制的降维并分别输出第一输出向量和第二输出向量;
[0019]S24、对所述第一输出向量和所述第二输出向量进行向量拼接得到编码向量,所述单向LSTM模型对所述编码向量进行解码生成句子。
[0020]优选的,在所述步骤S22中,所述第一词向量的最后一个编码输出和所述第二词向量进行自注意力机制联合编码。
[0021]优选的,所述步骤S4具体包括:
[0022]S41、利用收集的训练语料进行分词并转化为第三词向量,采用Skip

Gram模型对所述第三词向量进行训练得到词向量模型;
[0023]S42、将所述第一生成语句输入所述词向量模型,判断并找出所述需要替换的关键词,根据所述需要替换的关键词在所述词向量模型中找到对应的具体词向量;
[0024]S43、通过余弦相似度计算所述具体词向量与其它所述第三词向量的相似度,根据计算结果找出所述近义词。
[0025]优选的,所述步骤S43具体包括:根据所述关键词文件将所述词向量模型中的所述第三词向量划分成不同类别,利用哈希函数将不同类别的所述第三词向量保存到不同位置的哈希地址中,通过余弦相似度计算所述具体词向量与对应哈希地址内的所述第三词向量的相似度,根据计算结果找出所述近义词。
[0026]优选的,所述步骤S12中所述根据衡量结果筛选出关键词具体包括:对所述词语集合中的词语的信息熵值和TF

IDF值进行加权求和,求得所述词语集合中的词语的特征分数,根据所述特征分数筛选出关键词。
[0027]优选的,在所述步骤S4中,根据第一预设数量,在所述第一生成语句包含的所有关键词中,随机采样出所述第一预设数量的所述需要替换的关键词,根据第二预设数量,生成所述第二预设数量的所述第二生成语句。
[0028]根据本申请的第二方面,提出了一种基于多模态检索和关键词提取的社交文本增强系统,包括:
[0029]关键词文件获取模块,配置用于利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件;
[0030]生成模型构建模块,配置用于采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生成方向;
[0031]文本增强模块,配置用于将原始语句到输入所述生成模型中,生成文本增强的第一生成语句;
[0032]数据增强模块,配置用于基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。
[0033]根据本申请的第三方面,提出了一种计算机可读储存介质,其储存有计算机程序,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态检索和关键词提取的社交文本增强方法,其特征在于,包括以下步骤:S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词,得到包含不同类别关键词集合的关键词文件;S2、采用RNN模型结合自注意力机制的方式,利用训练样本训练得到句子的生成模型,并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生成方向;S3、将原始语句输入到所述生成模型中,生成文本增强的第一生成语句;以及S4、基于多模态检索算法,判断所述第一生成语句是否存在所述关键词文件中的关键词,若是,则在所述第一生成语句中找出需要替换的关键词,并检索出所述需要替换的关键词的近义词进行替换,从而生成多个数据增强的第二生成语句。2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:S11、将所述样本语句划分成2字词和3字词,利用凝固度算法计算每个词语的凝固度,并对凝固度低于预设阈值的词语再次进行分词操作,得到最终的词语集合;S12、采用信息熵算法和TF

IDF算法衡量所述词语集合中每个词语的有效性,根据衡量结果筛选出关键词。3.根据权利要求1所述的方法,其特征在于,所述生成模型顺序包括嵌入层、双向LSTM模型、注意力层和单向LSTM模型,所述步骤S2具体包括:S21、在所述嵌入层对所述训练样本分词后转化为第一词向量,在所述训练样本对应类别的所述关键词集合中随机选择关键词并转化为第二词向量;S22、利用所述双向LSTM模型对所述第一词向量和所述第二词向量进行双向串联输出;S23、所述注意力层对输出后的所述第一词向量和所述第二词向量进行注意力机制的降维并分别输出第一输出向量和第二输出向量;S24、对所述第一输出向量和所述第二输出向量进行向量拼接得到编码向量,所述单向LSTM模型对所述编码向量进行解码生成句子。4.根据权利要求3所述的方法,其特征在于,在所述步骤S22中,所述第一词向量的最后一个编码输出和所述第二词向量进行自注意力机制联合编码。5.根据权利要求1所述的方法,其特征在于,所述步骤S4具体包括:S41、利用收集的训练语料进行分词并转化为第三词向量,采用Skip

Gram模型对所述第三词向量进行训练得到...

【专利技术属性】
技术研发人员:彭闯陈思萌卢晓喻赵建强韩名羲金辉
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1