基于多模态检索和关键词提取的社交文本增强方法与系统技术方案

技术编号：35780085 阅读：43 留言：0更新日期：2022-12-01 14:25

本申请提出了一种基于多模态检索和关键词提取的社交文本增强方法，包括：S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词；S2、采用RNN模型结合自注意力机制的方式，利用训练样本训练得到句子的生成模型，并根据所述训练样本对应类别的关键词控制所述生成模型的句子生成方向；S3、将原始语句输入到所述生成模型中，生成文本增强的第一生成语句；S4、基于多模态检索算法，判断所述第一生成语句是否存在所述关键词文件中的关键词，若是，则在所述第一生成语句中找出需要替换的关键词，并检索出所述需要替换的关键词的近义词进行替换，从而生成多个数据增强的第二生成语句。本申请具有能够对生成模型的生成方向、生成数量进行控制的效果。成数量进行控制的效果。成数量进行控制的效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态检索和关键词提取的社交文本增强方法与系统

[0001]本申请涉及文本数据增强的
，具体涉及一种基于多模态检索和关键词提取的社交文本增强方法与系统。

技术介绍

[0002]随着科技的进步以及人工智能技术的发展，AI模型开始逐渐渗透进人们的生活之中，其中文本多分类任务作为自然语言处理的一个重要分支在生产及生活的各个方面也有着重要应用。从文本多分类模型的训练过程来看，数据收集对最终的模型结果有着重要的导向作用，数据的好坏和丰富性在一定程度上决定了最终模型的效果，但是在收集数据的过程中常常会遇到以下几个问题，一是数据较少的问题，二是数据类别不均衡的问题，前者会导致模型训练陷入过拟合状态，后者则可能导致模型对少样本的数据的分类效果较差。
[0003]针对这类问题，研究者利用文本数据增强的方式来解决这一问题。数据增强一般分为三类：(1)EDA(easy data augmentation)，简单数据增强，主要是通过词语的替换(同义词替换)和句子的加噪(词语随机插入，词语随机交换，词语随机删除，语法树操作)两种方式进行数据增强。(2)数据生成，如seq
‑
to
‑
seq、Language Models等生成模型。(3)对抗生成，利用GAN等对抗模型进行句子生成。
[0004]上述三个数据增强的方式可以简要概括为两个方面，第一种是有监督的数据增强，即EDA数据增强，这类增强方法有着数据生成迅速，生成方向可控的特性，但是由于词语的加噪只是原文基础上词语的修改，所以生成...

【技术保护点】

【技术特征摘要】
1.一种基于多模态检索和关键词提取的社交文本增强方法，其特征在于，包括以下步骤：S1、利用类别关键词抽取算法提取不同类别样本语句中的关键词，得到包含不同类别关键词集合的关键词文件；S2、采用RNN模型结合自注意力机制的方式，利用训练样本训练得到句子的生成模型，并根据所述训练样本对应类别的所述关键词集合中的关键词控制所述生成模型的句子生成方向；S3、将原始语句输入到所述生成模型中，生成文本增强的第一生成语句；以及S4、基于多模态检索算法，判断所述第一生成语句是否存在所述关键词文件中的关键词，若是，则在所述第一生成语句中找出需要替换的关键词，并检索出所述需要替换的关键词的近义词进行替换，从而生成多个数据增强的第二生成语句。2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体包括：S11、将所述样本语句划分成2字词和3字词，利用凝固度算法计算每个词语的凝固度，并对凝固度低于预设阈值的词语再次进行分词操作，得到最终的词语集合；S12、采用信息熵算法和TF
‑
IDF算法衡量所述词语集合中每个词语的有效性，根据衡量结果筛选出关键词。3.根据权利要求1所述的方法，其特征在于，所述生成模型顺序包括嵌入层、双向LSTM模型、注意力层和单向LSTM模型，所述步骤S2具体包括：S21、在所述嵌入层对所述训练样本分词后转化为第一词向量，在所述训练样本对应类别的所述关键词集合中随机选择关键词并转化为第二词向量；S22、利用所述双向LSTM模型对所述第一词向量和所述第二词向量进行双向串联输出；S23、所述注意力层对输出后的所述第一词向量和所述第二词向量进行注意力机制的降维并分别输出第一输出向量和第二输出向量；S24、对所述第一输出向量和所述第二输出向量进行向量拼接得到编码向量，所述单向LSTM模型对所述编码向量进行解码生成句子。4.根据权利要求3所述的方法，其特征在于，在所述步骤S22中，所述第一词向量的最后一个编码输出和所述第二词向量进行自注意力机制联合编码。5.根据权利要求1所述的方法，其特征在于，所述步骤S4具体包括：S41、利用收集的训练语料进行分词并转化为第三词向量，采用Skip
‑
Gram模型对所述第三词向量进行训练得到...

【专利技术属性】
技术研发人员：彭闯，陈思萌，卢晓喻，赵建强，韩名羲，金辉，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人