当前位置: 首页 > 专利查询>天津大学专利>正文

引入数据增强的SA-LSTM对停电新闻的文本分类方法技术

技术编号:34030663 阅读:43 留言:0更新日期:2022-07-06 11:02
本发明专利技术公开一种引入数据增强的SA

【技术实现步骤摘要】
引入数据增强的SA

LSTM对停电新闻的文本分类方法


[0001]本专利技术涉及文本分类
,特别是涉及一种引入数据增强的SA

LSTM 对停电新闻的文本分类方法。

技术介绍

[0002]电力是现代社会不可缺少的能源之一,它支撑着我们生活中各类电器的正常运转。如果由于计划检修、自然灾害、外部破坏等原因造成停电事故的出现,导致电力供应减少或电力传输中断等异常情况,会给人们的正常生活会带来相应的影响,甚至是带来巨大的经济损失。另外根据研究证明,现有电力系统发生停电事故是不可避免的,特别是危害程度较高的大停电事故也有微小的发生概率。因此,为了电力系统的稳定运行,需要分析已发生的停电事故并总结经验教训。其中分析已发生的停电事故就需要对各类停电新闻文本进行分类整理,确定每段文本所涉及的主题。该文本分类过程一般是采取人工整理方式,需要研究员对各类报告和收集的停电新闻手动或使用文本分类工具进行分类。
[0003]在深度学习方法尚未出现之前,文本分类任务通常采用人工特征工程方式完成,即通过专家提前从文本中选取一些适用于分类器的特征或规则,包括语法或词性等,然后通过K近邻、朴素贝叶斯等分类器得到分类结果。在深度学习方法出现之后,文本分类任务不再需要耗费大量时间通过人工设计特征和规则,而是使用深度学习方法自动从文本中挖掘出相应的特征,这些特征相比于人工设计的特征具有更加丰富的语义信息,并且基于深度学习的文本分类模型更加准确且更稳定。
[0004]虽然基于深度学习的文本分类模型在多个领域取得了较好的分类效果,但仍然有需要解决的一些问题。通常基于深度学习的文本分类模型需要大量带标注的数据对模型进行训练才能得到良好的性能,但某些领域获取大量带标注的数据较为困难,需要通过数据增强方式自动扩大标注数据的数量。另外低资源的数据中蕴含的上下文信息较少,模型无法有效的提取出足够的特征用于分类。

技术实现思路

[0005]本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种引入数据增强的SA

LSTM对停电新闻的文本分类方法,能够自动对网上获取的停电新闻中的文本进行分类,能更好地提高对停电新闻的文本分类准确率,对后续的停电分析工作提供帮助。
[0006]为实现本专利技术的目的所采用的技术方案是:
[0007]一种引入数据增强的SA

LSTM对停电新闻的文本分类方法,包括数据增强以及模型训练两个阶段:
[0008]数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据;步骤是:
[0009]从训练数据集的句子中提取p个关键词,从提取的关键词中随机选取n个不属于指定停用词集的关键词,p需要小于该句子分词后的长度,n≤p,从每个被选取的关键词的同
义词集中随机选取一个同义词对被选取的关键词进行替换,得到第一新句子;
[0010]随机选取i个标点符号并随机选取一个位置插入到所述句子中,得到第二新句子;
[0011]将第一新句子及第二新句子与初始的训练数据集进行合并得到数据增强后的新训练数据集;
[0012]模型训练是用数据增强后形成的新训练数据集通过双向LSTM网络模型进行特征提取,输出分类结果;步骤是:
[0013]在模型的输入嵌入层中对输入的训练数据集的文本进行预处理操作,得到词序列;
[0014]通过预训练词向量对所述词序列进行词嵌入操作,得到映射后的词向量;
[0015]将所述词向量输入到双向LSTM网络模型中进行特征提取,得到特征向量,将由所述特征向量得到的特征矩阵通过自注意力机制捕获句子中相互依赖的特征并得到新特征矩阵,将新特征矩阵输入到全连接层,然后再将全连接层的输出输入到softmax中进行分类,得到分类结果。
[0016]其中,若被选取的关键词没有同义词,则跳过该关键词并随机替换成其它未被选中的关键词并继续关键词替换操作。
[0017]其中,所述预处理包括分词、去除停用词、大写转小写;分词采用HanLP 技术。
[0018]其中,通过Synonyms获取所提取的关键词的同义词集。
[0019]其中,标点符号插入位置不能位于一个完整词的中间。
[0020]本专利技术的基于数据增强的SA

LSTM对停电新闻的文本分类方法,首先通过两种数据增强方式扩充了原有的标注数据量,对提升模型的准确率提供了帮助,然后利用预训练词向量进行词嵌入操作,将词序列转变为词向量以此引入丰富的词信息,接着利用BiLSTM捕获文本中蕴含的上下文信息,再利用自注意力机制进一步捕获句子中相互依赖的特征,最后通过全连接层并使用softmax进行分类。从而使得本专利技术能够显著提升只有少量标注的停电新闻文本分类的准确率。
附图说明
[0021]图1是本专利技术的基于数据增强的SA

LSTM对停电新闻的文本分类方法的处理示意图。
[0022]图2是部分预训练好的300维大小为3.5G的中文预训练词向量的示意图。
具体实施方式
[0023]以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0024]如图1所示,本专利技术实施例的基于数据增强的SA

LSTM对停电新闻的文本分类方法,包括数据增强、模型训练两个阶段。
[0025]步骤(1):数据增强阶段
[0026]该阶段用于将标注的少量停电新闻文本训练数据集采取相应处理后产生更多的带标注数据;该阶段的所有操作过程均自动完成,无需人工介入。
[0027]数据增强的操作,主要采取对训练集中的每个句子执行关键词的同义词替换和随
机插入标点符号操作,具体步骤如下:
[0028]步骤(11),从句子中提取p个关键词,p需要小于句子分词后的长度。从提取的关键词中随机选取n(n≤p)个不属于指定停用词集的关键词,每个被选取的关键词从其同义词集中随机选取一个进行替换,随后得到新的句子。
[0029]步骤(12),随机选取i个标点符号并随机选取一个位置插入到句子中,随后得到新的句子。
[0030]步骤(13),如果步骤(11)中无法提取出p个关键词,但仍然能够提取出不少于n个关键词,则继续进行关键词替换操作。
[0031]步骤(14)如果步骤(11)中被选取的关键词没有同义词,则跳过该关键词并随机替换成其它未被选中的关键词并继续关键词替换操作。
[0032]步骤(15),如果步骤(11)中无法提取出p个关键词,且能够提取的关键词数小于n个,则全部进行同义词替换操作,遇到没有同义词的关键词则跳过。
[0033]步骤(16),将步骤(11)和步骤(12)中得到的新句子和原有训练集进行合并得到数据增强后的新训练集。
[0034]其中,作为一个可选实施例,步骤(1)中进行数据增强的停电新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种引入数据增强的SA

LSTM对停电新闻的文本分类方法,其特征在于,包括数据增强以及模型训练两个阶段:数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据;步骤是:从训练数据集的句子中提取p个关键词,从提取的关键词中随机选取n个不属于指定停用词集的关键词,p需要小于该句子分词后的长度,n≤p,从每个被选取的关键词的同义词集中随机选取一个同义词对被选取的关键词进行替换,得到第一新句子;随机选取i个标点符号并随机选取一个位置插入到所述句子中,得到第二新句子;将第一新句子及第二新句子与初始的训练数据集进行合并得到数据增强后的新训练数据集;模型训练是用数据增强后形成的新训练数据集通过双向LSTM网络模型进行特征提取,输出分类结果;步骤是:在模型的输入嵌入层中对输入的训练数据集的文本进行预处理操作,得到词序列;通过预训练词向量对所述词序列进行词嵌入操作,得到映射后的词向量;将所述词向量输入到双向LSTM网络模型中进行特征提取,得到特征向量,将由所述特征向量得到的特征矩阵通过自注意力机制捕获句子中相互依赖的特征并得到新特征矩阵,将...

【专利技术属性】
技术研发人员:饶国政吕鹏浩
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1