引入数据增强的SA-LSTM对停电新闻的文本分类方法技术

技术编号：34030663 阅读：43 留言：0更新日期：2022-07-06 11:02

本发明专利技术公开一种引入数据增强的SA

全部详细技术资料下载

【技术实现步骤摘要】
引入数据增强的SA
‑
LSTM对停电新闻的文本分类方法

[0001]本专利技术涉及文本分类
，特别是涉及一种引入数据增强的SA
‑
LSTM 对停电新闻的文本分类方法。

技术介绍

[0002]电力是现代社会不可缺少的能源之一，它支撑着我们生活中各类电器的正常运转。如果由于计划检修、自然灾害、外部破坏等原因造成停电事故的出现，导致电力供应减少或电力传输中断等异常情况，会给人们的正常生活会带来相应的影响，甚至是带来巨大的经济损失。另外根据研究证明，现有电力系统发生停电事故是不可避免的，特别是危害程度较高的大停电事故也有微小的发生概率。因此，为了电力系统的稳定运行，需要分析已发生的停电事故并总结经验教训。其中分析已发生的停电事故就需要对各类停电新闻文本进行分类整理，确定每段文本所涉及的主题。该文本分类过程一般是采取人工整理方式，需要研究员对各类报告和收集的停电新闻手动或使用文本分类工具进行分类。
[0003]在深度学习方法尚未出现之前，文本分类任务通常采用人工特征工程方式完成，即通过专家提前从文本中选取一些适用于分类器的特征或规则，包括语法或词性等，然后通过K近邻、朴素贝叶斯等分类器得到分类结果。在深度学习方法出现之后，文本分类任务不再需要耗费大量时间通过人工设计特征和规则，而是使用深度学习方法自动从文本中挖掘出相应的特征，这些特征相比于人工设计的特征具有更加丰富的语义信息，并且基于深度学习的文本分类模型更加准确且更稳定。
[0004]虽然基于深度学习的文本分类模型在...

【技术保护点】

【技术特征摘要】
1.一种引入数据增强的SA
‑
LSTM对停电新闻的文本分类方法，其特征在于，包括数据增强以及模型训练两个阶段：数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据；步骤是：从训练数据集的句子中提取p个关键词，从提取的关键词中随机选取n个不属于指定停用词集的关键词，p需要小于该句子分词后的长度，n≤p，从每个被选取的关键词的同义词集中随机选取一个同义词对被选取的关键词进行替换，得到第一新句子；随机选取i个标点符号并随机选取一个位置插入到所述句子中，得到第二新句子；将第一新句子及第二新句子与初始的训练数据集进行合并得到数据增强后的新训练数据集；模型训练是用数据增强后形成的新训练数据集通过双向LSTM网络模型进行特征提取，输出分类结果；步骤是：在模型的输入嵌入层中对输入的训练数据集的文本进行预处理操作，得到词序列；通过预训练词向量对所述词序列进行词嵌入操作，得到映射后的词向量；将所述词向量输入到双向LSTM网络模型中进行特征提取，得到特征向量，将由所述特征向量得到的特征矩阵通过自注意力机制捕获句子中相互依赖的特征并得到新特征矩阵，将...

【专利技术属性】
技术研发人员：饶国政，吕鹏浩，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人