当前位置: 首页 > 专利查询>山东云海国创云计算装备产业创新中心有限公司专利>正文

一种基于摘要和关键字提取加权的中长文本分类方法技术

技术编号：38151793 阅读：7 留言：0更新日期：2023-07-13 09:16

本发明专利技术提供了一种基于摘要和关键字提取加权的中长文本分类方法，分别提取文本摘要和主题词，然后进行加权拼接，加权的权重通过模型训练获得，用以更好的提取中长文本的语义特征。在训练阶段，首先，利用Text Rank算法，提取文本摘要，随后将文本摘要数据集训练BiLSTM分类模型，得到BiLSTM层的输出即为文本的全局语义的特征向量；同时利用LDA算法，提取文本的关键词，加载GloVe词嵌入模型将提权的关键词转换为关键词向量；随后将全局语义的特征向量和关键词向量进行加权拼接，输入到全连接神经网络进行分类模型的训练，特征向量和关键词向量的加权权重在训练的过程中获得。本发明专利技术提出的算法在准确率、召回率和F1值上都优于传统的BiLSTM模型。BiLSTM模型。BiLSTM模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于摘要和关键字提取加权的中长文本分类方法

[0001]本专利技术涉及文本处理
，具体涉及一种基于摘要和关键字提取加权的中长文本分类方法。

技术介绍

[0002]新闻是人们获取信息、了解时事热点的重要途径。随着用户碎片化的使用场景逐渐增多，大量新闻文本信息均以短文本的形式呈现并进行传播。与长文本相比，新闻短文本的内容具有词汇不规范、特征维度稀疏和语义模糊的问题，因此现有的文本分类方法直接应用于新闻短文本分类中效果不佳。
[0003]传统文本分类算法通常基于向量空间模型，该方法将文本数据用特征词及权值构成的向量表示。但使用该方法在表示新闻短文本时，高维稀疏问题与语义缺失问题则更加严重。在此基础上进一步考虑了文本的“词”粒度和“文本”粒度，对词向量模型与LDA主题模型(Latent Dirichlet Allocation,隐含狄利克雷分布)进行融合，在分类效果上有一定的提升。近年来，深度学习在自然语言处理领域取得了显著的进展Hochreiter等提出了长短时记忆神经网络(Long Short
‑
Term Memory,LSTM)，解决了传统RNN(Recurrent neural networks，循环神经网络)梯度爆炸和消失的问题。由于LSTM(Long Short
‑
Term Memory，长短期记忆网络)能捕捉全局词义的特征，因此在文本分类中取得了不错的成绩。
[0004]文本分类分为短文本分类和中长文本分类。在中长文本分类中,文本中词容量比较大且文本...

【技术保护点】

【技术特征摘要】
1.一种基于摘要和关键字提取加权的中长文本分类方法，其特征在于，包括以下步骤：对给定文本进行摘要的提取，得到给定文本的文本摘要；基于训练好的语义提取模型对所述文本摘要进行全局语义特征的提取，获得全局语义向量；对给定文本全文提取关键词，作为文本的关键词特征向量；将语义提取模型获得的全局语义向量与关键词特征向量进行加权拼接，拼接之后的词向量融合全局的语义特征和关键词特征，并输入到全连接神经网络进行分类。2.根据权利要求1所述的基于摘要和关键字提取加权的中长文本分类方法，其特征在于，对给定文本进行摘要的提取时，构建文本中的词或者句子之间的图关系，得到相应文本中句子的重要度排名，得到句子中的关键子句。3.根据权利要求2所述的基于摘要和关键字提取加权的中长文本分类方法，其特征在于，在构建文本中的词或者句子之间的图关系时，将节点由网页改成句子,并为节点之间的边引入权值以构建一个带权无向图；其中，权值表示两个句子的相似程度。4.根据权利要求3所述的基于摘要和关键字提取加权的中长文本分类方法，其特征在于，在给定文本中提取关键句时，文本中的每个句子分别看作一个节点，若两个句子具有相似性，则两个句子对应的节点之间存在一条无向有权边。5.根据权利要求1所述的基于摘要和关键字提取加权的中长文本分类方法，其特征在于，摘要的提取步骤为：将给定文本拆分成单个句子；利用分词工具句子进行分词，并过滤掉停用词，得到句子的分词结果；加载词嵌入模型，将句子的分词结果转换成词向量；将句子中所有的词向量求和，得到句子向量；利用衡量句子之间相似性的公式计算句子之间的余弦相似度，建立句子之间的相似度矩阵；根据权重的计算公式，迭代传播各节点的权重，直至...

【专利技术属性】
技术研发人员：陈静静，王凛，张旭，孙华锦，
申请(专利权)人：山东云海国创云计算装备产业创新中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人