一种基于摘要和关键字提取加权的中长文本分类方法技术

技术编号:38151793 阅读:7 留言:0更新日期:2023-07-13 09:16
本发明专利技术提供了一种基于摘要和关键字提取加权的中长文本分类方法,分别提取文本摘要和主题词,然后进行加权拼接,加权的权重通过模型训练获得,用以更好的提取中长文本的语义特征。在训练阶段,首先,利用Text Rank算法,提取文本摘要,随后将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行加权拼接,输入到全连接神经网络进行分类模型的训练,特征向量和关键词向量的加权权重在训练的过程中获得。本发明专利技术提出的算法在准确率、召回率和F1值上都优于传统的BiLSTM模型。BiLSTM模型。BiLSTM模型。

【技术实现步骤摘要】
一种基于摘要和关键字提取加权的中长文本分类方法


[0001]本专利技术涉及文本处理
,具体涉及一种基于摘要和关键字提取加权的中长文本分类方法。

技术介绍

[0002]新闻是人们获取信息、了解时事热点的重要途径。随着用户碎片化的使用场景逐渐增多,大量新闻文本信息均以短文本的形式呈现并进行传播。与长文本相比,新闻短文本的内容具有词汇不规范、特征维度稀疏和语义模糊的问题,因此现有的文本分类方法直接应用于新闻短文本分类中效果不佳。
[0003]传统文本分类算法通常基于向量空间模型,该方法将文本数据用特征词及权值构成的向量表示。但使用该方法在表示新闻短文本时,高维稀疏问题与语义缺失问题则更加严重。在此基础上进一步考虑了文本的“词”粒度和“文本”粒度,对词向量模型与LDA主题模型(Latent Dirichlet Allocation,隐含狄利克雷分布)进行融合,在分类效果上有一定的提升。近年来,深度学习在自然语言处理领域取得了显著的进展Hochreiter等提出了长短时记忆神经网络(Long Short

Term Memory,LSTM),解决了传统RNN(Recurrent neural networks,循环神经网络)梯度爆炸和消失的问题。由于LSTM(Long Short

Term Memory,长短期记忆网络)能捕捉全局词义的特征,因此在文本分类中取得了不错的成绩。
[0004]文本分类分为短文本分类和中长文本分类。在中长文本分类中,文本中词容量比较大且文本中存在大量冗余数据,如果全部作为文本的特征输入,不但耗时较长,并且分类效果也比较差,可以通过提取长文本关键特征的方法保留关键特征,同时减少无关词语的占比。长文本的特征可以从关键子句和关键词两个方面提取。关键子句可以有效的保留文本的中心特征句和特征句子词之间的联系,关键词词组则保留了关键子句忽略的特征词语,可以作为特征的补充。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提出一种基于摘要和关键字提取加权的中长文本分类方法,分别提取文本摘要和主题词,然后进行加权拼接,加权的权重通过模型训练获得,用以更好的提取中长文本的语义特征。
[0006]基于上述目的,一方面,本专利技术提供了一种基于摘要和关键字提取加权的中长文本分类方法,其中该方法包括以下步骤:
[0007]对给定文本进行摘要的提取,得到给定文本的文本摘要;
[0008]基于训练好的语义提取模型对所述文本摘要进行全局语义特征的提取,获得全局语义向量;
[0009]对给定文本全文提取关键词,作为文本的关键词特征向量;
[0010]将语义提取模型获得的全局语义向量与关键词特征向量进行加权拼接,拼接之后的词向量融合全局的语义特征和关键词特征,并输入到全连接神经网络进行分类。
[0011]作为本专利技术的进一步方案,对给定文本进行摘要的提取时,构建文本中的词或者句子之间的图关系,得到相应文本中句子的重要度排名,得出句子中的关键子句。
[0012]作为本专利技术的进一步方案,在构建文本中的词或者句子之间的图关系时,将节点由网页改成了句子,并为节点之间的边引入权值,其中,权值表示两个句子的相似程度,构建一个带权无向图。
[0013]作为本专利技术的进一步方案,在给定文本中提取关键句时,文本中的每个句子分别看作一个节点,若两个句子有相似性,则两个句子对应的节点之间存在一条无向有权边。
[0014]作为本专利技术的进一步方案,摘要的提取步骤为:
[0015]步骤1)将给定文本拆分成一个个句子;
[0016]步骤2)利用分词工具句子进行分词,并过滤掉停用词,得到句子的分词结果;
[0017]步骤3)加载词嵌入模型,将句子的分词结果转换成词向量;
[0018]步骤4)将句子中所有的词向量求和,得到句子向量;
[0019]步骤5)利用衡量句子之间相似性的公式计算句子之间的余弦相似度,建立句子之间的相似度矩阵;
[0020]步骤6)根据权重的计算公式,迭代传播各节点的权重,直至收敛;获得句子的排名;
[0021]步骤7)选取排名靠前的句子作为文本的摘要;用作后续模型的输入。
[0022]作为本专利技术的进一步方案,对所述文本摘要进行全局语义特征的提取,包括以下步骤:
[0023]1)对提取的文本摘要,利用分词工具对给定的文本进行分词,并过滤掉停用词,得到文本的分词结果;
[0024]2)加载词嵌入模型,将1)中的分词结果转换成词向量;
[0025]3)将给定摘要对应的词向量和对应的分类类别,输入到对应的模型中进行模型训练;
[0026]4)训练好的模型得到的向量就是摘要对应的全局语义的特征。
[0027]作为本专利技术的进一步方案,对给定文本全文提取关键词时利用关键词提取模型提取,关键词提取模型包括词频和逆向文档频率两部分,词频为某一个特定的词语在该文件中出现的次数,次数被归一化,逆向文档频率用于度量一个词语的普遍重要性。
[0028]作为本专利技术的进一步方案,关键词提取模型用于关键词提取的步骤如下:
[0029]1.1)对于给定的文本全文进行分词和词性标注,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词;
[0030]1.2)通过衡量句子之间相似性的公式计算每个单词的词频和逆向文档频率值,取最优的词语作为文档的候选关键词;
[0031]1.3)将靠前的候选关键词的词频和逆向文档频率值进行归一化,作为候选关键词的权重信息;
[0032]1.4)从词嵌入模型的结果,获取靠前的候选关键词的词向量,利用权重信息对词向量进行加权求和,作为文本的关键词特征信息。
[0033]本专利技术的又一方面,还提供了一种计算机设备,包括存储器和处理器,该存储器中存储有计算机程序,该计算机程序被处理器执行时执行上述任一项根据本专利技术的基于摘要
和关键字提取加权的中长文本分类方法。
[0034]本专利技术的再一方面,还提供了一种计算机可读存储介质,存储有计算机程序指令,该计算机程序指令被执行时实现上述任一项根据本专利技术的基于摘要和关键字提取加权的中长文本分类方法。
[0035]本专利技术至少具有以下有益技术效果:
[0036]本专利技术建立了一种基于文本摘要抽取和主题词抽取进行中长文本分类的方法。分别提取文本摘要和主题词,然后进行加权拼接,加权的权重通过模型训练获得,用以更好的提取中长文本的语义特征。在训练阶段,首先,利用Text Rank算法,提取文本摘要,随后将文本摘要数据集训练BiLSTM分类模型,得到BiLSTM层的输出即为文本的全局语义的特征向量;同时利用LDA算法,提取文本的关键词,加载GloVe词嵌入模型将提权的关键词转换为关键词向量;随后将全局语义的特征向量和关键词向量进行加权拼接,输入到全连接神经网络进行分类模型的训练,特征向量和关键词向量的加权权重在训练的过程中获得。在测试阶段,利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于摘要和关键字提取加权的中长文本分类方法,其特征在于,包括以下步骤:对给定文本进行摘要的提取,得到给定文本的文本摘要;基于训练好的语义提取模型对所述文本摘要进行全局语义特征的提取,获得全局语义向量;对给定文本全文提取关键词,作为文本的关键词特征向量;将语义提取模型获得的全局语义向量与关键词特征向量进行加权拼接,拼接之后的词向量融合全局的语义特征和关键词特征,并输入到全连接神经网络进行分类。2.根据权利要求1所述的基于摘要和关键字提取加权的中长文本分类方法,其特征在于,对给定文本进行摘要的提取时,构建文本中的词或者句子之间的图关系,得到相应文本中句子的重要度排名,得到句子中的关键子句。3.根据权利要求2所述的基于摘要和关键字提取加权的中长文本分类方法,其特征在于,在构建文本中的词或者句子之间的图关系时,将节点由网页改成句子,并为节点之间的边引入权值以构建一个带权无向图;其中,权值表示两个句子的相似程度。4.根据权利要求3所述的基于摘要和关键字提取加权的中长文本分类方法,其特征在于,在给定文本中提取关键句时,文本中的每个句子分别看作一个节点,若两个句子具有相似性,则两个句子对应的节点之间存在一条无向有权边。5.根据权利要求1所述的基于摘要和关键字提取加权的中长文本分类方法,其特征在于,摘要的提取步骤为:将给定文本拆分成单个句子;利用分词工具句子进行分词,并过滤掉停用词,得到句子的分词结果;加载词嵌入模型,将句子的分词结果转换成词向量;将句子中所有的词向量求和,得到句子向量;利用衡量句子之间相似性的公式计算句子之间的余弦相似度,建立句子之间的相似度矩阵;根据权重的计算公式,迭代传播各节点的权重,直至...

【专利技术属性】
技术研发人员:陈静静王凛张旭孙华锦
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1