新闻文本关键词抽取方法技术

技术编号：39412974 阅读：9 留言：0更新日期：2023-11-19 16:04

本发明专利技术提供了一种新闻文本关键词抽取方法

全部详细技术资料下载

【技术实现步骤摘要】
新闻文本关键词抽取方法、装置、计算机设备和存储介质

[0001]本专利技术涉及自然语言处理
，具体涉及一种新闻文本关键词抽取方法
、
装置
、
计算机设备和存储介质
。

技术介绍

[0002]关键词抽取方法能够从文档中抽取重要的关键词语，使读者可以迅速获知文档的核心内容，因此被广泛应用于信息检索
、
文本分类和文本聚类等领域
。
目前常用的新闻关键词抽取算法可以分为3种：有监督提取方法
、
半监督提取方法
、
无监督提取方法
。
无监督的提取方法是近年来的研究重点
。
[0003]常用的无监督提取方法有基于统计的方法
、
基于网络图的方法
、
基于主题模型的方法
。TextRank
算法利用词语构造的网络图发掘词语之间的联系程度进行打分，根据分数排序提取出关键词
。TextRank
算法的效果优于传统的
TF
‑
IDF
方法，并且实现简单，不需要人工标注样本，可以直接针对单篇新闻进行关键词抽取，因此得到了广泛的应用
。
但该方法虽然在一定程度上利用了文档的结构信息，但对语义信息的利用不足，该算法存在同时将多个语义相近的词，例如，“广州”和“广州市”，均作为关键词的情况
。
因此，该方法抽取的关键词准确性也不足，无法充分体现文档主题，不利于分析
>。

技术实现思路

[0004]因此，为了克服上述现有技术的缺点，本专利技术提供一种提高了关键词抽取的准确性，更能体现待抽取文本的主题信息，区分性更强的新闻文本关键词抽取方法
、
装置
、
计算机设备和存储介质
。
[0005]为了实现上述目的，本专利技术提供一种新闻文本关键词抽取方法，包括：将待分析新闻文本输入预先训练的词法分析模型，得到与所述待分析新闻文本的语句对应的第一分词结果，所述第一分词结果包含第一分词和第一词性标注；根据词性组合
、
词频
、
信息熵对处于相邻位置的所述第一分词进行合并生成组合新词，并将所述组合新词输入所述词法分析模型，得到与所述待分析新闻文本的语句对应的第二分词结果；根据非单字的动词
、
名词
、
形容词及所述组合新词构建语义相似度网络；采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现，从所述节点中筛选出候选关键词，并构建候选关键词集合；根据所述候选关键词的属性信息生成所述候选关键词的重要性评分；基于所述候选关键词集合以及所述重要性评分构建词图网络，所述候选关键词为所述词图网络的节点；采用
TextRank
算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词
。
[0006]在其中一个实施例中，所述根据词性组合
、
词频
、
信息熵对处于相邻位置的所述分词进行合并生成组合新词，包括：构建一个空的候选组合词集；基于汉语言搭配研究中的两组合词
、
三组合词词性搭配原则，将符合搭配规则的两组合词或三组合词加入所述候选组合词集；根据所述候选组合词集中的词语在所述待分析新闻文本中的位置，二次合并，并将
合并后的新词加入所述候选组合词集；根据词频以及信息熵对所述候选组合词集进行筛选，得到组合新词
。
[0007]在其中一个实施例中，所述根据非单字的动词
、
名词
、
形容词及所述组合新词构建语义相似度网络，包括：根据所述待分析新闻文本对应的领域获取词向量模型；将所述动词
、
所述名词
、
所述形容词及所述组合新词代入到所述词向量模型，得到各词语的词向量标识，并计算两个词语之间的相似度；以各个词语作为语义相似度网络的节点，并根据所述相似度构建所述语义相似度网络的边，得到所述语义相似度网络
。
[0008]在其中一个实施例中，所述采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现，从所述节点中筛选出候选关键词，包括：将所述语义相似度网络中的各节点进行归属，划分多个社区；对任一节点，计算将其并入相邻的社区后整个网络的模块度值的变化值，将其并入变化值最大的社区，若计算结果为负，则不改变该节点的归属社区；直至将一个节点转移到所述语义相似度网络的另一个相邻社区，将不能带来变化值的提升为止；进行社区归并，将得到的各个社区压缩为节点，该节点对应的词语设置为候选关键词
。
[0009]在其中一个实施例中，所述根据所述候选关键词的属性信息生成所述候选关键词的重要性评分，包括：统计所述候选关键词的属性信息，所述属性信息包括词频
、
位置因子
、
词跨度
、
位置索引标准差；根据所述属性信息计算所述候选关键词的重要性评分，词频
、
位置因子
、
词跨度
、
位置索引标准差的权重系数是采用粒子群算法确定的
。
[0010]在其中一个实施例中，所述基于所述候选关键词集合以及所述重要性评分构建词图网络，包括：设置所述候选关键词作为词图网络的各节点，根据所述重要性评分以及所述候选关键词在所述待分析新闻文本中的位置计算各所述节点之间的权重系数；对所述词图网络连接所述节点的边进行归一化，得到所述节点之间的单向边权重，并构建词图网络
。
[0011]在其中一个实施例中，所述采用
TextRank
算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词，包括：根据预设公式，迭代计算各节点的评估权重，直至收敛采用；对节点的评估权重进行排序，筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词
。
[0012]本专利技术还提供了一种新闻文本关键词抽取装置，所述装置包括：第一分词模块，用于将待分析新闻文本输入预先训练的词法分析模型，得到与所述待分析新闻文本的语句对应的第一分词结果，所述第一分词结果包含第一分词和第一词性标注；第二分词模块，用于根据词性组合
、
词频
、
信息熵对处于相邻位置的所述第一分词进行合并生成组合新词，并将所述组合新词输入所述词法分析模型，得到与所述待分析新闻文本的语句对应的第二分词结果；集合构建模块，用于根据非单字的动词
、
名词
、
形容词及所述组合新词构建语义相似度网络；采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现，从所述节点中筛选出候选关键词，并构建候选关键词集合；重要性评分模块，用于根据所述候选关键词的属性信息生成所述候选关键词的重要性评分；词图网络构建本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种新闻文本关键词抽取方法，其特征在于，包括：将待分析新闻文本输入预先训练的词法分析模型，得到与所述待分析新闻文本的语句对应的第一分词结果，所述第一分词结果包含第一分词和第一词性标注；根据词性组合
、
词频
、
信息熵对处于相邻位置的所述第一分词进行合并生成组合新词，并将所述组合新词输入所述词法分析模型，得到与所述待分析新闻文本的语句对应的第二分词结果；根据非单字的动词
、
名词
、
形容词及所述组合新词构建语义相似度网络；采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现，从所述节点中筛选出候选关键词，并构建候选关键词集合；根据所述候选关键词的属性信息生成所述候选关键词的重要性评分；基于所述候选关键词集合以及所述重要性评分构建词图网络，所述候选关键词为所述词图网络的节点；采用
TextRank
算法利用所述重要性评分从所述候选关键词集合中筛选出预设数量的所述候选关键词作为待分析新闻文本的关键词
。2.
根据权利要求1所述的方法，其特征在于，所述根据词性组合
、
词频
、
信息熵对处于相邻位置的所述分词进行合并生成组合新词，包括：构建一个空的候选组合词集；基于汉语言搭配研究中的两组合词
、
三组合词词性搭配原则，将符合搭配规则的两组合词或三组合词加入所述候选组合词集；根据所述候选组合词集中的词语在所述待分析新闻文本中的位置，二次合并，并将合并后的新词加入所述候选组合词集；根据词频以及信息熵对所述候选组合词集进行筛选，得到组合新词
。3.
根据权利要求1所述的方法，其特征在于，所述根据非单字的动词
、
名词
、
形容词及所述组合新词构建语义相似度网络，包括：根据所述待分析新闻文本对应的领域获取词向量模型；将所述动词
、
所述名词
、
所述形容词及所述组合新词代入到所述词向量模型，得到各词语的词向量标识，并计算两个词语之间的相似度；以各个词语作为语义相似度网络的节点，并根据所述相似度构建所述语义相似度网络的边，得到所述语义相似度网络
。4.
根据权利要求1所述的方法，其特征在于，所述采用社区发现算法将所述语义相似度网络中的各节点作为社区进行社区发现，从所述节点中筛选出候选关键词，包括：将所述语义相似度网络中的各节点进行归属，划分多个社区；对任一节点，计算将其并入相邻的社区后整个网络的模块度值的变化值，将其并入变化值最大的社区，若计算结果为负，则不改变该节点的归属社区；直至将一个节点转移到所述语义相似度网络的另一个相邻社区，将不能带来变化值的提升为止；进行社区归并，将得到的各个社区压缩为节点，该节点对应的词语设置为候选关键词
。5.
根据权利要求1所述的方法，其特征在于，所述根据所述候选...

【专利技术属性】
技术研发人员：郭行飞，刘永丹，孙太风，
申请(专利权)人：中新宽维传媒科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人