基于SAO结构的科技文本主题识别与聚类筛选方法及系统技术方案

技术编号:41717352 阅读:31 留言:0更新日期:2024-06-19 12:44
本发明专利技术公开了基于SAO结构的科技文本主题识别与聚类筛选方法及系统,涉及文本主题识别技术领域,包括:对数据库中的文本进行收集,基于机器学习分类模型初步筛选科技文本,进行数据预处理;对科技文本利用依存句法分析技术提取SAO结构,优化SAO提取的规则和方法;将提取的SAO结构转化为特征向量,将特征向量输入到LDA模型中,训练模型识别文本的潜在主题,根据训练结果调整模型参数;从LDA模型中提取文本的主题分布作为特征,将文本的主题分布特征输入到K‑means聚类算法中,进行文本聚类。本发明专利技术提供的基于SAO结构的科技文本主题识别与聚类筛选方法更准确地识别和聚类文本主题,具有更好的泛化能力。

【技术实现步骤摘要】

本专利技术涉及文本主题识别,具体为基于sao结构的科技文本主题识别与聚类筛选方法及系统。


技术介绍

1、在科技文本主题识别与聚类筛选的领域中,传统方法多依赖于基本的文本处理技术,如关键词匹配和基础统计方法。这些方法虽然在处理简单任务时有效,但面对大规模、高维度和多样性的数据时常常显得力不从心。

2、传统方法的主要缺点包括:准确性不足,无法深入理解文本的语义结构,导致主题识别和分类的准确性不足。适应性差,对新领域或多样化的文本数据适应性差,难以应对快速变化的科技文本特点。效率低下,处理大规模数据时,效率低下,难以满足实时或大规模的数据处理需求。

3、因此亟需一种基于sao结构的科技文本主题识别与聚类筛选方法。深入挖掘文本的语义关系,提高主题识别和聚类的准确性。


技术实现思路

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术解决的技术问题是:现有的传统文本处理和主题识别方法存在准确性不足、适应性差、效率低下,以及如何深入理解文本语义并有效处理大规模数据的优化问题本文档来自技高网...

【技术保护点】

1.基于SAO结构的科技文本主题识别与聚类筛选方法,其特征在于,包括:

2.如权利要求1所述的基于SAO结构的科技文本主题识别与聚类筛选方法,其特征在于:所述初步筛选科技文本包括对文本进行TF-IDF计算,选择TF-IDF值大于预设阈值的词作为特征,使用所选特征构建文档的特征向量,训练朴素贝叶斯分类模型识别科技文本和非科技文本。

3.如权利要求2所述的基于SAO结构的科技文本主题识别与聚类筛选方法,其特征在于:所述TF-IDF计算表示为,

4.如权利要求3所述的基于SAO结构的科技文本主题识别与聚类筛选方法,其特征在于:所述提取SAO结构表示为,...

【技术特征摘要】

1.基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于,包括:

2.如权利要求1所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于:所述初步筛选科技文本包括对文本进行tf-idf计算,选择tf-idf值大于预设阈值的词作为特征,使用所选特征构建文档的特征向量,训练朴素贝叶斯分类模型识别科技文本和非科技文本。

3.如权利要求2所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于:所述tf-idf计算表示为,

4.如权利要求3所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于:所述提取sao结构表示为,

5.如权利要求4所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于:所述提取sao结构包括从已筛选的科技文本中构建特征矩阵x,采用依存句法分析技术对每个句子进行分析,得到句子中各词语的依存关系,使用深度学习方法优化依存句法分析技术,表示为h(l+1);根据依存关系标签和词性标签从依存句法树中识别和提取sao结构,利用算法对每个句子的依存句法树进行遍历,识别出所有主体-动作-客体组合,采用统计方法对提取出的sao组合进行频率分析,表示为sij,若sij大于预设阈值,确定高频组合为正确的结构;对提取的sao结构应用语义角色标注技术,采用srl分析主体、动作和客体的语义一致性;对于每个文档,通过crf模型p(y∣s),为sao结构分配语义角色;使用自然语言处理技术分析提取的sao结构与文档整体的语义一致性,识别文档中的关键概念和上下文信息,利用一致性评分评估语义角色标注的结果与文档主题的匹配度。

6.如权利要求5所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在...

【专利技术属性】
技术研发人员:林正平杨宇亮石嘉豪周育忠胡玉峰
申请(专利权)人:南方电网科学研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1