【技术实现步骤摘要】
本专利技术涉及文本主题识别,具体为基于sao结构的科技文本主题识别与聚类筛选方法及系统。
技术介绍
1、在科技文本主题识别与聚类筛选的领域中,传统方法多依赖于基本的文本处理技术,如关键词匹配和基础统计方法。这些方法虽然在处理简单任务时有效,但面对大规模、高维度和多样性的数据时常常显得力不从心。
2、传统方法的主要缺点包括:准确性不足,无法深入理解文本的语义结构,导致主题识别和分类的准确性不足。适应性差,对新领域或多样化的文本数据适应性差,难以应对快速变化的科技文本特点。效率低下,处理大规模数据时,效率低下,难以满足实时或大规模的数据处理需求。
3、因此亟需一种基于sao结构的科技文本主题识别与聚类筛选方法。深入挖掘文本的语义关系,提高主题识别和聚类的准确性。
技术实现思路
1、鉴于上述存在的问题,提出了本专利技术。
2、因此,本专利技术解决的技术问题是:现有的传统文本处理和主题识别方法存在准确性不足、适应性差、效率低下,以及如何深入理解文本语义并有效处理
...【技术保护点】
1.基于SAO结构的科技文本主题识别与聚类筛选方法,其特征在于,包括:
2.如权利要求1所述的基于SAO结构的科技文本主题识别与聚类筛选方法,其特征在于:所述初步筛选科技文本包括对文本进行TF-IDF计算,选择TF-IDF值大于预设阈值的词作为特征,使用所选特征构建文档的特征向量,训练朴素贝叶斯分类模型识别科技文本和非科技文本。
3.如权利要求2所述的基于SAO结构的科技文本主题识别与聚类筛选方法,其特征在于:所述TF-IDF计算表示为,
4.如权利要求3所述的基于SAO结构的科技文本主题识别与聚类筛选方法,其特征在于:所述提取SA
...【技术特征摘要】
1.基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于,包括:
2.如权利要求1所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于:所述初步筛选科技文本包括对文本进行tf-idf计算,选择tf-idf值大于预设阈值的词作为特征,使用所选特征构建文档的特征向量,训练朴素贝叶斯分类模型识别科技文本和非科技文本。
3.如权利要求2所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于:所述tf-idf计算表示为,
4.如权利要求3所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于:所述提取sao结构表示为,
5.如权利要求4所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在于:所述提取sao结构包括从已筛选的科技文本中构建特征矩阵x,采用依存句法分析技术对每个句子进行分析,得到句子中各词语的依存关系,使用深度学习方法优化依存句法分析技术,表示为h(l+1);根据依存关系标签和词性标签从依存句法树中识别和提取sao结构,利用算法对每个句子的依存句法树进行遍历,识别出所有主体-动作-客体组合,采用统计方法对提取出的sao组合进行频率分析,表示为sij,若sij大于预设阈值,确定高频组合为正确的结构;对提取的sao结构应用语义角色标注技术,采用srl分析主体、动作和客体的语义一致性;对于每个文档,通过crf模型p(y∣s),为sao结构分配语义角色;使用自然语言处理技术分析提取的sao结构与文档整体的语义一致性,识别文档中的关键概念和上下文信息,利用一致性评分评估语义角色标注的结果与文档主题的匹配度。
6.如权利要求5所述的基于sao结构的科技文本主题识别与聚类筛选方法,其特征在...
【专利技术属性】
技术研发人员:林正平,杨宇亮,石嘉豪,周育忠,胡玉峰,
申请(专利权)人:南方电网科学研究院有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。