一种基于方面词的主语义分析方法及系统技术方案

技术编号:36988607 阅读:8 留言:0更新日期:2023-03-25 18:06
本发明专利技术公开了一种基于方面词的主语义分析方法及系统,涉及人工智能领域,所述方法包括:通过获得预设文本的基本特征信息,并确定目标主题;采集目标主题的文本信息并组成目标文本集;分析构建方面词集;遍历得到预设文本的预设方面词集;对预设方面词集进行聚类得到预设方面词类别集;提取预设方面词类别集中任意一个预设方面词类别,并统计任意一个预设方面词类别的出现总次数;对出现总次数降序处理,得到预设方面词类别列表;根据预设方面词类别列表得到主语义分析结果。解决了现有技术在对文本主语义进行分析时忽略方面词含义分析,文本分析速度慢、语义结果不准确,甚至偏离文本主语义的问题。达到了提高文本主语义分析准确率的效果。准确率的效果。准确率的效果。

【技术实现步骤摘要】
一种基于方面词的主语义分析方法及系统


[0001]本专利技术涉及人工智能领域,尤其涉及一种基于方面词的主语义分析方法及系统。

技术介绍

[0002]随着计算机技术的快速发展,产生了大量的电子文本数据。在实际工作或生活中,用户根据需要在网络可以快速搜索到大量相关的文本信息,由于时间限制等实际情况,用户需要快速了解搜索结果中各个文本信息的主要含义和表达的中心思想,此时通过人工依次查看筛选并确定所需文本需要花费大量时间,从而导致用户处理工作等任务的效率不高。现有技术通过计算机技术进行文本主语义的智能分析时,存在分析速度慢,分析结果与文本实际表达存在偏差,甚至背离文本主语义的问题。传统的NLP技术中有“概念”和概念的“属性”两种词型,其中所有修饰概念的量都称为“属性”。其中,修饰概念的量分为两类:一类是可测量、可感知、可取值、可比较的量。另一类是用一个概念来修饰另一个概念,前者是后者的某个方面,故称为“方面”词。举例如,“行动计划”中的计划,“财务报表”中的报表,“放假通知”中的通知,以及“竞争形势”中的形势等。方面词是计算机分析文本的重要渠道,针对某一主题,人工分析确定主题相关方面词供计算机智能分析使用,通过计算机统计处理方面词信息,最终快速确定文本的主语义,对于提高文本语义分析效率和分析准确率具有重要意义。
[0003]然而,现有技术通过传统技术进行文本的主语义分析,传统的NLP技术很重视概念词本身,但对修饰概念的方面词重视不够,由于忽略了对方面词含义的分析,使得现有技术中的文本语义分析结果存在不准确、速度慢的技术问题。

技术实现思路

[0004]本专利技术的目的是提供一种基于方面词的主语义分析方法及系统,用以解决现有技术中在对文本的主语义进行分析时忽略了对方面词含义的分析,进而使得文本语义分析结果存在不准确、速度慢的技术问题。
[0005]鉴于上述问题,本专利技术提供了一种基于方面词的主语义分析方法及系统。
[0006]第一方面,本专利技术提供了一种基于方面词的主语义分析方法,所述方法通过一种基于方面词的主语义分析系统实现,其中,所述方法包括:通过获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;采集所述目标主题的文本信息,并组成目标文本集;对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;对所述预设方面词集进行聚类分析得到预设方面词类别集;提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;对所述出现总次数进行降序处理,得到预设方面词类别列表;根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。
[0007]第二方面,本专利技术还提供了一种基于方面词的主语义分析系统,用于执行如第一
方面所述的一种基于方面词的主语义分析方法,其中,所述系统包括:确定模块:所述确定模块用于获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;组成模块:所述组成模块用于采集所述目标主题的文本信息,并组成目标文本集;构建模块:所述构建模块用于对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;第一得到模块:所述第一得到模块用于基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;第二得到模块:所述第二得到模块用于对所述预设方面词集进行聚类分析得到预设方面词类别集;第三得到模块:所述第三得到模块用于提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;第四得到模块:所述第四得到模块用于对所述出现总次数进行降序处理,得到预设方面词类别列表;第五得到模块:所述第五得到模块用于根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。
[0008]本专利技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:通过获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;采集所述目标主题的文本信息,并组成目标文本集;对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;对所述预设方面词集进行聚类分析得到预设方面词类别集;提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;对所述出现总次数进行降序处理,得到预设方面词类别列表;根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。通过分析确定预设文本的目标主题,并基于大数据对目标主题进行搜索遍历,得到目标主题相关的文本信息,实现了为后续分析确定目标主题的方面词集提供基础的技术目标。通过基于方面词集对预设文本遍历分析,得到预设方面词集,实现了为后续分析预设文本的主语义提供数据基础的技术目标。通过对预设方面词类别集中的各个预设方面词类别依次进行分析和统计,得到用于分析预设文本主语义的方面词,基于对方面词所含语义的分析,实现了对概念词的多角度分析目标,通过提高文本主语义分析全面性达到了提高文本主语义分析的效率和准确率的技术效果。
[0009]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0010]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0011]图1为本专利技术一种基于方面词的主语义分析方法的流程示意图;图2为本专利技术一种基于方面词的主语义分析方法中组建方面词集的流程示意图;图3为本专利技术一种基于方面词的主语义分析方法中将目标方面词添加至预设方面词集的流程示意图;
图4为本专利技术一种基于方面词的主语义分析方法中对预设方面词类别集进行调整的流程示意图;图5为本专利技术一种基于方面词的主语义分析系统的结构示意图。
[0012]附图标记说明:确定模块M100,组成模块M200,构建模块M300,第一得到模块M400,第二得到模块M500,第三得到模块M600,第四得到模块M700,第五得到模块M800。
具体实施方式
[0013]本专利技术通过提供一种基于方面词的主语义分析方法及系统,解决了现有技术中在对文本的主语义进行分析时忽略了对方面词含义的分析,进而使得文本语义分析结果存在不准确、速度慢的技术问题。达到了提高文本主语义分析的效率和准确率的技术效果。
[0014]本专利技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0015]下面,将参考附图对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于方面词的主语义分析方法,其特征在于,包括:获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题;采集所述目标主题的文本信息,并组成目标文本集;对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集;基于所述方面词集对所述预设文本进行遍历,得到所述预设文本的预设方面词集;对所述预设方面词集进行聚类分析得到预设方面词类别集;提取所述预设方面词类别集中任意一个预设方面词类别,并统计得到所述任意一个预设方面词类别的出现总次数;对所述出现总次数进行降序处理,得到预设方面词类别列表;根据所述预设方面词类别列表,得到所述预设文本的主语义分析结果。2.根据权利要求1所述的主语义分析方法,其特征在于,在所述获得预设文本的基本特征信息,并根据所述基本特征信息确定目标主题之前,还包括:获得所述预设文本的摘选来源;获得所述预设文本的撰写用户,并分析确定所述撰写用户的撰写身份;获得所述预设文本的总体字数;基于所述摘选来源、所述撰写身份、所述总体字数,组成所述基本特征信息。3.根据权利要求1所述的主语义分析方法,其特征在于,所述对所述目标文本集进行分析,并根据分析结果构建所述目标主题的方面词集,包括:获得预设停用词;基于所述预设停用词对所述目标文本集进行遍历,得到目标文本停用词;获得剔除指令,并根据所述剔除指令剔除所述目标文本集中的所述目标文本停用词,得到剔除结果;对所述剔除结果进行关键词提取,并根据提取结果组建所述方面词集。4.根据权利要求3所述的主语义分析方法,其特征在于,所述对所述剔除结果进行关键词提取,并根据提取结果组建所述方面词集之后,还包括:提取所述方面词集中的目标方面词;将所述目标方面词在所述预设文本中遍历,得到目标遍历结果;判断所述目标遍历结果是否满足预设结果;若所述目标遍历结果满足所述预设结果,获得第一添加指令;根据所述第一添加指令,将所述目标方面...

【专利技术属性】
技术研发人员:宋永生王楠徐家威
申请(专利权)人:文灵科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1