文本数据的舆情分析方法及装置、电子设备和存储介质制造方法及图纸

技术编号:33032265 阅读:58 留言:0更新日期:2022-04-15 09:09
本申请实施例提供了一种文本数据的舆情分析方法及装置、电子设备和存储介质,所述方法包括:从待分析的第一文本数据中获取第二文本数据;对所述第二文本数据进行句向量特征的提取,并基于所述句向量特征对所述第二文本数据进行话题分析;对所述第二文本进行词向量特征的提取,并基于所述词向量特征对所述第二文本数据进行情感分析;以及结合话题分析的结果和情感分析的结果对所述第一文本数据进行舆情分析。上述方案解决了现有技术中只进行单一的情感分析或者话题分析,导致分析不够全面的问题。问题。问题。

【技术实现步骤摘要】
文本数据的舆情分析方法及装置、电子设备和存储介质


[0001]本申请涉及数据处理
,特别是涉及一种文本数据的舆情分析方法及装置、电子设备和存储介质。

技术介绍

[0002]进入互联网时代后,网上每天产生大量的文本数据,像微博、游戏聊天等社交平台,因其操作简捷、内容短小随意、实时性强而吸引了越来越多的用户。海量信息为人们带来巨大信息量的同时,也带来了信息爆炸的负面影响。如何利用这些实时文本迅速有效掌握信息,了解舆论导向,成为了近年来的热点研究方向之一。
[0003]目前,主要的舆情分析方法以情感分析或话题分析为主,其中,情感分析采用有监督学习进行分类,话题分析采用有监督学习、无监督学习。但目前都是只进行单一的情感分析或者话题分析,导致分析不够全面,例如话题分析准确率低且用时长,并且还需要提前指定聚类簇数,导致存在一定的局限性。

技术实现思路

[0004]本申请实施例的目的在于提供一种文本数据的舆情分析方法及装置、电子设备和存储介质,以解决现有技术中只进行单一的情感分析或者话题分析,导致分析不够全面的问题,具体技术方案如下:
[0005]在本申请实施的第一方面,首先提供了一种文本数据的舆情分析方法,包括:从待分析的第一文本数据中获取第二文本数据;对所述第二文本数据进行句向量特征的提取,并基于所述句向量特征对所述第二文本数据进行话题分析;对所述第二文本进行词向量特征的提取,并基于所述词向量特征对所述第二文本数据进行情感分析;以及结合话题分析的结果和情感分析的结果对所述第一文本数据进行舆情分析。
[0006]可选地,所述对所述第二文本数据进行句向量特征的提取,并基于所述句向量特征对所述第二文本数据进行话题分析,包括:对所述第二文本数据进行数据提取,得到句向量特征;对所述句向量特征进行聚类处理,得到聚类结果;过滤掉所述聚类结果中簇内文本数量少于第一预设阈值的簇;以及对过滤后的所述聚类结果进行话题分析。
[0007]可选地,所述对所述第二文本数据进行数据提取,得到句向量特征包括:对所述第二文本数据进行处理,得到所述第二文本数据的词向量特征;对所述词向量特征进行平均池化操作,得到前置句向量特征;以及对所述前置句向量特征进行主成分分析,得到所述句向量特征。
[0008]可选地,所述对所述句向量特征进行聚类处理,得到聚类结果包括:在当前存在簇中心的情况下,确定所述句向量特征与已存在的各簇中心的多个第一相似度,并从所述多个第一相似度中选择最大相似度;在所述最大相似度大于第二预设阈值的情况下,确定所述句向量特征与所述簇中心对应的簇中的最后一个句向量特征的第二相似度;以及在所述第二相似度大于第三预设阈值的情况下,将所述句向量特征放入与所述簇中心对应的簇
中。
[0009]可选地,所述方法还包括:在所述第二相似度小于或等于所述第三预设阈值的情况下,确定当前簇数是否大于或等于第四预设阈值;在所述当前簇数大于或等于所述第四预设阈值的情况下,删除所述句向量特征;以及在所述当前簇数小于所述第四预设阈值的情况下,将所述句向量特征确定为新的簇的簇中心;其中,所述聚类结果包括一个或多个所述簇。
[0010]可选地,对所述第二文本进行词向量特征的提取,并基于所述词向量特征对所述第二文本数据进行情感分析包括:对所述第二文本进行分词处理;提取分词处理后所述第二文本中各词对应的词向量特征;以及基于所述词向量特征确定所述第二文本进行情感趋势分布,其中,所述情感趋势分布用于表征各情感种类随着时间的变化。
[0011]可选地,所述基于所述词向量特征确定所述第二文本进行情感趋势分布,包括:基于词向量特征确定所述第二文本中的情感种类,其中,所述情感种类包括:负面情绪、正面情绪和中性情绪;以及建立所述情感种类与时间之间的关系,并基于所述关系确定所述情感趋势分析。
[0012]可选地,所述结合话题分析的结果和情感分析的结果对所述第一文本数据进行舆情分析,包括:确定所述情感分析的结果是否存在负面情绪,且所述负面情绪是否在所述话题分析的结果中已聚类;以及在所述情感分析的结果中已存在负面情绪,且所述负面情绪在所述话题分析的结果中已聚类的情况下,确定对应的用户并反馈与所述用户对应的标识信息。
[0013]可选地,所述从待分析的第一文本数据中获取第二文本数据,包括:基于正则表达式对所述第一文本数据进行数据清洗,得到第三文本数据;对所述第三文本数据进行分词处理,并去除分词处理后的第三文本数据中的停用词,得到第四文本数据;获取所述第四文本数据各分词结果中的词性,并基于词性对所述第四文本数据进行过滤,得到第五文本数据;以及对所述第五文本数据中包括预设白名单的内容进行过滤,得到所述第二文本数据。
[0014]在本申请实施的第二方面,还提供了一种文本数据的舆情分析装置,包括:获取模块,用于从待分析的第一文本数据中获取第二文本数据;第一处理模块,用于对所述第二文本数据进行句向量特征的提取,并基于所述句向量特征对所述第二文本数据进行话题分析;第二处理模块,用于对所述第二文本进行词向量特征的提取,并基于所述词向量特征对所述第二文本数据进行情感分析;以及分析模块,用于结合话题分析的结果和情感分析的结果对所述第一文本数据进行舆情分析。
[0015]可选地,所述第一处理模块包括:第一提取单元,用于对所述第二文本数据进行数据提取,得到句向量特征;聚类单元,用于对所述句向量特征进行聚类处理,得到聚类结果;第一过滤单元,用于过滤掉所述聚类结果中簇内文本数量少于第一预设阈值的簇;以及分析单元,用于对过滤后的所述聚类结果进行话题分析。
[0016]可选地,所述提取单元包括:处理子单元,用于对所述第二文本数据进行处理,得到所述第二文本数据的词向量特征;池化子单元,用于对所述词向量特征进行平均池化操作,得到前置句向量特征;以及分析子单元,用于对所述前置句向量特征进行主成分分析,得到所述句向量特征。
[0017]可选地,所述聚类单元包括:第一处理子单元,用于在当前存在簇中心的情况下,
确定所述句向量特征与已存在的各簇中心的多个第一相似度,并从所述多个第一相似度中选择最大相似度;第一确定子单元,用于在所述最大相似度大于第二预设阈值的情况下,确定所述句向量特征与所述簇中心对应的簇中的最后一个句向量特征的第二相似度;以及放入子单元,用于在所述第二相似度大于第三预设阈值的情况下,将所述句向量特征放入与所述簇中心对应的簇中。
[0018]可选地,所述聚类单元包括:第二确定子单元,用于在所述第二相似度小于或等于所述第三预设阈值的情况下,确定当前簇数是否大于或等于第四预设阈值;删除子单元,用于在所述当前簇数大于或等于所述第四预设阈值的情况下,删除所述句向量特征;以及第三确定子单元,用于在所述当前簇数小于所述第四预设阈值的情况下,将所述句向量特征确定为新的簇的簇中心;其中,所述聚类结果包括一个或多个所述簇。
[0019]可选地,所述第二处理模块包括:分词单元,用于对所述第二文本进行分词处理;第二提取单元,用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的舆情分析方法,其特征在于,包括:从待分析的第一文本数据中获取第二文本数据;对所述第二文本数据进行句向量特征的提取,并基于所述句向量特征对所述第二文本数据进行话题分析;对所述第二文本进行词向量特征的提取,并基于所述词向量特征对所述第二文本数据进行情感分析;以及结合话题分析的结果和情感分析的结果对所述第一文本数据进行舆情分析。2.根据权利要求1所述的方法,其特征在于,所述对所述第二文本数据进行句向量特征的提取,并基于所述句向量特征对所述第二文本数据进行话题分析,包括:对所述第二文本数据进行数据提取,得到句向量特征;对所述句向量特征进行聚类处理,得到聚类结果;过滤掉所述聚类结果中簇内文本数量少于第一预设阈值的簇;以及对过滤后的所述聚类结果进行话题分析。3.根据权利要求2所述的方法,其特征在于,所述对所述第二文本数据进行数据提取,得到句向量特征包括:对所述第二文本数据进行处理,得到所述第二文本数据的词向量特征;对所述词向量特征进行平均池化操作,得到前置句向量特征;以及对所述前置句向量特征进行主成分分析,得到所述句向量特征。4.根据权利要求2所述的方法,其特征在于,所述对所述句向量特征进行聚类处理,得到聚类结果包括:在当前存在簇中心的情况下,确定所述句向量特征与已存在的各簇中心的多个第一相似度,并从所述多个第一相似度中选择最大相似度;在所述最大相似度大于第二预设阈值的情况下,确定所述句向量特征与所述簇中心对应的簇中的最后一个句向量特征的第二相似度;以及在所述第二相似度大于第三预设阈值的情况下,将所述句向量特征放入与所述簇中心对应的簇中。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在所述第二相似度小于或等于所述第三预设阈值的情况下,确定当前簇数是否大于或等于第四预设阈值;在所述当前簇数大于或等于所述第四预设阈值的情况下,删除所述句向量特征;以及在所述当前簇数小于所述第四预设阈值的情况下,将所述句向量特征确定为新的簇的簇中心;其中,所述聚类结果包括一个或多个所述簇。6.根据权利要求2所述的方法,其特征在于,对所述第二文本进行词向量特征的提取,并基于所述词向量特征对所述第二文本数据进行情感分析包括:对所述第二文本进行分词处理;提取分词处理后所述第二文本中各词对应的词向量特征;以及基于所述词向量特征确定所述第二文本进行...

【专利技术属性】
技术研发人员:张浩静刘炎覃建策陈邦忠
申请(专利权)人:完美世界控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1