一种基于Word2Vec的企业舆情数据分析方法技术

技术编号:27318114 阅读:27 留言:0更新日期:2021-02-10 09:54
本发明专利技术公开了一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集整理步骤、确定情感词典步骤和得出结论步骤,本发明专利技术方法通过Word2Vec扩充情感词典,并结合词频、文本长度和阅读量有效的分析文本情绪倾向,避免了未考虑文本长度和文本阅读量对分析情感倾向的影响。此外,本发明专利技术创造性地提出了一种基于Word2Vec的企业舆情数据分析方法,用于分析企业的舆论的情绪倾向,从而帮助企业或管理人员有效的分析舆情,进而避免品牌和客户信任危机。机。机。

【技术实现步骤摘要】
一种基于Word2Vec的企业舆情数据分析方法


[0001]本专利技术涉及自然语言处理的
,具体是一种基于Word2Vec的企业舆情数据分析方法。

技术介绍

[0002]随着互联网应用的普及与发展,以及微博等新兴媒体的崛起,舆情的呈现多渠道、传播快和范围广等特点,为企业管理带来了新的挑战。负面舆情不仅会使得企业品牌受损和客户信任下降,更会给企业带来经济损失。因此,如何在海量的信息中分析企业舆情,及时扭转舆论风向,就变得尤为重要。
[0003]目前,随着人工智能的兴起和微博等平台的数据积累,催生出使自然语言模型进行舆论情感预测,从而检测企业互联网舆情。因此如何有效的将企业的新闻和评论文本进行分析,从中分析舆论情感值,是十分具有实际意义。

技术实现思路

[0004]本专利技术的目的在于提供一种基于Word2Vec的企业舆情数据分析方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Word2Vec的企业舆情数据分析方法,包括如下步骤:收集整理步骤、确定情感词典步骤和得出结论步骤;具体为,步骤1,收集整理步骤:定义文本训练集合停用词,并对文本数据集中每个中文文本分词和过滤停用词进行预处理,得到预处理后的文本训练集;步骤2,确定情感词典步骤:定义情感词典,并通过Word2Vec对预处理的文本集训练,结合余弦相似度算法对情感词典未收录的词补充,得到扩充情感词典;步骤3,得出结论步骤:通过扩充的情感词典和改进的情感词典计算方法,计算预处理后文本集的情感值,得到企业舆论的情感值。2.根据权利要求1所述的一种基于Word2Vec的企业舆情数据分析方法,其特征在于,步骤1中,包括步骤1.1:定义文本数据Txt={txt1,txt2,
……
,txt
num
},其中,num为文本总数;步骤1.2:定义文本停用词集S={st1,st2,
……
,st
sn
},其中,sn为停用词数量;步骤1.3:对Txt中文本分词并过滤停用词S,文本预处理后得ft={ft1,ft2,
……
,ft
num
},其中ft
p
={fw1,fw2,
……
,fw
m
}为第p篇文本分词后的集合,p∈[1,num]。3.根据权利要求2所述的一种基于Word2Vec的企业舆情数据分析方法,其特征在于,步骤2中,包括步骤2.1:定义初始情感词典,包含情感词集ew={ew1,ew2,
……
...

【专利技术属性】
技术研发人员:瞿学新陈劲
申请(专利权)人:上海品见智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1