一种基于情感词典和制造技术

技术编号:39859919 阅读:5 留言:0更新日期:2023-12-30 12:55
本发明专利技术公开一种基于情感词典和

【技术实现步骤摘要】
一种基于情感词典和LDA主题模型的用户需求计算方法


[0001]本专利技术属于自然语言处理领域


技术介绍

[0002]用户需求分析是企业确定产品设计方向的首要任务,如何快速识别用户需求是企业提升自己产品竞争优势的重要工作

传统获取用户需求的方式主要有问卷

访谈等方式,耗时耗力且效率低下

随着互联网的发展,越来越多的用户倾向于在公开网站上发表自己对产品的观点,因此网络评论成为企业挖掘用户需求的重要信息源

[0003]近年来,中国新能源汽车的发展,已经成为了引领中国汽车市场发展的强大动力,越来越多的用户也开始选择新能源汽车

相关企业基于用户需求进行产品设计才能在市场竞争中取得优势

因此,本文以新能源汽车领域为例进行用户需求分析

[0004]基于用户评论挖掘进行需求分析的主要任务主要是情感分析和属性抽取

情感分析又称情感挖掘

意见挖掘,是对文本进行处理

分析

归纳并推理,得出文本的情感色彩的过程

对于情感分析,有基于规则和统计学习的方法两种类别

基于规则的方法,一般由人工定义的规则库和情感词典组成,此种方法受人工影响较大;基于统计学习的方法,一般是将评论经词向量模型进行文本向量化,这种方法的准确率受文本向量化方式的影响很大,且语句的文本向量化会忽略其中某些情感特征词的重要性

[0005]属性抽取是从用户评论中挖掘出与产品的属性特征信息

对于属性抽取,一方面,可以采用基于语法

句法的方法,这种方法依赖于构建的规则库,另一方面,通过主题建模等机器学习方法进行属性抽取,此时将评论语句包含的全部词语作为属性抽取数据集,未考虑用户评论个产品属性的词性特点

[0006]基于上述原因,本文提出:利用情感词典进行情感特征词的识别,并融合文本向量和不同模型生成的情感特征向量进行评论情感极性的分析

之后结合评论产品属性的词性特点,针对负向情感极性评价,利用基于词性的
LDA
模型进行产品属性主题挖掘,确定用户需求

[0007]本专利技术提出一种基于情感词典和
LDA
主题模型的用户需求分析方法,实现对产品评论的用户需求分析


技术实现思路

[0008]本专利技术要解决的技术问题是针对上述现有技术的不足,进行用户评论的情感分析和属性抽取,以实现用户需求分析

[0009]为了解决上述问题,本专利技术提出了一种基于情感词典和
LDA
主题模型的用户需求计算方法,包括以下步骤:
[0010]步骤1:用户评论预处理;
[0011]利用中文分词工具
jieba
进行评论的分词处理,为识别评论中的专有名词,构建专有名词分词库和停用词表去除评论中的停用词,得到文本特征;
[0012]步骤2:情感特征词筛选;
[0013]以知网
Hownet
情感词典为主,选择评论语料中的情感积极词汇

情感消极词汇和否定词汇进行情感词的筛选;抽取出筛选后数据集中出现次数满足最小支持度的所有项集,得到情感特征;最小支持度的定义表达式为:
[0014][0015]其中,
|D|
表示数据集中的项集总数,
σ
x
表示数据集中包含
x
的项集数;
[0016]步骤3:融合文本向量和情感特征向量;
[0017]步骤
3.1
:采用
Word2vec
对文本特征进行向量化处理,得到文本向量
S
w

(w1,w2...,w
n
)
,采用
FastText
对情感特征进行向量化处理,得到情感向量
S
e

(e1,e2...,e
m
)

[0018]步骤
3.2
:向量融合;
[0019]采取向量拼接的方式,将文本向量和情感向量进行拼接,得到拼接后向量
S

[0020]S

S
w
+S
e

(w1,w2...,w
n
,e1,e2...,e
m
)

[0021]步骤4:采用逻辑回归分类模型
(Logistic
回归分析
)
对步骤3融合后的向量进行评论情感极性的分类;
[0022]步骤5:基于词性的
LDA
评论主题挖掘,
LDA
表示隐含狄利克雷分布;
[0023]步骤
5.1
:词性分析;
[0024]利用
jieba
分词工具对部分评论语料进行分词和词性标注,并去除停用词,分析用户在评论中所用到的属性词的词性特点,筛选名词和动词构成新的词集进行聚类分析;
[0025]步骤
5.2
:主题数目确定
n

[0026]利用主题连贯性确定产品属性主题数目;基于滑动窗口,在每一个主题内成对的词上基于归一化点态互信息
NPMI
计算确认度,即用从语料库计算的概率来量化词与词之间的支持程度;
NPMI
计算公式为:
[0027][0028]其中,
W'

W
*
是每个主题前
n
个最重要的单词组成的集合的分割,
P(W',W
*
)
表示
W'

W
*
出现的概率,
ε
为固定的常数;计算出每个可能
n
值对应的
NPMI
,最大的
NPMI
对应的
n
为主题数目;
[0029]若两词相关联性越强,则
NPMI
值约高,即确认度约高;最后,通过算术平均值聚合点态互信息
NPMI
得到各个主题单词集合的确认度,得到最终的主题连贯性分数,主题连贯性分数越高,说明主题可解释性越强,则选定的主题数目越合适;
[0030]步骤
5.3
:采取
LDA
主题模型对步骤
5.1
过滤后的词语进行主题抽取,得到用户的产品需求;
[0031]LDA
主题模型分解为文档

主题

主题

词语两个过程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于情感词典和
LDA
主题模型的用户需求计算方法,包括以下步骤:步骤1:用户评论预处理;利用中文分词工具
jieba
进行评论的分词处理,为识别评论中的专有名词,构建专有名词分词库和停用词表去除评论中的停用词,得到文本特征;步骤2:情感特征词筛选;以知网
Hownet
情感词典为主,选择评论语料中的情感积极词汇

情感消极词汇和否定词汇进行情感词的筛选;抽取出筛选后数据集中出现次数满足最小支持度的所有项集,得到情感特征;最小支持度的定义表达式为:其中,
|D|
表示数据集中的项集总数,
σ
x
表示数据集中包含
x
的项集数;步骤3:融合文本向量和情感特征向量;步骤
3.1
:采用
Word2vec
对文本特征进行向量化处理,得到文本向量
S
w

(w1,w2...,w
n
)
,采用
FastText
对情感特征进行向量化处理,得到情感向量
S
e

(e1,e2...,e
m
)
;步骤
3.2
:向量融合;采取向量拼接的方式,将文本向量和情感向量进行拼接,得到拼接后向量
S

S

S
w
+S
e

(w1,w2...,w
n
,e1,e2...,e
m
)
;步骤4:采用逻辑回归分类模型对步骤3融合后的向量进行评论情感极性的分类;步骤5:基于词性的
LDA
评论主题挖掘,
LDA
表示隐含狄利克雷分布;步骤
5.1
:词性分析;利用
jieba
分词工具对部分评论语料进行分词和词性标注,并去除停用词,分析用户在评论中所用到的属性词的词性特点,筛选名词和动词构成新的词集进行聚类分析;步骤
5.2
:主题数目确定
n
;利用主题连贯性确定产品属性主题数目;基于滑动窗口,在每一个主题内成对的词上基于归一化点态互信息
NPMI
计算确认度,即用从语料库计算的概率来量化词与词之间的支持程度;
NPMI
计算公式为:其中,
W'

W
*
是每个主题前
n
个最重要的单词组成的集合的分割,
P(W',W
*
)
表示
W'

W
*
出现的概率,
ε
为固定的常数;计算出每个可能
n
值对应的
NPMI
,最大的
NPMI
对应的
n
为主题数目;步骤
5.3
:采取
LDA
主题模型对步骤
5.1
过滤后的词语进行主题抽取,得到用户的产品需求;
LDA
主题模型分解为文档

主题

主题

词语两个过程;
(1)
文档的主题分布从基于超参数的狄利克雷
Dirichlet
先验中采样得到,之后通过多项式
Multi
分布产生一个潜在主题,因此文档

主题过程通过
Dirichlet

Multinomial
结构生成:
其中,表示文档集合中每个文档的潜在主题变量的先验分布的超参数,表示超参数的狄利克雷
Dirichlet
先验,
z
m,n
表示第
m
...

【专利技术属性】
技术研发人员:李波刘婷李辉曾洪王海洋
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1