一种基于情感词典和制造技术

技术编号：39859919 阅读：5 留言：0更新日期：2023-12-30 12:55

本发明专利技术公开一种基于情感词典和

全部详细技术资料下载

【技术实现步骤摘要】
一种基于情感词典和LDA主题模型的用户需求计算方法

[0001]本专利技术属于自然语言处理领域
。

技术介绍

[0002]用户需求分析是企业确定产品设计方向的首要任务，如何快速识别用户需求是企业提升自己产品竞争优势的重要工作
。
传统获取用户需求的方式主要有问卷
、
访谈等方式，耗时耗力且效率低下
。
随着互联网的发展，越来越多的用户倾向于在公开网站上发表自己对产品的观点，因此网络评论成为企业挖掘用户需求的重要信息源
。
[0003]近年来，中国新能源汽车的发展，已经成为了引领中国汽车市场发展的强大动力，越来越多的用户也开始选择新能源汽车
。
相关企业基于用户需求进行产品设计才能在市场竞争中取得优势
。
因此，本文以新能源汽车领域为例进行用户需求分析
。
[0004]基于用户评论挖掘进行需求分析的主要任务主要是情感分析和属性抽取
。
情感分析又称情感挖掘
、
意见挖掘，是对文本进行处理
、
分析
、
归纳并推理，得出文本的情感色彩的过程
。
对于情感分析，有基于规则和统计学习的方法两种类别
。
基于规则的方法，一般由人工定义的规则库和情感词典组成，此种方法受人工影响较大；基于统计学习的方法，一般是将评论经词向量模型进行文本向量化，这种方法的准确率受文本向量化方式的影响很大，且语句的文本向量化会忽略其中某些...

【技术保护点】

【技术特征摘要】
1.
一种基于情感词典和
LDA
主题模型的用户需求计算方法，包括以下步骤：步骤1：用户评论预处理；利用中文分词工具
jieba
进行评论的分词处理，为识别评论中的专有名词，构建专有名词分词库和停用词表去除评论中的停用词，得到文本特征；步骤2：情感特征词筛选；以知网
Hownet
情感词典为主，选择评论语料中的情感积极词汇
、
情感消极词汇和否定词汇进行情感词的筛选；抽取出筛选后数据集中出现次数满足最小支持度的所有项集，得到情感特征；最小支持度的定义表达式为：其中，
|D|
表示数据集中的项集总数，
σ
x
表示数据集中包含
x
的项集数；步骤3：融合文本向量和情感特征向量；步骤
3.1
：采用
Word2vec
对文本特征进行向量化处理，得到文本向量
S
w
＝
(w1,w2...,w
n
)
，采用
FastText
对情感特征进行向量化处理，得到情感向量
S
e
＝
(e1,e2...,e
m
)
；步骤
3.2
：向量融合；采取向量拼接的方式，将文本向量和情感向量进行拼接，得到拼接后向量
S
；
S
＝
S
w
+S
e
＝
(w1,w2...,w
n
,e1,e2...,e
m
)
；步骤4：采用逻辑回归分类模型对步骤3融合后的向量进行评论情感极性的分类；步骤5：基于词性的
LDA
评论主题挖掘，
LDA
表示隐含狄利克雷分布；步骤
5.1
：词性分析；利用
jieba
分词工具对部分评论语料进行分词和词性标注，并去除停用词，分析用户在评论中所用到的属性词的词性特点，筛选名词和动词构成新的词集进行聚类分析；步骤
5.2
：主题数目确定
n
；利用主题连贯性确定产品属性主题数目；基于滑动窗口，在每一个主题内成对的词上基于归一化点态互信息
NPMI
计算确认度，即用从语料库计算的概率来量化词与词之间的支持程度；
NPMI
计算公式为：其中，
W'
和
W
*
是每个主题前
n
个最重要的单词组成的集合的分割，
P(W',W
*
)
表示
W'
和
W
*
出现的概率，
ε
为固定的常数；计算出每个可能
n
值对应的
NPMI
，最大的
NPMI
对应的
n
为主题数目；步骤
5.3
：采取
LDA
主题模型对步骤
5.1
过滤后的词语进行主题抽取，得到用户的产品需求；
LDA
主题模型分解为文档
‑
主题
、
主题
‑
词语两个过程；
(1)
文档的主题分布从基于超参数的狄利克雷
Dirichlet
先验中采样得到，之后通过多项式
Multi
分布产生一个潜在主题，因此文档
‑
主题过程通过
Dirichlet
‑
Multinomial
结构生成：
其中，表示文档集合中每个文档的潜在主题变量的先验分布的超参数，表示超参数的狄利克雷
Dirichlet
先验，
z
m,n
表示第
m
...

【专利技术属性】
技术研发人员：李波，刘婷，李辉，曾洪，王海洋，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人