一种小样本评论数据驱动的产品关键用户需求挖掘方法技术

技术编号:36690723 阅读:20 留言:0更新日期:2023-02-27 19:57
本发明专利技术公开了一种小样本评论数据驱动的产品关键用户需求挖掘方法,首先使用爬虫工具从电商网站中获取产品的用户评论,建立初始用户评论数据集;然后对初始用户评论数据集做预处理,得到产品用户评论数据集;接下来基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集;再对主题用户评论数据集进行二次处理;最后基于ISIFRank(Improved SIFRank)模型进行关键产品信息短语提取,建立关键用户需求集。本发明专利技术的最终结果以关键用户需求集的方式呈现,产品设计与决策的相关人员均可从中获取支持自身工作的参考信息。均可从中获取支持自身工作的参考信息。均可从中获取支持自身工作的参考信息。

【技术实现步骤摘要】
一种小样本评论数据驱动的产品关键用户需求挖掘方法


[0001]本专利技术属于数据挖掘
,具体涉及一种产品关键用户需求挖掘方法。

技术介绍

[0002]在现代市场激烈的竞争条件下,随着消费者的需求不断变化,新型产品也随之层出不穷。为了提高新型产品的竞争力,企业需要根据用户需求开展产品的迭代升级。随着互联网的发展,越来越多的用户在购物网站上发表评论意见,反馈关于产品的使用感受,这些评论最终产生了大量的文本,包含丰富的潜在可用信息,可以为产品迭代升级提供可靠信息来源。
[0003]用户评论数据的介入超越了有限样本统计预测和估计能达到的范围,通过用户评论的采集、管理和挖掘,能够有效地将用户的感性信息和需求量化,以此驱动产品的迭代创新,也为工业设计提供了新的模式和方法。从产品角度来看,“产品

评论数据

产品”的创新设计模式是将用户评论数据作为产品持续开发的依据,适合新型产品的迭代升级。新型产品的用户评论数据中隐藏的是用户隐性需求,在数据的驱动下,实现对关键需求的挖掘,推动产品新一轮的迭代升级。新一代产品可以持续性获得评论反馈数据,在动态的迭代循环中有效实现用户评论数据的价值。
[0004]现有的用户需求挖掘方法关注的是市场常见的产品,产品已经迭代数代,网络中存在大量用户评论用于挖掘用户需求。但是,由于新型产品投入市场时间不久、购买者基数不大等原因,不能提供庞大的数据来源,因此需要采取有效的方法分析小样本评论数据,挖掘关键用户需求,为新型产品的迭代升级提供参考。/>[0005]获取用户需求的关键技术已经从传统方法逐渐转移到应用自然语言处理技术对用户评论文本进行分析。自然语言处理技术的发展,本质上是如何更准确地表征自然语言模型的不断进化。相关技术从机器学习发展深度学习的过程中,有学者将不同的自然语言处理技术进行改进或者结合,对用户评论语义进行更全面的学习和表达,进而引进到挖掘用户需求领域进行应用研究。
[0006]针对本专利技术所关注的新型产品迭代升级过程中的用户需求挖掘问题,新产品的网络用户评论数量有限,其本身可提供给机器进行学习的信息也有限。近几年新兴的预训练语言模型,在该方面表现出优势。通过提前在海量数据的基础上学习人类语言知识,然后迁移代入到具体任务,可实现从有限的用户评论数据中挖掘有价值的信息。与此同时,预训练语言模型在产品的用户需求挖掘领域的应用仍处于探索阶段,可做新的探索性尝试,从而辅助设计师和研发人员实现人机协同下的新型产品迭代设计。

技术实现思路

[0007]为了克服现有技术的不足,本专利技术提供了一种小样本评论数据驱动的产品关键用户需求挖掘方法,首先使用爬虫工具从电商网站中获取产品的用户评论,建立初始用户评论数据集;然后对初始用户评论数据集做预处理,得到产品用户评论数据集;接下来基于
ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集;再对主题用户评论数据集进行二次处理;最后基于ISIFRank(Improved SIFRank)模型进行关键产品信息短语提取,建立关键用户需求集。本专利技术的最终结果以关键用户需求集的方式呈现,产品设计与决策的相关人员均可从中获取支持自身工作的参考信息。
[0008]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0009]步骤1:使用爬虫工具从电商网站中获取产品的用户评论,建立初始用户评论数据集;
[0010]步骤2:对初始用户评论数据集做预处理,得到用于用户评论主题聚类的产品用户评论数据集;
[0011]步骤2

1:剔除默认评价和重复评价;
[0012]步骤2

2:去除用户评论中无效的字符、空白和乱码,完成用户文本数据的清洗;
[0013]步骤2

3:识别评论中的拼写错误、词法错误、句法错误和语义错误,完成纠错;
[0014]步骤2

4:将同一实体的不同描述方式进行合并,统一使用相同实体名称;
[0015]步骤3:基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集;
[0016]步骤4:对主题用户评论数据集进行二次处理;
[0017]步骤4

1:使用THULAC工具将主题用户评论数据集的用户评论文本进行分词处理;
[0018]步骤4

2:使用NLTK工具对分词进行词性标注;
[0019]步骤4

3:根据中文用词习惯和词性匹配原则,设定8种反映用户需求的词法规则,采用正则表达式聚合得到产品信息短语,构成产品信息短语集合PIP={PIP1,PIP2,...,PIP
m
};PIP1~PIP
m
分别表示第1至第m个产品信息短语;
[0020]其中,所述设定8种反映用户需求的词法规则,包括:围绕形容词和动词设计词法规则各4种:
[0021][0022]其中,JJ为形容词,NN为名词,RB为副词,VB为动词,DT为限定词,符号表示以NLTK工具词性标注符号为基准;
[0023]步骤5:基于ISIFRank模型进行关键产品信息短语提取,建立关键用户需求集。
[0024]进一步地,所述基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集,包括:
[0025]步骤3

1:构造用户评论文本的输入向量,将用户评论文本转换为向量,送入到ERNIE模型中进行训练和学习;
[0026]用户评论文本的输入向量,包括:词嵌入、段嵌入和位置嵌入三部分融合生成用户评论文本的输入向量;
[0027]步骤3

2:基于户在线评论编码和用户评论知识整合训练用户评论文本的输入向量,获取用户评论的词向量表征;
[0028]步骤3

3:连接Softmax层,用于支持用户评论的主题聚类任务。
[0029]进一步地,所述基于用户在线评论编码和用户评论知识整合来训练用户评论文本
的输入向量,获取用户评论的词向量表征,包括:
[0030]步骤3
‑2‑
1:以双向Transformer编码器为基础单元构建预训练语言模型,Transformer编码器依靠自注意力机制为用户评论中每一个字编码上下文的信息;
[0031]步骤3
‑2‑1‑
1:通过映射矩阵W
Q
、W
K
、W
V
,该层将embedding层给出的输入向量X分别转换成输入矩阵,包括查询Q、键K和值V,具体公式为:
[0032]Q=XWQ(1)
[0033]K=XW
K
(2)
[0034]V=XW
V
(3)
[0035]步骤3
‑2‑1‑
2:通过点积对Q和K进行相似度计算得到权重;
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种小样本评论数据驱动的产品关键用户需求挖掘方法,其特征在于,包括如下步骤:步骤1:使用爬虫工具从电商网站中获取产品的用户评论,建立初始用户评论数据集;步骤2:对初始用户评论数据集做预处理,得到用于用户评论主题聚类的产品用户评论数据集;步骤2

1:剔除默认评价和重复评价;步骤2

2:去除用户评论中无效的字符、空白和乱码,完成用户文本数据的清洗;步骤2

3:识别评论中的拼写错误、词法错误、句法错误和语义错误,完成纠错;步骤2

4:将同一实体的不同描述方式进行合并,统一使用相同实体名称;步骤3:基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集;步骤4:对主题用户评论数据集进行二次处理;步骤4

1:使用THULAC工具将主题用户评论数据集的用户评论文本进行分词处理;步骤4

2:使用NLTK工具对分词进行词性标注;步骤4

3:根据中文用词习惯和词性匹配原则,设定8种反映用户需求的词法规则,采用正则表达式聚合得到产品信息短语,构成产品信息短语集合PIP={PIP1,PIP2,...,PIP
m
};PIP1~PIP
m
分别表示第1至第m个产品信息短语;其中,所述设定8种反映用户需求的词法规则,包括:围绕形容词和动词设计词法规则各4种:其中,JJ为形容词,NN为名词,RB为副词,VB为动词,DT为限定词,符号表示以NLTK工具词性标注符号为基准;步骤5:基于ISIFRank模型进行关键产品信息短语提取,建立关键用户需求集。2.根据权利要求1所述一种小样本评论数据驱动的产品关键用户需求挖掘方法,其特征在于,所述基于ERNIE模型进行用户评论主题聚类,得到若干主题用户评论数据集,包括:步骤3

1:构造用户评论文本的输入向量,将用户评论文本转换为向量,送入到ERNIE模型中进行训练和学习;用户评论文本的输入向量,包括:词嵌入、段嵌入和位置嵌入三部分融合生成用户评论文本的输入向量;步骤3

2:基于户在线评论编码和用户评论知识整合训练用户评论文本的输入向量,获取用户评论的词向量表征;步骤3

3:连接Softmax层,用于支持用户评论的主题聚类任务。3.根据权利要求2所述一种小样本评论数据驱动的产品关键用户需求挖掘方法,其特征在于,所述基于用户在线评论编码和用户评论知识整合来训练用户评论文本的输入向量,获取用户评论的词向量表征,包括:步骤3
‑2‑
1:以双向Transformer编码器为基础单元构建预训练语言模型,Transformer
编码器依靠自注意力机制为用户评论中每一个字编码上下文的信息;步骤3
‑2‑1‑
1:通过映射矩阵W
Q
、W
K
、W
V
,该层将embedding层给出的输入向量X分别转换成输入矩阵,包括查询Q、键K和值V,具体公式为:Q=XW
Q
(1)K=XW
K
(2)V=XW

【专利技术属性】
技术研发人员:丛扬帆初建杰余隋怀苏兆婧
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1