一种小样本评论数据驱动的产品关键用户需求挖掘方法技术

技术编号：36690723 阅读：37 留言：0更新日期：2023-02-27 19:57

本发明专利技术公开了一种小样本评论数据驱动的产品关键用户需求挖掘方法，首先使用爬虫工具从电商网站中获取产品的用户评论，建立初始用户评论数据集；然后对初始用户评论数据集做预处理，得到产品用户评论数据集；接下来基于ERNIE模型进行用户评论主题聚类，得到若干主题用户评论数据集；再对主题用户评论数据集进行二次处理；最后基于ISIFRank(Improved SIFRank)模型进行关键产品信息短语提取，建立关键用户需求集。本发明专利技术的最终结果以关键用户需求集的方式呈现，产品设计与决策的相关人员均可从中获取支持自身工作的参考信息。均可从中获取支持自身工作的参考信息。均可从中获取支持自身工作的参考信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种小样本评论数据驱动的产品关键用户需求挖掘方法

[0001]本专利技术属于数据挖掘
，具体涉及一种产品关键用户需求挖掘方法。

技术介绍

[0002]在现代市场激烈的竞争条件下，随着消费者的需求不断变化，新型产品也随之层出不穷。为了提高新型产品的竞争力，企业需要根据用户需求开展产品的迭代升级。随着互联网的发展，越来越多的用户在购物网站上发表评论意见，反馈关于产品的使用感受，这些评论最终产生了大量的文本，包含丰富的潜在可用信息，可以为产品迭代升级提供可靠信息来源。
[0003]用户评论数据的介入超越了有限样本统计预测和估计能达到的范围，通过用户评论的采集、管理和挖掘，能够有效地将用户的感性信息和需求量化，以此驱动产品的迭代创新，也为工业设计提供了新的模式和方法。从产品角度来看，“产品
‑
评论数据
‑
产品”的创新设计模式是将用户评论数据作为产品持续开发的依据，适合新型产品的迭代升级。新型产品的用户评论数据中隐藏的是用户隐性需求，在数据的驱动下，实现对关键需求的挖掘，推动产品新一轮...

【技术保护点】

【技术特征摘要】
1.一种小样本评论数据驱动的产品关键用户需求挖掘方法，其特征在于，包括如下步骤：步骤1：使用爬虫工具从电商网站中获取产品的用户评论，建立初始用户评论数据集；步骤2：对初始用户评论数据集做预处理，得到用于用户评论主题聚类的产品用户评论数据集；步骤2
‑
1：剔除默认评价和重复评价；步骤2
‑
2：去除用户评论中无效的字符、空白和乱码，完成用户文本数据的清洗；步骤2
‑
3：识别评论中的拼写错误、词法错误、句法错误和语义错误，完成纠错；步骤2
‑
4：将同一实体的不同描述方式进行合并，统一使用相同实体名称；步骤3：基于ERNIE模型进行用户评论主题聚类，得到若干主题用户评论数据集；步骤4：对主题用户评论数据集进行二次处理；步骤4
‑
1：使用THULAC工具将主题用户评论数据集的用户评论文本进行分词处理；步骤4
‑
2：使用NLTK工具对分词进行词性标注；步骤4
‑
3：根据中文用词习惯和词性匹配原则，设定8种反映用户需求的词法规则，采用正则表达式聚合得到产品信息短语，构成产品信息短语集合PIP＝{PIP1，PIP2，...，PIP
m
}；PIP1～PIP
m
分别表示第1至第m个产品信息短语；其中，所述设定8种反映用户需求的词法规则，包括：围绕形容词和动词设计词法规则各4种：其中，JJ为形容词，NN为名词，RB为副词，VB为动词，DT为限定词，符号表示以NLTK工具词性标注符号为基准；步骤5：基于ISIFRank模型进行关键产品信息短语提取，建立关键用户需求集。2.根据权利要求1所述一种小样本评论数据驱动的产品关键用户需求挖掘方法，其特征在于，所述基于ERNIE模型进行用户评论主题聚类，得到若干主题用户评论数据集，包括：步骤3
‑
1：构造用户评论文本的输入向量，将用户评论文本转换为向量，送入到ERNIE模型中进行训练和学习；用户评论文本的输入向量，包括：词嵌入、段嵌入和位置嵌入三部分融合生成用户评论文本的输入向量；步骤3
‑
2：基于户在线评论编码和用户评论知识整合训练用户评论文本的输入向量，获取用户评论的词向量表征；步骤3
‑
3：连接Softmax层，用于支持用户评论的主题聚类任务。3.根据权利要求2所述一种小样本评论数据驱动的产品关键用户需求挖掘方法，其特征在于，所述基于用户在线评论编码和用户评论知识整合来训练用户评论文本的输入向量，获取用户评论的词向量表征，包括：步骤3
‑2‑
1：以双向Transformer编码器为基础单元构建预训练语言模型，Transformer
编码器依靠自注意力机制为用户评论中每一个字编码上下文的信息；步骤3
‑2‑1‑
1：通过映射矩阵W
Q
、W
K
、W
V
，该层将embedding层给出的输入向量X分别转换成输入矩阵，包括查询Q、键K和值V，具体公式为：Q＝XW
Q
(1)K＝XW
K
(2)V＝XW

【专利技术属性】
技术研发人员：丛扬帆，初建杰，余隋怀，苏兆婧，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人