【技术实现步骤摘要】
一种用户评论方面挖掘系统、方法、及存储介质
本专利技术涉及文本数据信息挖掘
,具体涉及一种用户评论方面挖掘方法、系统、设备及存储介质。
技术介绍
随着移动互联网的迅猛发展和智能手机的普及,人们可以随时随地针对某个对象发表评论和意见,也可以对不同领域的不同商品进行评价。有效地分析这些评价,能够辅助厂家进行销售、未来发展的决策,亦能帮助消费者筛选合乎自己期待的产品。但单纯对评论语句进行情感极性判断,不能提供有效的信息,还需要进一步确定情感词描述的对象。例如,随着网络教育、网络学习模式的普及,越来越多的学生使用在线教育平台进行自主学习,大型开放式网络课程MOOC平台一门课程的学习者产生的课程评论文本和讨论数据达上万条。这些课程文本语料中大都包含了学习者对某一门课程的看法,甚至是对授课教师,学习平台的看法。一些潜在的用户希望从这些大量的评论文本中获得该课程的评价从而助于他们做出相应的决策。尤其是对于学习者生成的课程评论文本,如果没有及时对一些评论进行反馈或者处理,可能会造成一些问题。然而评论文本数据量庞大,对于潜在用户 ...
【技术保护点】
1.一种用户评论方面挖掘系统,其特征在于,该系统基于计算机可读指令,至少包括:/n预处理单元:用于原始评论文本数据集进行处理,得到预处理后的语料集;/n词训练单元:用于对预处理后的语料集进行处理,得到评论文本词向量集;/n挖掘模型构建单元:用于对评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向量信息进行解码,得到嵌入模型;/n训练单元:分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码对应的解码结果与负样本进行相似度衡量;/n映射单元:用于对挖掘模型构建单元得到的嵌入模型进行词空间映射,得到方面代表词;/n所述的预处理单元、词训练单元、挖掘模型构建 ...
【技术特征摘要】
1.一种用户评论方面挖掘系统,其特征在于,该系统基于计算机可读指令,至少包括:
预处理单元:用于原始评论文本数据集进行处理,得到预处理后的语料集;
词训练单元:用于对预处理后的语料集进行处理,得到评论文本词向量集;
挖掘模型构建单元:用于对评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向量信息进行解码,得到嵌入模型;
训练单元:分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码对应的解码结果与负样本进行相似度衡量;
映射单元:用于对挖掘模型构建单元得到的嵌入模型进行词空间映射,得到方面代表词;
所述的预处理单元、词训练单元、挖掘模型构建单元、训练单元、映射单元依次连接。
2.如权利要求1所述的用户评论方面挖掘系统,其特征在于:所述的词训练单元,使用Word2vec算法将预处理后的语料集,得到评论文本词向量集。
3.如权利要求1所述的用户评论方面挖掘系统,其特征在于:所述的挖掘模型构建单元对评论文本词向量集进行编码包括:
1)构建方面编码器和语义编码器;
2)分别通过方面编码器和语义编码器获得获取评论文本词的方面向量信息和语义向量信息;
3)对获取的方面向量信息和语义向量信息进行拼接融合,得到融合后的向量信息;
所述的挖掘模型构建单元对编码后得到的方面向量信息和语义向量信息进行解码是对融合后的向量信息进行维度规约和重构,得到嵌入模型。
4.如权利要求1所述的用户评论方面挖掘系统,其特征在于:所述的训练单元中相似度衡量是评论文本词向量集编码得到的融合后的向量与重构后文本向量内积最大,且评论文本词向量集编码得到的融合后的向量与负样本内积最小,即为训练目标。
5.如权利要求1-4任意一项权利要求所述的一种用户评论方面挖掘方法,其特征在于:包括如下步骤:
步骤S1,原始评论文本数据集进行处理,得到预处理后的语料集;
步骤S2,预处理后的语料集进行处理,得到评论文本词向量集;
步骤S3,评论文本词向量集进行编码,并对编码后得到的方面向量信息和语义向量信息进行解码,得到嵌入模型;
步骤S4,分别对评论文本词向量集编码的结果与其编码对应的解码结果,和编码对应的解码结果与负样本进行相似度衡量;
步骤S5,对得到的嵌入模型进行词空间映射,得到方面代表词。
6.如权利要求5所述的用户评论方面挖掘方法,其特征在于:所述的步骤2采用Word2vec算法得出文本词向量字典,从文本词向量字典中获取每个评论文本词对应的向量,得出评论文本词向量集。
7.如权利要求5所述的用户评论方面挖掘方法,其特征在于:所述的步骤3具体包括如下步骤:
步骤S3.1构建方面编码器和语义编码器;
步骤S3.2通过方面编码器获取评论文本词的方面向量信息;通过语义编码器获取评论文本词的语义向量信息;
步骤S3.3对获取的方面向量信息和语义向量信息进行拼接融合,得到融合后的向量信息;
步骤S3.4对融合后的向量信息进行维度规约和重构,得到嵌入矩阵T;
所述的步骤S3.2,进一步包括如下步骤:
步...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。