【技术实现步骤摘要】
一种基于用户评论情感分析与矩阵分解的推荐方法
本专利技术属于推荐系统
,具体涉及一种基于用户评论情感分析与矩阵分解的推荐方法。
技术介绍
随着计算机和通信技术的高速发展,“互联网购物”方式逐渐成为人们家喻户晓的新时代名词。截至2020年10月,全球活跃站点数量达到12.03亿个,并且随着数据收集和数据存储技术的快速进步使得各大电商通过互联网可以收集海量消费者的购物数据。但是由于现有技术发展的瓶颈并未实现众多电商对海量的数据的有效且及时处理,因此各个电商平台较难的增加自身收益。为寻找消费者所感兴趣的部分商品数据,研究人员们需要花费大量的时间处理收集到的用户历史购物信息,同时用户在众多的商品信息中发现自己所满意的商品也需要花费大量的精力,这就是人们所面对的“信息过载”问题。推荐系统应用数据挖掘技术和机器学习算法构建用户模型以预测用户可能满意的商品,它是被广泛提倡和应用的为解决“信息过载”问题的技术。现有的各大电商平台上存在着用户给予商品的海量评分信息,而这些评分信息代表着用户对于商品满意程度的主观评价。例如在bee ...
【技术保护点】
1.一种基于用户评论情感分析与矩阵分解的推荐方法,其特征在于,包括以下步骤:/n步骤1,获取用户的评论信息和评分信息,构建用户评分矩阵;/n步骤2,对评论信息进行文本预处理,减少原始文本数据集中的无效字符以降低其对实验结果的影响,同时使算法能有效的抓取文本数据集中具有明显情感特征的词以提升算法对于文本的情感极性分析的准确度,因此构建能有效表示文本情感极性特征的句向量,采用消除无效字符、数字字符、替换文本缩写、大写字符转小写字符、修改文本拼写错误预处理方法对原始文本数据集进行预处理,对预处理后的文本根据其词频进行向量化编码,包括:/n设定在语料库中的每个单词w都有唯一的整数数 ...
【技术特征摘要】 【专利技术属性】
1.一种基于用户评论情感分析与矩阵分解的推荐方法,其特征在于,包括以下步骤:
步骤1,获取用户的评论信息和评分信息,构建用户评分矩阵;
步骤2,对评论信息进行文本预处理,减少原始文本数据集中的无效字符以降低其对实验结果的影响,同时使算法能有效的抓取文本数据集中具有明显情感特征的词以提升算法对于文本的情感极性分析的准确度,因此构建能有效表示文本情感极性特征的句向量,采用消除无效字符、数字字符、替换文本缩写、大写字符转小写字符、修改文本拼写错误预处理方法对原始文本数据集进行预处理,对预处理后的文本根据其词频进行向量化编码,包括:
设定在语料库中的每个单词w都有唯一的整数数值v相互映射,其中v∈N,v的值越大则表示该单词在语料库中存在的数量越少,随后对句子中的每一个单词及其所在的位置选择语料库中该单词映射的数值,最后评论文本中所有的单词集合{w1,w2,...,wi}所对应的数值所构成的向量{v1,v2,...,vi}作为文本句向量,其中i表示为文本中词的位置;
步骤3,基于TF-IDF的文本词向量方法更新文本句向量以寻找句向量中情感特征词,得到英文评论文本句向量表示,包括:
假设文本中的目标单词w在语料库中的单词向量值为v,则可以得到基于TF-IDF方法更新后的单词向量值w2v;
其中,TF-IDF[w]代表单词w在语料库中的TF-IDF值,vector表示根据词频得到的文本句向量,而Lenth代表在文本设定的句向量中固定句向量长度,w2v为目标单词更新后的文本句向量;
步骤4,将得到的文本句向量及其对应的情感倾向标签信息输入到基于LSTM的循环神经网络中进行训练以构建文本情感倾向分析模型来预测评论情感倾向,包括:
1)将得到的文本句向量分为训练集和测试集,将得到的训练集中的句向量及其对应的情感倾向标签输入到基于LSTM的循环神经网络中进行训练,设定损失函数、优化方法使用,同时设定最大迭代次数T,Batch_size参数值及Dropout层激活概率参数后进行网络训练;
2)直到基于LSTM的循环神经网络迭代到最大迭代次数T时停止迭代,得到基于句向量的文本情感倾向分析网络,随后将测试集用于网络进行实验验证,输出网络对于测试集的预测准确度P;
技术研发人员:高岭,牛秀娟,王文涛,吴旭东,孙俊辉,
申请(专利权)人:西北大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。