基于多模态商品评论分析的商品推荐方法及系统技术方案

技术编号：24579683 阅读：38 留言：0更新日期：2020-06-21 00:54

本公开公开了基于多模态商品评论分析的商品推荐方法及系统，包括：获取某商品的评论信息；对获取的商品的评论信息进行数据预处理；判断评论信息中是否有图像，如果有图像，则对图像提取图像的情感标签；判断评论信息中是否有视频，如果有视频，则将视频中的音频提取出来，将音频转换为文本；判断评论信息中是否有音频，如果有音频，则将音频转换为文本；判断评论信息中是否有文本，如果有文本，则将评论信息中的文本与转换得到的文本进行整合，得到整合后的文本；对整合后的文本，提取文本的情感标签；将图像的情感标签和文本的情感标签，均输入到预训练的神经网络中，输出当前商品的推荐标签。

Commodity recommendation method and system based on multimodal commodity review analysis

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态商品评论分析的商品推荐方法及系统
本公开涉及商品推荐
，尤其涉及基于多模态商品评论分析的商品推荐方法及系统。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
，并不必然构成现有技术。在日常生活中，人类能够通过聆听语言和观察表情以及姿态动作等捕捉对方的情感变化，识别情感状态信息，进而进行情感交流。而如果想让机器能够像人一样的感知和理解情感，那么就必须让机器能够对人类这方面的能力进行模拟，进而让机器具有捕捉多模态的情感特征，并对其进行处理，最后表达出相应人类情感的能力。在现实生活中，我们文字或者语言只是人的综合理解系统的一部分，用于理解和交流我们遇到的情景以及参与的对象。其中情景表征构成了我们的世界模型，并指导这我们的行为和对语言的理解，解决一个句子中代词的指代问题，可以从构建句子所描述的情景表示开始。情景可以是具体的和静态的，例如大妈在跳广场舞。当人们将文本的陈述与熟悉的场景联系起来，也就是文字和图片或者视频信息联系起来，机器就能更好地理解和记忆文本。正如人在交流的时候，会同时使用语言输入和非语言的输入。在实现本公开的过程中，专利技术人发现现有技术中存在以下技术问题：网上商城的商品评论对于商家运营决策是非常重要的，当一个商品的负面评论过多时，商家会考虑减少或停止售卖该商品，转而用一种评论比较好的商品代替，所以商品的评论分析，对于店家来说是非常重要的。现在人们在给商品评论的时候，写文字的越来越少，更多的人是使用视频或者图片加上少量的文字作为用户给这个商品的评价。因为...

【技术保护点】
1.基于多模态商品评论分析的商品推荐方法，其特征是，包括：/n获取某商品的评论信息；/n对获取的商品的评论信息进行数据预处理；/n判断评论信息中是否有图像，如果有图像，则对图像提取图像的情感标签；/n判断评论信息中是否有视频，如果有视频，则将视频中的音频提取出来，将音频转换为文本；如果没有视频，则进入下一步；/n判断评论信息中是否有音频，如果有音频，则将音频转换为文本；如果没有音频，则进入下一步；/n判断评论信息中是否有文本，如果有文本，则将评论信息中的文本与转换得到的文本进行整合，得到整合后的文本；如果没有文本，则返回商品的评论信息获取步骤；/n对整合后的文本，提取文本的情感标签；/n根据图像的情感标签和文本的情感标签，提取当前商品的推荐标签。/n

【技术特征摘要】
1.基于多模态商品评论分析的商品推荐方法，其特征是，包括：
获取某商品的评论信息；
对获取的商品的评论信息进行数据预处理；
判断评论信息中是否有图像，如果有图像，则对图像提取图像的情感标签；
判断评论信息中是否有视频，如果有视频，则将视频中的音频提取出来，将音频转换为文本；如果没有视频，则进入下一步；
判断评论信息中是否有音频，如果有音频，则将音频转换为文本；如果没有音频，则进入下一步；
判断评论信息中是否有文本，如果有文本，则将评论信息中的文本与转换得到的文本进行整合，得到整合后的文本；如果没有文本，则返回商品的评论信息获取步骤；
对整合后的文本，提取文本的情感标签；
根据图像的情感标签和文本的情感标签，提取当前商品的推荐标签。

2.如权利要求1所述的方法，其特征是，对获取的商品的评论信息进行数据预处理，包括：对评论信息中的图像进行数据预处理、对评论信息中的音频进行数据预处理、对评论信息中的视频进行数据预处理和对评论信息中的文本进行数据预处理。

3.如权利要求1所述的方法，其特征是，对图像提取图像的情感标签；具体步骤包括：
S301：构建卷积神经网络VGG16；
S302：利用ImageNet图片数据库对卷积神经网络VGG16进行预训练；
S303：将已知情感标签的评论图像，输入到预训练后的卷积神经网络VGG16中，对卷积神经网络VGG16进行优化训练，得到优化训练后的卷积神经网络VGG16；
S304：将待特征提取的图像，输入到优化训练后的卷积神经网络VGG16中，输出图像的情感标签。

4.如权利要求1所述的方法，其特征是，判断评论信息中是否有视频，如果有视频，则将视频中的音频提取出来；具体步骤包括：
使用OpenCV中VideoCapture类和Python视频编辑库MoviePy库，裁剪、拼接、标题插入、视频合成、视频处理和自定义效果，使用OpenCV获取视频的音频数据，然后将音频数据存储到数据库中。

5.如权利要求1所述的方法，其特征是，将音频转换为文本，具体步骤包括：
使用Python视频编辑库的speechrecognition模块，来...

【专利技术属性】
技术研发人员：崔立真，姜涛，鹿旭东，郭伟，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人