基于字符级卷积神经网络的民宿顾客意见挖掘方法技术

技术编号：21247281 阅读：27 留言：0更新日期：2019-06-01 07:33

本发明专利技术公开了基于字符级卷积神经网络的民宿顾客意见挖掘方法，包括以下步骤：构建网络爬虫，采集全部民宿评论建立出民宿字典、利用TF‑IDF对文本进行特征提取和向量化以及进行可视化的主题聚类、构建民宿主题词典、找出分句后文本内对应的评价条数、基于朴素贝叶斯的弱监督预分类、构建一维卷积核的卷积神经网络进行特征提取，得到情感极性、对感极性进行情感可视化以及验证模型；本发明专利技术方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求，将有助于企业组织和用户个人的决策行为，同时本发明专利技术方法从数据驱动的角度出发，可以挖掘出顾客在各个主题下的满意度情况，结果可为民宿经营者和监管者提供建议。

Hostel Customer Opinion Mining Method Based on Character Level Convolutional Neural Network

The invention discloses a method of customer opinion mining for residential quarters based on character-level convolution neural network, which includes the following steps: constructing a web crawler, collecting all residential comments, establishing a residential dictionary, using TF IDF to extract features and vectorize text, visualizing theme clustering, constructing a residential topic dictionary, finding out the corresponding number of evaluation items and basis in the text after clauses. The method of the invention can extract the emotional and user needs hidden in these personalized comments from a large number of noisy and false comments data, which will be helpful to enterprise organizations and users. At the same time, from the data-driven point of view, the method of the invention can mine the satisfaction of customers under various subjects, and the result can provide suggestions for residential operators and supervisors.

全部详细技术资料下载

【技术实现步骤摘要】
基于字符级卷积神经网络的民宿顾客意见挖掘方法
本专利技术涉及民宿顾客意见挖掘方法领域，尤其涉及基于字符级卷积神经网络的民宿顾客意见挖掘方法。
技术介绍
顾客意见挖掘是对顾客需求和意见的分析，对顾客评论进行分析有利于民宿服务的改进和迭代，由于民宿服务的无形性，民宿的在线评论比其他种类信息来源的影响更大，因此，借助于顾客意见挖掘改进服务质量，是快速积累竞争优势的关键，主流的顾客意见挖掘方式有两种，一是针对结构化数据分析，即基于结构化数据，诸如调查问卷、利克特量表、语义差别量表等，来获得可感知的、有效的属性；二是针对非结构化数据分析，即通过自然语言处理技术、可视化技术来分析数据自身的特点，在评论网站，论坛，博客和社交媒体中可以获得大量表达意见的文本，并在情感分析系统的帮助下，这种非结构化信息可以自动转换为结构化数据，即可以捕捉到表达关于产品、服务、品牌、政治或人们可以表达意见的其他主题等。民宿评论有着时效性强、上下文主题独立、观点明确、篇幅短小、表达随意等特点，现有的顾客意见挖掘方式在如何高效挖掘隐藏于噪声中的顾客观点和情感方面仍存在不足，无法满足实际需求，因此，本专利技术提出基于字符级卷积神经网络的民宿顾客意见挖掘方法，以解决现有技术中的不足之处。
技术实现思路
针对上述问题，本专利技术方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求，将有助于企业组织和用户个人的决策行为，同时本专利技术方法从数据驱动的角度出发，可以挖掘出顾客在各个主题下的满意度情况，结果可为民宿经营者和监管者提供建议，具有很强的通用性，对消费者、经营者和监督者具...

【技术保护点】
1.基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于，包括以下步骤：步骤一：在线民宿评论采集与预处理，构建网络爬虫，采集全部民宿评论建立出民宿字典，然后利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代，将评论中的主题句进行分解，形成主题评价文本；步骤二：主题聚类，利用TF‑IDF对主题评价文本进行特征提取和向量化之后，使用pyLDAvis对民宿评论进行可视化的主题聚类，得到可视化聚类结果，再按照簇内相似度高，簇间相似度低的主题选取标准选择初始文本文档数k，得到初始模型，再计算各主题t之间的相关性；步骤三：利用于民宿规范文件和可视化聚类结果辅助构建民宿主题词典；步骤四：通过属性词匹配的方式找出分句后主题评价文本内对应的评价条数，然后对对应主题的评价条数进行统计；步骤五：基于朴素贝叶斯的弱监督预分类，通过网络爬虫自动标注部分不具有追评的原评论，假设k为评论的关键词数，j为类别数，评价有两类情感，通过对文本词频向量化的方式计算一个评价的后验概率，输出概率大于0.5，即认为可预分类成功；步骤六：基于C‑CNN‑SA的民宿评论情感分析，将字符级的非结构化评论当做原始信号，按照...

【技术特征摘要】
1.基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于，包括以下步骤：步骤一：在线民宿评论采集与预处理，构建网络爬虫，采集全部民宿评论建立出民宿字典，然后利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代，将评论中的主题句进行分解，形成主题评价文本；步骤二：主题聚类，利用TF-IDF对主题评价文本进行特征提取和向量化之后，使用pyLDAvis对民宿评论进行可视化的主题聚类，得到可视化聚类结果，再按照簇内相似度高，簇间相似度低的主题选取标准选择初始文本文档数k，得到初始模型，再计算各主题t之间的相关性；步骤三：利用于民宿规范文件和可视化聚类结果辅助构建民宿主题词典；步骤四：通过属性词匹配的方式找出分句后主题评价文本内对应的评价条数，然后对对应主题的评价条数进行统计；步骤五：基于朴素贝叶斯的弱监督预分类，通过网络爬虫自动标注部分不具有追评的原评论，假设k为评论的关键词数，j为类别数，评价有两类情感，通过对文本词频向量化的方式计算一个评价的后验概率，输出概率大于0.5，即认为可预分类成功；步骤六：基于C-CNN-SA的民宿评论情感分析，将字符级的非结构化评论当做原始信号，按照字符进行去重，并按照字符频率进行降序排列建立字符表，通过查询字符表中的的位置ID的方式将评论向量化，并且构建一维卷积核的卷积神经网络进行特征提取，通过softmax函数输出得到情感极性，通过Keras神经网络工具对本模型的参数进行打印；步骤七：对一维卷积核的卷积神经网络特征提取后得到情感极性进行情感可视化，对比多个主题下的顾客意见倾向，以对比后的多个主题下的顾客意见倾向进行针对性的改善，以此来提高民宿的整体满意度；步骤八：验证模型，使用十折交叉验证的模型评估方法，在等同条件下进行10次实验，使用平均测试集准确度、平均精确度、平均召回率和平均F值作为评价指标进行模型有效性的验证。2.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法，其特征在于：所述步骤二中TF-IDF公式如公式(1)所示：特征项在一个类别中不同的类别间的分布情况以及特征词的位置因素对文本的区分度，词条出现在文本文档的不同位置时，对区分度的贡献大小是不一样的，利用TF-IDF方法来计算特征词的权重，词w在ct类中的改进IDF计算公式如公式(2)所示：公式(1)和公式(2)中，N是总体文本文档数，T为总词条数，其中含有词条t...

【专利技术属性】
技术研发人员：杨有，张振，罗凌，余平，尚晋，
申请(专利权)人：重庆师范大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人