基于字符级卷积神经网络的民宿顾客意见挖掘方法技术

技术编号:21247281 阅读:27 留言:0更新日期:2019-06-01 07:33
本发明专利技术公开了基于字符级卷积神经网络的民宿顾客意见挖掘方法,包括以下步骤:构建网络爬虫,采集全部民宿评论建立出民宿字典、利用TF‑IDF对文本进行特征提取和向量化以及进行可视化的主题聚类、构建民宿主题词典、找出分句后文本内对应的评价条数、基于朴素贝叶斯的弱监督预分类、构建一维卷积核的卷积神经网络进行特征提取,得到情感极性、对感极性进行情感可视化以及验证模型;本发明专利技术方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求,将有助于企业组织和用户个人的决策行为,同时本发明专利技术方法从数据驱动的角度出发,可以挖掘出顾客在各个主题下的满意度情况,结果可为民宿经营者和监管者提供建议。

Hostel Customer Opinion Mining Method Based on Character Level Convolutional Neural Network

The invention discloses a method of customer opinion mining for residential quarters based on character-level convolution neural network, which includes the following steps: constructing a web crawler, collecting all residential comments, establishing a residential dictionary, using TF IDF to extract features and vectorize text, visualizing theme clustering, constructing a residential topic dictionary, finding out the corresponding number of evaluation items and basis in the text after clauses. The method of the invention can extract the emotional and user needs hidden in these personalized comments from a large number of noisy and false comments data, which will be helpful to enterprise organizations and users. At the same time, from the data-driven point of view, the method of the invention can mine the satisfaction of customers under various subjects, and the result can provide suggestions for residential operators and supervisors.

【技术实现步骤摘要】
基于字符级卷积神经网络的民宿顾客意见挖掘方法
本专利技术涉及民宿顾客意见挖掘方法领域,尤其涉及基于字符级卷积神经网络的民宿顾客意见挖掘方法。
技术介绍
顾客意见挖掘是对顾客需求和意见的分析,对顾客评论进行分析有利于民宿服务的改进和迭代,由于民宿服务的无形性,民宿的在线评论比其他种类信息来源的影响更大,因此,借助于顾客意见挖掘改进服务质量,是快速积累竞争优势的关键,主流的顾客意见挖掘方式有两种,一是针对结构化数据分析,即基于结构化数据,诸如调查问卷、利克特量表、语义差别量表等,来获得可感知的、有效的属性;二是针对非结构化数据分析,即通过自然语言处理技术、可视化技术来分析数据自身的特点,在评论网站,论坛,博客和社交媒体中可以获得大量表达意见的文本,并在情感分析系统的帮助下,这种非结构化信息可以自动转换为结构化数据,即可以捕捉到表达关于产品、服务、品牌、政治或人们可以表达意见的其他主题等。民宿评论有着时效性强、上下文主题独立、观点明确、篇幅短小、表达随意等特点,现有的顾客意见挖掘方式在如何高效挖掘隐藏于噪声中的顾客观点和情感方面仍存在不足,无法满足实际需求,因此,本专利技术提出基于字符级卷积神经网络的民宿顾客意见挖掘方法,以解决现有技术中的不足之处。
技术实现思路
针对上述问题,本专利技术方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求,将有助于企业组织和用户个人的决策行为,同时本专利技术方法从数据驱动的角度出发,可以挖掘出顾客在各个主题下的满意度情况,结果可为民宿经营者和监管者提供建议,具有很强的通用性,对消费者、经营者和监督者具体一定的实际利用价值。本专利技术提出基于字符级卷积神经网络的民宿顾客意见挖掘方法,包括以下步骤:步骤一:在线民宿评论采集与预处理,构建网络爬虫,采集全部民宿评论建立出民宿字典,然后利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代,将评论中的主题句进行分解,形成主题评价文本;步骤二:主题聚类,利用TF-IDF对主题评价文本进行特征提取和向量化之后,使用pyLDAvis对民宿评论进行可视化的主题聚类,得到可视化聚类结果,再按照簇内相似度高,簇间相似度低的主题选取标准选择初始文本文档数k,得到初始模型,再计算各主题t之间的相关性;步骤三:利用于民宿规范文件和可视化聚类结果辅助构建民宿主题词典;步骤四:通过属性词匹配的方式找出分句后主题评价文本内对应的评价条数,然后对对应主题的评价条数进行统计;步骤五:基于朴素贝叶斯的弱监督预分类,通过网络爬虫自动标注部分不具有追评的原评论,假设k为评论的关键词数,j为类别数,评价有两类情感,通过对文本词频向量化的方式计算一个评价的后验概率,输出概率大于0.5,即认为可预分类成功;步骤六:基于C-CNN-SA的民宿评论情感分析,将字符级的非结构化评论当做原始信号,按照字符进行去重,并按照字符频率进行降序排列建立字符表,通过查询字符表中的的位置ID的方式将评论向量化,并且构建一维卷积核的卷积神经网络进行特征提取,通过softmax函数输出得到情感极性,通过Keras神经网络工具对本模型的参数进行打印;步骤七:对一维卷积核的卷积神经网络特征提取后得到情感极性进行情感可视化,对比多个主题下的顾客意见倾向,以对比后的多个主题下的顾客意见倾向进行针对性的改善,以此来提高民宿的整体满意度;步骤八:验证模型,使用十折交叉验证的模型评估方法,在等同条件下进行10次实验,使用平均测试集准确度、平均精确度、平均召回率和平均F值作为评价指标进行模型有效性的验证。进一步改进在于:所述步骤二中TF-IDF公式如公式(1)所示:特征项在一个类别中不同的类别间的分布情况以及特征词的位置因素对文本的区分度,词条出现在文本文档的不同位置时,对区分度的贡献大小是不一样的,利用TF-IDF方法来计算特征词的权重,词w在ct类中的改进IDF计算公式如公式(2)所示:公式(1)和公式(2)中,N是总体文本文档数,T为总词条数,其中含有词条t的文本文档数是x,而ct的文本文档数为y,除ct外包含词条t的文本文档数为k。进一步改进在于:所述步骤二中主题相关性计算如公式(3)所示:relevance(term_w|topic_t)=λ*p(w|t)+(1-λ)*p(w|t)/p(w)(3)公式(3)中,某个词语主题的相关性,由λ参数来调节,如果λ接近1,那么在该主题t下更频繁出现的词w,跟主题t更相关;如果λ越接近0,那么该主题t下更特殊、更独有的词w,跟主题t更相关,通过调节λ的大小来改变领域词语term_w跟主题topic_t的相关性。进一步改进在于:所述步骤二中文本文档数k的取值先参考民宿标准文件,再利用实验通过k=6为基准,采用依次升高k值的方法,通过减少主体之间的交叉,观察主题不覆盖的最小k值作为主题数,进行对于主题属性词的选择。进一步改进在于:所述步骤五中输出概率的计算公式如公式(4)所示:为了剔除虚假评论,增加情感分析的准确性,使用预分类作为数据清洗,预分类时,使用0和1的标签,分别代表消极和积极,输出概率值大于0.9作为置信度高的积极文本,输出概率小于0.1的作为置信度高的消极文本。进一步改进在于:所述步骤六中首先参考图像处理中的像素级别处理方案,假设字典的大小为n,通过建立字符表的方式,利用字符的ID将评论进行向量化,然后导入一层Con卷积神经网络进行处理,在输入层利用Embdding层将一个句子所有字符的字符向量进行拼接成一个句子矩阵,使用Pad长度为200来覆盖99%的文本长度,采用“Pre”首部补0的方法,在文本长度不够的情况下,在前面填充0,并对Embdding层的字符权重进行设置为训练更新,然后使用一维卷积核Convolution1D进行特征提取,通过一层全局最大池化层采样和两层全连接层,最后输出以积极标签的softmax概率值作为情感极性,通过Keras神经网络工具对本模型的参数进行打印。进一步改进在于:所述步骤六中一个句子所有字符的字符向量为单独的字时,不进行分词处理。本专利技术的有益效果为:本专利技术方法可以从大量带有噪声和虚假的评论数据中挖掘隐藏在这些个性化评论中的情感和用户需求,将有助于企业组织和用户个人的决策行为,同时本专利技术方法从数据驱动的角度出发,可以挖掘出顾客在各个主题下的满意度情况,结果可为民宿经营者和监管者提供建议,并且通过改进意见挖掘算法,针对民宿语料较少的问题,提出适合于民宿评论的可视化主题抽取和弱监督预训练的情感分析算法,可以实现在线民宿评论的隐含特征主题抽取和情感分析,并通过验证模型可以准确验证模型有效性,本专利技术方法具有很强的通用性,对消费者、经营者和监督者具体一定的实际利用价值。附图说明图1为本专利技术流程示意图。图2为本专利技术LDA概率模型示意图。图3为本专利技术方法模型结构示意图。图4为本专利技术方法模型参数示意图。图5为本专利技术实施例中民宿主题可视化示意图。图6本专利技术实施例中各主题评论占比示意图。图7本专利技术实施例中服务-情感极性分布示意图。图8为本专利技术实施例中各主题下的顾客意见可视化示意图。图9为本专利技术实施例中体验-情感极性分布示意图。图10为本专利技术实施例中特色-情感极性分布示意图。图11为本专利技术实施例中设施-情感极性分布示意本文档来自技高网...

【技术保护点】
1.基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于,包括以下步骤:步骤一:在线民宿评论采集与预处理,构建网络爬虫,采集全部民宿评论建立出民宿字典,然后利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代,将评论中的主题句进行分解,形成主题评价文本;步骤二:主题聚类,利用TF‑IDF对主题评价文本进行特征提取和向量化之后,使用pyLDAvis对民宿评论进行可视化的主题聚类,得到可视化聚类结果,再按照簇内相似度高,簇间相似度低的主题选取标准选择初始文本文档数k,得到初始模型,再计算各主题t之间的相关性;步骤三:利用于民宿规范文件和可视化聚类结果辅助构建民宿主题词典;步骤四:通过属性词匹配的方式找出分句后主题评价文本内对应的评价条数,然后对对应主题的评价条数进行统计;步骤五:基于朴素贝叶斯的弱监督预分类,通过网络爬虫自动标注部分不具有追评的原评论,假设k为评论的关键词数,j为类别数,评价有两类情感,通过对文本词频向量化的方式计算一个评价的后验概率,输出概率大于0.5,即认为可预分类成功;步骤六:基于C‑CNN‑SA的民宿评论情感分析,将字符级的非结构化评论当做原始信号,按照字符进行去重,并按照字符频率进行降序排列建立字符表,通过查询字符表中的的位置ID的方式将评论向量化,并且构建一维卷积核的卷积神经网络进行特征提取,通过softmax函数输出得到情感极性,通过Keras神经网络工具对本模型的参数进行打印;步骤七:对一维卷积核的卷积神经网络特征提取后得到情感极性进行情感可视化,对比多个主题下的顾客意见倾向,以对比后的多个主题下的顾客意见倾向进行针对性的改善,以此来提高民宿的整体满意度;步骤八:验证模型,使用十折交叉验证的模型评估方法,在等同条件下进行10次实验,使用平均测试集准确度、平均精确度、平均召回率和平均F值作为评价指标进行模型有效性的验证。...

【技术特征摘要】
1.基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于,包括以下步骤:步骤一:在线民宿评论采集与预处理,构建网络爬虫,采集全部民宿评论建立出民宿字典,然后利用哈工大开源LTP词性标注功能将标点符号利用换行符进行替代,将评论中的主题句进行分解,形成主题评价文本;步骤二:主题聚类,利用TF-IDF对主题评价文本进行特征提取和向量化之后,使用pyLDAvis对民宿评论进行可视化的主题聚类,得到可视化聚类结果,再按照簇内相似度高,簇间相似度低的主题选取标准选择初始文本文档数k,得到初始模型,再计算各主题t之间的相关性;步骤三:利用于民宿规范文件和可视化聚类结果辅助构建民宿主题词典;步骤四:通过属性词匹配的方式找出分句后主题评价文本内对应的评价条数,然后对对应主题的评价条数进行统计;步骤五:基于朴素贝叶斯的弱监督预分类,通过网络爬虫自动标注部分不具有追评的原评论,假设k为评论的关键词数,j为类别数,评价有两类情感,通过对文本词频向量化的方式计算一个评价的后验概率,输出概率大于0.5,即认为可预分类成功;步骤六:基于C-CNN-SA的民宿评论情感分析,将字符级的非结构化评论当做原始信号,按照字符进行去重,并按照字符频率进行降序排列建立字符表,通过查询字符表中的的位置ID的方式将评论向量化,并且构建一维卷积核的卷积神经网络进行特征提取,通过softmax函数输出得到情感极性,通过Keras神经网络工具对本模型的参数进行打印;步骤七:对一维卷积核的卷积神经网络特征提取后得到情感极性进行情感可视化,对比多个主题下的顾客意见倾向,以对比后的多个主题下的顾客意见倾向进行针对性的改善,以此来提高民宿的整体满意度;步骤八:验证模型,使用十折交叉验证的模型评估方法,在等同条件下进行10次实验,使用平均测试集准确度、平均精确度、平均召回率和平均F值作为评价指标进行模型有效性的验证。2.根据权利要求1所述的基于字符级卷积神经网络的民宿顾客意见挖掘方法,其特征在于:所述步骤二中TF-IDF公式如公式(1)所示:特征项在一个类别中不同的类别间的分布情况以及特征词的位置因素对文本的区分度,词条出现在文本文档的不同位置时,对区分度的贡献大小是不一样的,利用TF-IDF方法来计算特征词的权重,词w在ct类中的改进IDF计算公式如公式(2)所示:公式(1)和公式(2)中,N是总体文本文档数,T为总词条数,其中含有词条t...

【专利技术属性】
技术研发人员:杨有张振罗凌余平尚晋
申请(专利权)人:重庆师范大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1