一种基于卷积神经网络和BM25的外卖评论情感极性分析方法技术

技术编号:27256264 阅读:30 留言:0更新日期:2021-02-04 12:36
本发明专利技术涉及自然语言处理技术领域,具体为一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:步骤一、爬取门店的评论数据,人工标注导入数据库;步骤二、对数据库的数据进行数据清洗;步骤三、数据分词处理并计算词向量;步骤四、采用卷积神经网络CNN训练模型;步骤五、利用模型预测结果,本发明专利技术使用了BM25的改进算法,和基准TFIDF比较,BM25算法在TF计算方法中增加了一个常量k,用来限制TF值的增长极限,BM25的TF Score会被限制在0—k+1之间,TF Score不可能无限的增加,从而更加符合文本相关性的逻辑,本发明专利技术利用卷积神经网络CNN不需要依赖前面的结果,因此训练速度会更快。练速度会更快。练速度会更快。

【技术实现步骤摘要】
一种基于卷积神经网络和BM25的外卖评论情感极性分析方法


[0001]本专利技术涉及自然语言处理
,具体为一种基于卷积神经网络和BM25的外卖评论情感极性分析方法。

技术介绍

[0002]在外卖领域中,将自然语言处理技术应用到外卖评论的情感识别中,在该过程中一般利用LSTM神经网络和TFIDF算法进行识别分析,外卖评论数据长度短,因此前文利用的信息有限,一般利用LSTM神经网络进行模型训练,但LSTM神经网络在短时序中效果有限,LSTM的训练速度慢,消耗的算力资源多;利用TFIDF算法,在tf不断增加时,TF Score会无限制增加,不符合在实际业务中词在文档中的权重占比逻辑。鉴于此,我们提出一种基于卷积神经网络和BM25的外卖评论情感极性分析方法。

技术实现思路

[0003]本专利技术的目的在于提供一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:
[0005]一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:
[0006]步骤一、爬取门店的评论数据,人工标注导入数据库;
[0007]步骤二、对数据库的数据进行数据清洗;
[0008]步骤三、数据分词处理并计算词向量;
[0009]步骤四、采用卷积神经网络CNN训练模型;
[0010]步骤五、利用模型预测结果。
[0011]作为本专利技术优选的技术方案,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中。
[0012]作为本专利技术优选的技术方案,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量。
[0013]作为本专利技术优选的技术方案,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
[0014]作为本专利技术优选的技术方案,步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
[0015]作为本专利技术优选的技术方案,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
[0016]作为本专利技术优选的技术方案,BM25算法是一种用来评价搜索词和文档之间相关性
的算法,它是一种基于概率检索模型提出的算法,BM25算法算法的简单定义为:有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,先对query进行切分,得到单词$q_i$,然后单词的分数由3部分组成:1)单词$q_i$和D之间的相关性;2)单词$q_i$和D之间的相关性;3)每个单词的权重;最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
[0017]作为本专利技术优选的技术方案,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
[0018]作为本专利技术优选的技术方案,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
[0019]作为本专利技术优选的技术方案,jieba库是一种文本处理开源工具。
[0020]与现有技术相比,本专利技术的有益效果是:
[0021]本专利技术使用了BM25的改进算法,和基准TFIDF比较,BM25算法在TF计算方法中增加了一个常量k,用来限制TF值的增长极限,BM25的TF Score会被限制在O-k+1之间,TF Score不可能无限的增加,从而更加符合文本相关性的逻辑,本专利技术利用卷积神经网络CNN不需要依赖前面的结果,因此训练速度会更快。
附图说明
[0022]图1为本专利技术的主流程图;
[0023]图2为本专利技术中BM25和TFIDF对TF Score影响的走势图;
[0024]图3为本专利技术中模型训练流程图;
[0025]图4为本专利技术中卷积神经网络CNN网络结构图;
[0026]图5为本专利技术中ReLU函数图像。
具体实施方式
[0027]下面将结合本专利技术实施例对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]实施例
[0029]本实施例提供的技术方案为:一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:
[0030]步骤一、爬取门店的评论数据,人工标注导入数据库;
[0031]步骤二、对数据库的数据进行数据清洗;
[0032]步骤三、数据分词处理并计算词向量;
[0033]步骤四、采用卷积神经网络CNN训练模型;
[0034]步骤五、利用模型预测结果。
[0035]作为本实施例的优选,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中,下面用实际样例进行分析,数据如下表所示:
[0036][0037][0038]作为本实施例的优选,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量,下面用实际样例进行分析,数据如下表所示:
[0039][0040]作为本实施例的优选,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
[0041]作为本实施例的优选,步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
[0042]作为本实施例的优选,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
[0043]作为本实施例的优选,BM25算法是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,BM25算法算法的简单定义为:有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,先对query进行切分,得到单词$q_i$,然后单词的分数由3部分组成:1)单词$q_i$和D之间的相关性;2)单词$q_i$和D之间的相关性;3)每个单词的权重;最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
[0044]作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:该方法的步骤如下:步骤一、爬取门店的评论数据,人工标注导入数据库;步骤二、对数据库的数据进行数据清洗;步骤三、数据分词处理并计算词向量;步骤四、采用卷积神经网络CNN训练模型;步骤五、利用模型预测结果。2.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中。3.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量。4.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。5.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。6.根据权利要求1所描述的基于卷积神经网络和B...

【专利技术属性】
技术研发人员:廖杰邓方华张衍彬
申请(专利权)人:深圳市洪堡智慧餐饮科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1