【技术实现步骤摘要】
一种基于在线点评数据的商户多视图特征提取及模型构建方法
本专利技术涉及特征提取和模型构建领域,尤其涉及一种基于在线点评数据的商户多视图特征提取及模型构建方法。
技术介绍
Yelp、大众点评、美团等在线点评类软件,在为商户提供宣传平台的同时,也为顾客提供了分享用户体验的平台。这些顾客们提交的评价为其他顾客选择商户提供了重要的参考。研究表明,顾客们在点评软上对商户的评价密切影响着商户的经营绩效。然而,鲜有研究者对这些商户的各类特征进行总结和提取,并基于提取的特征进行预测模型构建。此外,在特征提取时一些研究虽然涉及了语义,但也忽略了不同顾客评价之间的差异性。例如,有些顾客喜欢给几乎所有的商户打高分,而有些顾客则喜欢给低分。个性化的用词习惯也应当被考虑进来,例如,“好”被一些严格的客户用来表达满意情感,而被一些宽松的客户则用其来表达中立情感。除此之外,点评类软件规范的各种业务属性,如信用卡、Wi-Fi、停车场等,也应当被考虑进特征提取。最后,商户的成败不仅与自身的业务属性有关,也与其所处的商圈的兴盛程度息息相关。r>
技术实现思路
...
【技术保护点】
1.一种基于在线点评数据的商户多视图特征提取方法,其特征在于包括以下步骤:/nS1.设定商户集合为L
【技术特征摘要】
1.一种基于在线点评数据的商户多视图特征提取方法,其特征在于包括以下步骤:
S1.设定商户集合为Lr=(r1;r2;...;rp),Lr中包含p家商户;
S2.提取Lr中所有商户的评论,进行预处理并执行词嵌入操作,具体包含以下子步骤:
S21.评论选取与预处理:筛选出t时间前,商户rp中点赞数最高的m条评论,并去除评论中的标点符号与停用词;
S22.构建商户评论矩阵:截取每条评论的前n个字,评论长度不足n的,以0填充至长度n,生成大小为m*n的商户评论矩阵其中代表第m条评论中的第n个字;
S23.商户评论矩阵词嵌入操作:使用词嵌入工具GloVe预训练的d维词向量,对评论矩阵Mr进行词嵌入Embedding操作,得到词嵌入评论矩阵其中的长度为d;
S24.构建评论对应评分向量:拼接每条评论对应的评分,生成长度为m的评论对应评分向量Vg=(g1;gs;...;gm),其中gm代表第m条评论的评分;
S25.对Lr中的所有商户执行S21至S24中的步骤,生成Me的集合λe,生成Vg的集合λg;
S3.训练用于获取商户语义特征的情感分类神经网络模型,具体包含以下子步骤:
S31.将λe输入至CNN卷积层中,使用μ个不同宽度的卷积核对λe进行卷积操作,过程表示为:
其中为卷积层的输出,wl是宽度为l的卷积核进行卷积操作时的可学习参数矩阵,bl为偏置项参数,f为激活函数;
S32.将μ个不同宽度的卷积核卷积生成的分别输入至池化层中,进行池化操作后输出μ个
S33.将S32生成的μ个输入至平均池化层,进行平均池化操作,输出Oa;
S34.将Oa输入到全连接层中,得到情感分类的结果集合计算公式如下:
其中W为可学习参数矩阵,为偏置项参数,g为激活函数;
S35.通过损失函数MSE不断迭代λg与中每个评分之间的损失值,当达到迭代终止条件时,停止训练;
S36.对Oa执行Reshape变形操作,得到商户语义特征向量集合λs;
S4.商户语义特征权重计算:设某一评论的评分为ηr,收到的点赞数为vr,撰写该评论的顾客总计撰写评论ru条,平均打分为ηu,且该顾客的所有评论共收到点赞数为vu,则以I表示这一评论的权重,计算方法如下:
I=ln((vr+vu/ru)*|ηu-ηr|+1),I∈[0,1);
S5.获取商户语义特征:将λs中每个元素扩展一位,并将对应评论的I填入该空位,则得到附带权重的商户语义特征向量集合λs′;
S6.获取商户业务特征,具体包含以下子步骤:
S61.构建初始商户业务特征向量:将商户rp的所有业务属性整合为业务属性向量Vb_origin=(b1;b2;...;bh),其中bh表示第h个业务属性的值,h为业务属性的数量;
S62.对Lr中所有的商户执行S61步骤,生成Vb_origin的集合λb_origin;
S63.将λb_origin输入至LightGBM模型,输出设置为λy,设定评价指标为交叉熵,当交叉熵最小时停止训练,输出各个业务属性的权重集合...
【专利技术属性】
技术研发人员:孙笑笑,梁平,俞东进,王欣峰,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。