当前位置: 首页 > 专利查询>广州大学专利>正文

基于特征融合及筛选的虚假评论检测方法、系统及介质技术方案

技术编号:33531074 阅读:59 留言:0更新日期:2022-05-19 02:02
本发明专利技术公开了基于特征融合及筛选的虚假评论检测方法、系统及介质,方法为:使用分词工具对文本评论进行操作后捕捉前后词对信息,进行词向量训练得到评论文本特征;提取评论者及其行为信息确定评论者行为特征;用异常检测算法提取虚假评论的异常信息,构建虚假分数特征;将三种特征进行拼接,获得虚假评论特征;对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集;将评论特征集输入XGBoost模型中进行训练获得参数最优下的识别结果。本发明专利技术通过提取评论文本特征、多角度构建评论者行为特征及应用异常检测算法构建虚假分数特征,再借鉴集成思想将采用特征选择方法筛选出重要特征送入网络模型中进行训练,增强了特征可解释性,提升了检测性能。提升了检测性能。提升了检测性能。

【技术实现步骤摘要】
基于特征融合及筛选的虚假评论检测方法、系统及介质


[0001]本专利技术属于虚假评论检测
,具体涉及一种基于特征融合及筛选的虚假评论检测方法、系统及介质。

技术介绍

[0002]随着网络通信的不断升级,当代人在网上进行购物交易的频率逐渐提高,伴随而来的便是消费者对购入商品信息评论的激增。由于交易平台对消费者发表评论限制较为宽松,导致许多消费者在评论时候会添加过于强烈的个人感情,更有甚者会刷恶意评论,也有商家为吸引用户雇佣水军刷虚假好评。已购入商品的消费者的反馈评论在很大程度上会影响之后用户对商品的选择,虚假的评论则不利于用户挑选出心仪的商品,严重损害用户权益和破坏市场平衡,所以对虚假评论进行识别检测是十分必要的。
[0003]现有技术中,在进行虚假评论检测时,将其定义为一个二分类的问题,首先通过已经标注的数据集来提取特征并且训练分类器,然后将新数据特征输入这个分类器去预测是虚假评论或真实评论。传统方法的特征基本来源于评论的文本内容、评论情感和用户行为这三大类,对于一些文本特征不明显的评论,效果并不佳。高珮发表的《基于马尔科夫随机场的虚假评论在线检测技术的研究》论文中,利用评论之间的关系生成动态评论图,随后建立马尔科夫随机场模型,最后利用LBP算法来求解该马尔科夫随机场,在处理虚假评论问题上有较高的精确率和召回率。王宇在《一种基于机器学习的垃圾评论实时检测方法》中,通过异常度的评论搭建了LDA_ABN模型,将文本进行预处理后进行标准比对,将语料文本长度大于7的文本提出,通过模型计算预估特征权重与垃圾评论的阈值比较,从而进行垃圾评论的筛选。
[0004]但上述方法主要从评论文本内容入手,过于依赖文本中评论的质量,且特征本身就难提取,如果文本评论数据质量不佳,相似性更加难以作为划分依据,并且当今虚假评论者在进行评论时,都会刻意模仿甚至抄袭真实评论,导致虚假和真实评论的文本内容十分相近。除此之外,很多时候虚假评论占少数,导致正负样本比例不平衡,不利于模型训练,导致最终实验效果不佳。

技术实现思路

[0005]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于特征融合及筛选的虚假评论检测方法、系统及介质,本方法不仅考虑了文本内容,并构建了评论者行为特征,还基于异常检测算法提取虚假评论的异常信息,得到虚假得分特征,解决了正负样本不平衡问题,同时使得特征空间表达更充分;借鉴集成思想,采用特征选择算法进行重要特征筛选,筛选结果稳定,特征可解释性强,从而使提升了检测性能。
[0006]为了达到上述目的,本专利技术采用以下技术方案:
[0007]本专利技术一方面提供了一种基于特征融合及筛选的虚假评论检测方法,包括下述步骤:
[0008]获取文本评论,使用分词工具对文本评论进行操作后,捕捉前后词对信息,进行词向量训练得到评论文本特征;
[0009]获取文本评论对应的评论者信息,提取评论者及其行为信息确定评论者行为特征;
[0010]根据评论文本特征和评论者行为特征,应用多种异常检测算法提取虚假评论样本的异常信息,计算异常得分即虚假得分作为虚假分数特征;
[0011]将评论文本特征、评论者行为特征及虚假分数特征进行拼接,获得虚假评论特征;
[0012]对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集;
[0013]将评论特征集输入XGBoost模型中进行训练,使用网格搜索法和贝叶斯法结合调参,获得参数最优下的识别结果。
[0014]优先的,所述评论文本特征获取步骤具体为:
[0015]使用分词工具对文本评论进行分词、过滤停用词及删除非法字符操作,得到评论文本序列w={w1,w2,...,w
T
},T表示评论文本序列的长度;
[0016]对评论文本序列使用Bigram算法捕捉前后词对信息,得到Bigram评论文本序列u={w1,(w1,w2),w2,(w2,w3),...,w
T
};
[0017]将Bigram评论文本序列所对应的One

Hot词向量输入Word2vec模型中进行训练,使用Skip

gram算法得到分布式词向量;
[0018]遍历每条文本评论,累加所有分布式词向量并取平均得到文本向量作为评论文本特征。
[0019]优先的,所述Skip

gram算法依据中心词生成前后词,具体为:
[0020]Skip

gram算法中,给定中心词w
c
及其对应One

Hot词向量v
c
,前后词w
b
及其对应One

Hot词向量u
b
,则给定中心词w
c
生成前后词w
b
的概率为:
[0021][0022]则对于长度为T的评论文本序列w,给定滑动窗口j,则任一中心词w
k
生成前后词w
k+j
的概率为:
[0023][0024]其中,t表示滑动窗口的长度;
[0025]取对数获得最小化损失函数:
[0026][0027]训练过程中,采用随机梯度下降更新算法参数,将(1)代入(3)求微分得到中心词向量v
c
的梯度:
[0028][0029][0030]通过循环训练,最终得到分布式词向量。
[0031]优先的,所述评论者行为特征包括评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数、句子数、评论所含名词、动词、形容词、副词个数、评论时间、评论情感极性、评分评论一致性、评论者极端评分比例、评论者评分偏差程度、评论者总评论数、评论者活跃程度;
[0032]所述评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数及句子数,用于判断评论者商品体验状况;
[0033]所述评论所含名词、动词、形容词及副词个数,用于获取对应词类的使用频率;
[0034]所述评论时间,用于获取评论的时间戳信息;
[0035]所述评论情感极性,用于判断评论情感表达;
[0036]所述评分评论一致性,用于判断评论情感与评分的一致性;
[0037]所述评论者极端评分比例,用于获取评论者极端评分行为占所有评分行为的占比;
[0038]所述评论者评分偏差程度,用于获取评论者所有评分的方差;
[0039]所述评论者总评论数,用于获取评论者所有评分行为数;
[0040]所述评论者活跃程度,用于获取相邻两条评论时间的间隔最大值。
[0041]优先的,所述虚假分数特征获得步骤具体为:
[0042]将评论文本特征和评论者行为特征进行归一化处理,得到归一化特征集;
[0043]分别应用6种异常检测方法计算归一化特征集中每一样本的异常分数,获得样本的6维异常分数作为样本的虚假得分;
...

【技术保护点】

【技术特征摘要】
1.基于特征融合及筛选的虚假评论检测方法,其特征在于,包括下述步骤:获取文本评论,使用分词工具对文本评论进行操作后,捕捉前后词对信息,进行词向量训练得到评论文本特征;获取文本评论对应的评论者信息,提取评论者及其行为信息确定评论者行为特征;根据评论文本特征和评论者行为特征,应用多种异常检测算法提取虚假评论样本的异常信息,计算异常得分即虚假得分作为虚假分数特征;将评论文本特征、评论者行为特征及虚假分数特征进行拼接,获得虚假评论特征;对虚假评论特征使用多种特征选择方法筛选出重要特征集并求交集获得评论特征集;将评论特征集输入XGBoost模型中进行训练,使用网格搜索法和贝叶斯法结合调参,获得参数最优下的识别结果。2.根据权利要求1所述基于特征融合及筛选的虚假评论检测方法,其特征在于,所述评论文本特征获取步骤具体为:使用分词工具对文本评论进行分词、过滤停用词及删除非法字符操作,得到评论文本序列w={w1,w2,

,w
T
},T表示评论文本序列的长度;对评论文本序列使用Bigram算法捕捉前后词对信息,得到Bigram评论文本序列u={w1,(w1,w2),w2,(w2,w3),

,w
T
};将Bigram评论文本序列所对应的One

Hot词向量输入Word2vec模型中进行训练,使用Skip

gram算法得到分布式词向量;遍历每条文本评论,累加所有分布式词向量并取平均得到文本向量作为评论文本特征。3.根据权利要求2所述基于特征融合及筛选的虚假评论检测方法,其特征在于,所述Skip

gram算法依据中心词生成前后词,具体为:Skip

gram算法中,给定中心词w
c
及其对应One

Hot词向量v
c
,前后词w
b
及其对应One

Hot词向量u
b
,则给定中心词w
c
生成前后词w
b
的概率为:则对于长度为T的评论文本序列w,给定滑动窗口j,则任一中心词w
k
生成前后词w
k+j
的概率为:其中,t表示滑动窗口的长度;取对数获得最小化损失函数:训练过程中,采用随机梯度下降更新算法参数,将(1)代入(3)求微分得到中心词向量v
c
的梯度:
通过循环训练,最终得到分布式词向量。4.根据权利要求1所述基于特征融合及筛选的虚假评论检测方法,其特征在于,所述评论者行为特征包括评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数、句子数、评论所含名词、动词、形容词、副词个数、评论时间、评论情感极性、评分评论一致性、评论者极端评分比例、评论者评分偏差程度、评论者总评论数、评论者活跃程度;所述评论长度、所含单词平均长度、句子平均长度、评论所含数字数、单词数及句子数,用于判断评论者商品体验状况;所述评论所含名词、动词、形容词及副词个数,用于获取对应词类的使用频率;所述评论时间,用于获取评论的时间戳信息;所述评论情感极性,用于判断评论情感表达;所述评分评论一致性,用于判断评论情感与评分的一致性;所述评论者极端评分比例,用于获取评论者极端评分行为占所有评分行为的占比;所述评论者评分偏差程度,用于获取评论者所有评分的方差;所述评论者总评论数,用于获取评论者所有评分行为数;所述评论者活跃程度,用于获取相邻两条评论时间的间隔最大值。5.根据权利要求1所述基于特征融合及筛选的虚假评论检测方法,其特征在于,所述虚假分数特征获得步骤具体为:将评论文本特征和评论者行为特征进行归一化处理,得到归一化特征集;分别应用6种异常检测方法计算归一化特征集中每一样本的异常分数,获得样本的6维异常分数作为样本的虚假得分;将所有样本虚假得分进行拼接,获得虚假分数特征。6.根据权利要求5所述基于特征融合及筛选的虚假评论检测方法,其特征在于,所述6种异常检测方法包括IForest算法、PCA算法、LOF算法、KNN算法、HBOS算法和AutoEncoder算法;所述IForest算法利用叶子节点到根节点的路径长度计算异常分数,具体为:对于单棵树,存在n个样本,其中样本x在孤立树上的高度计算公式如下:对于单棵树,存在n个样本,其中样本x在孤立树上的高度计算公式如下:对于单棵树,存在n个样本,其中样本x在孤立树上的高度计算公式如下:其中,c(n)表示树的平均路径长度,h(x)表示调和数,为欧拉常数;对于孤立森林,样本x在每棵树上的高度均值为E(h(x,n)),则IForest异常分数IForest_S(x,n)表示为:所述PCA算法通过将向量矩阵特征分解为特征向量计算异常分数,具体为:定义一个点x的PCA异常分数为PCA_S(x),设样本矩阵X有n个特征向量,则PCA异常分数
计算公式为:其中,z
i
为样本矩阵X中第i个特征向量,v
i
为沿该特征向量方向上的方差,即为该特征向量对应的特征值,X
T
为样本矩阵X的转置;所述LOF算法利用密度计算异常分数,具体为:设样本x的LOF异常分数为LOF_S(x),d(x,y)表示样本x到样本y的距离,d

【专利技术属性】
技术研发人员:李树栋钟国金吴晓波韩伟红
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1