当前位置: 首页 > 专利查询>云南大学专利>正文

一种跨领域垃圾评价识别的方法技术

技术编号:15840728 阅读:26 留言:0更新日期:2017-07-18 16:51
本发明专利技术公开一种跨领域垃圾评价的识别方法。设计遗传算法筛选源评论的关键特征子集,并基于该特征子集定义评论的领域相关特征和领域无关特征;其次,根据领域无关特征与领域相关特征共同出现的频度定义相关矩阵,并基于拉普拉斯特征映射将领域相关特征映射为一个新的表示;最后,使用源数据与映射之后领域相关特征训练分类器,并用该分类器识别出目标领域的垃圾评论。

Method for cross domain garbage evaluation and identification

The invention discloses an identification method for cross domain garbage evaluation. The key feature subset design genetic algorithm source screening review, and based on the definition of the related comments feature subset features and domain independent features; secondly, according to the definition of the correlation matrix of frequency domain independent features and related features appear together, and Laplasse will feature mapping based on field feature mapping for a new representation; finally, after using the source data and mapping related features to train the classifier, and the classifier to recognize the target in the field of spam.

【技术实现步骤摘要】
一种跨领域垃圾评价识别的方法
本专利技术属于机器学习,涉及一种跨领域垃圾评价识别的方法。技术背景随着电子商务日益成熟,在线消费逐渐成为人们日常生活消费的一种重要选择。在线消费过程中,消费者对产品的评价是在线购物中的一个重要环节,消费者通过评价对产品作出一个相应的响应和反馈。基于评论的情感分析不仅可以了解消费者在评论中表现出的褒贬态度,还可以进行客户满意度分析、产品的评估和市场预测等等。然而,基于评论的情感分析的有效性建立在评论数据是真实可信的基础上。为了误导消费者或进行不公平的竞争,不良商家会采取一些虚假的垃圾评论。这些不真实的评论最终会破坏市场的秩序、损害消费者的利益。垃圾评论的识别旨在识别出对情感分析没有贡献的评论,为进一步的情感分析奠定基础,具有很好的应用价值和实际意义。虽然垃圾评论可能存在一些共同特征,但针对不同领域评论对象的评论内容会随之变化,评论的有效性可能还和领域相关的特征相关,将一个领域训练得到的模型直接应用到另一个领域中的效果可能并不是很理想。跨领域的垃圾评论识别方法旨在通过结合领域无关特征和领域相关特征,提高训练模型的适应能力。
技术实现思路
基于上述跨领域垃圾评论存在的问题,本专利技术提出一种跨领域垃圾评价识别的方法,通过遗传算法识别出影响源评论是否可信的特征集,并根据这个特征集定义领域相关特征和领域无关特征,再根据这两个集合定义跨领域垃圾评论的特征集合;其次,利用领域相关特征和领域无关特征之间的共同出现关系定义映射函数,将目标领域的领域相关特征映射到源领域,从而基于映射数据训练跨领域的垃圾评论的分类器,提高分类器在目标评论分类中的适应能力。本专利技术提供一种跨领域垃圾评价识别的方法,其特征在于包括以下步骤:步骤1:对评论进行初始特征定义X=(x1,x2,…,xq),其中,特征包括源域和目标域评论中词频大于预先设定阀值ε的词集W、积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量;词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word);源领域还包括是否为垃圾评论的类别标签y,根据特征集对m条源评论进行特征化,得到源领域评论集DS=;步骤2:使用遗传算法筛选评论的特征定义X的关键特征Z=(z1,z2,…,zr)⊆X;步骤3:定义WS=Z∩W,WI=W-WS,XI=(Z-WS)∪WI,其中,WS是领域相关特征,XI领域无关特征;使用X'=WS∪XI=(x'1,x'2,…,x'r)⊆X定义评论的特征;按照特征集X'将源领域评论集和目标领域评论集进行特征化得到D'S=和D'T=;步骤4:定义‖WS‖×‖XI‖的相关矩阵R,rij是特征Ri∈WS与Rj∈XI共同出现的评论数;步骤5:构造矩阵;;L=B-A;计算L的最小α个非零特征值对应的特征向量v1,v2,…,vα,并组成矩阵F=[v1,v2,…,vα];U=F[1:‖WS‖,:],即F中第1到‖WS‖行定义为U;定义映射函数φ(t)=tU将领域相关特征t映射为tU;步骤6:定义函数识别出评论x中的领域相关特征,将领域相关特征t映射为tU合并到评论定义中,即D'S=;基于D'S训练分类器f;步骤7:基于f对目标评论D'T=的每一条评论预测是否为垃圾评论。另外,步骤2中使用遗传算法筛选评论特征定义X的关键特征Z=(z1,z2,…,zr)⊆X,其特征在于通过如下的步骤完成:步骤2.1:将源领域评论DS分为训练集DS1和测试集DS2两个子集;步骤2.2:染色体设计为对应X=(x1,x2,…,xq)的q个二进制串,1表示选择对应的特征,0表示不选择对应的特征;步骤2.3:设置初始种群,迭代初始值t=0和最高迭代次数maxt;步骤2.4:根据种群中每一个染色体CHi=(chi1,chi2,chi3,……,chiq),将DS1和DS2中的对应CHi取1的特征和类别标签投影到D'S1和D'S2中;在D'S1训练分类器并预测D'S2的类别再统计预测准确度Acci;按照计算适应度函数;步骤2.5:如果达到最高迭代次数maxt或者适应度f>θ,那么当前适应度最大的染色体对应的特征集合就是关键特征子集,否则为种群大小为size的每个个体按照概率设置进入下一代繁殖的概率;采用单点交叉和单点变异的繁殖方式得到下一代种群,并跳转到步骤2.4。附图说明图1为本专利技术的算法流程图。具体实施方式结合附图1,对依据本专利技术提供的具体实施方式,详细说明如此下。如图1所示,跨领域的垃圾评论识别的第一步定义评论的初始特征集。特征除了包括评论中词频大于预先设定阀值ε的词集W之外,还包括可能影响评论是否可信特征,如积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量;源领域还包括是否为垃圾评论的类别标签y,词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word);根据特征集对m条源评论特征化,得到源领域评论集DS=;第二步,基于遗传算法筛选源领域评论的关键特征X'=(x'1,x'2,…,x'r)⊆X=(x1,x2,…,xq);步骤2.1将源领域评论DS分为训练集DS1和测试集DS2两个子集;步骤2.2按照评论的特征集X=(x1,x2,…,xq)进行编码,得到CHi=(chi1,chi2,chi3,……,chiq),1表示选择对应的特征,0表示不选择该特征;例如X=(x1,x2,…,x5,x6),则选择特征x2、x3,x5可以表示为(0,1,1,0,1,0);步骤2.3:随机生成初始种群,例如{CH1=(1,1,1,0,0,0),CH2=(0,0,0,1,1,1),CH3=(1,0,0,0,1,0)};迭代初始值t=0和最高迭代次数maxt;步骤2.4:根据种群中每一个染色体CHi=(chi1,chi2,chi3,……,chiq),将DS1和DS2中对应CHi取1的特征和类别标签投影到D'S1和D'S2中。在D'S1训练分类器并预测D'S2的类别再统计预测准确度Acci;按照计算适应度函数;分类器可以采用回归函数,训练得到θT,对每一个xs2j∈D'S2中的评论进行预测类别,并将该类别和xs2j在D'S2中的类别比较,统计所有D'S2的预测准确度Acci;按照计算适应度函数;步骤2.5:如果达到最高迭代次数maxt或者适应度f>θ,那么当前适应度最大的染色体对应的特征集合就是关键特征子集,否则为种群大小为size的每个个体按照概率设置进入下一代繁殖的概率;采用单点交叉和单点变异的繁殖方式得到下一代种群,并跳转到步骤2.4;假设0.623;f(CH2)=0.913;f(CH3)=0.935,则CH1计算选择的概率=0.25;按照同样的方法再求得p(CH2)=0.37;p(CH3)=0.38。如果淘汰CH1,并通过CH2和CH3的交叉和变异得到下一代种群;为该种群重复刚才的计算直到f>θ=0.98或者到达设置的迭代次数maxt结束迭代;假设当前适应度最大的染色体为(1,0,0,1,1,0),则表示关键特征为{x1,x4,x5};步骤3:定义WS=Z∩本文档来自技高网...
一种跨领域垃圾评价识别的方法

【技术保护点】
跨领域垃圾评价识别的方法,其特征在于包括以下步骤:步骤1:对评论进行初始特征定义

【技术特征摘要】
1.跨领域垃圾评价识别的方法,其特征在于包括以下步骤:步骤1:对评论进行初始特征定义X=(x1,x2,…,xq),其中,特征包括源域和目标域评论中词频大于预先设定阀值ε的词集W、积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量;词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word);源领域还包括是否为垃圾评论的类别标签y,根据特征集对m条源评论进行特征化,得到源领域评论集DS=;步骤2:使用遗传算法筛选评论的特征定义X的关键特征Z=(z1,z2,…,zr)⊆X;步骤3:定义WS=Z∩W,WI=W-WS,XI=(Z-WS)∪WI,其中,WS是领域相关特征,XI领域无关特征;使用X'=WS∪XI=(x'1,x'2,…,x'r)⊆X定义评论的特征;按照特征集X'将源领域评论和目标领域评论进行特征化得到D'S=和D'T=;步骤4:定义‖WS‖×‖XI‖的相关矩阵R,rij是特征Ri∈WS与Rj∈XI共同出现的评论数;步骤5:构造矩阵;;L=B-A;计算L的最小α个非零特征值对应的特征向量v1,v2,…,vα,并组成矩阵F=[v1,v2,…,vα];U=F[1:‖WS‖,:],即F中第1到‖WS‖行定义为U;定义映...

【专利技术属性】
技术研发人员:李维华王顺芳
申请(专利权)人:云南大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1