一种跨领域垃圾评价识别的方法技术

技术编号：15840728 阅读：42 留言：0更新日期：2017-07-18 16:51

本发明专利技术公开一种跨领域垃圾评价的识别方法。设计遗传算法筛选源评论的关键特征子集，并基于该特征子集定义评论的领域相关特征和领域无关特征；其次，根据领域无关特征与领域相关特征共同出现的频度定义相关矩阵，并基于拉普拉斯特征映射将领域相关特征映射为一个新的表示；最后，使用源数据与映射之后领域相关特征训练分类器，并用该分类器识别出目标领域的垃圾评论。

Method for cross domain garbage evaluation and identification

The invention discloses an identification method for cross domain garbage evaluation. The key feature subset design genetic algorithm source screening review, and based on the definition of the related comments feature subset features and domain independent features; secondly, according to the definition of the correlation matrix of frequency domain independent features and related features appear together, and Laplasse will feature mapping based on field feature mapping for a new representation; finally, after using the source data and mapping related features to train the classifier, and the classifier to recognize the target in the field of spam.

全部详细技术资料下载

【技术实现步骤摘要】
一种跨领域垃圾评价识别的方法
本专利技术属于机器学习，涉及一种跨领域垃圾评价识别的方法。技术背景随着电子商务日益成熟，在线消费逐渐成为人们日常生活消费的一种重要选择。在线消费过程中，消费者对产品的评价是在线购物中的一个重要环节，消费者通过评价对产品作出一个相应的响应和反馈。基于评论的情感分析不仅可以了解消费者在评论中表现出的褒贬态度，还可以进行客户满意度分析、产品的评估和市场预测等等。然而，基于评论的情感分析的有效性建立在评论数据是真实可信的基础上。为了误导消费者或进行不公平的竞争，不良商家会采取一些虚假的垃圾评论。这些不真实的评论最终会破坏市场的秩序、损害消费者的利益。垃圾评论的识别旨在识别出对情感分析没有贡献的评论，为进一步的情感分析奠定基础，具有很好的应用价值和实际意义。虽然垃圾评论可能存在一些共同特征，但针对不同领域评论对象的评论内容会随之变化，评论的有效性可能还和领域相关的特征相关，将一个领域训练得到的模型直接应用到另一个领域中的效果可能并不是很理想。跨领域的垃圾评论识别方法旨在通过结合领域无关特征和领域相关特征，提高训练模型的适应能力。
技术实现思路
...
一种跨领域垃圾评价识别的方法

【技术保护点】
跨领域垃圾评价识别的方法，其特征在于包括以下步骤：步骤1：对评论进行初始特征定义

【技术特征摘要】
1.跨领域垃圾评价识别的方法，其特征在于包括以下步骤：步骤1：对评论进行初始特征定义X=(x1,x2,…,xq)，其中，特征包括源域和目标域评论中词频大于预先设定阀值ε的词集W、积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量；词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word)；源领域还包括是否为垃圾评论的类别标签y，根据特征集对m条源评论进行特征化，得到源领域评论集DS=；步骤2：使用遗传算法筛选评论的特征定义X的关键特征Z=(z1,z2,…,zr)⊆X；步骤3：定义WS=Z∩W，WI=W-WS，XI=(Z-WS)∪WI，其中，WS是领域相关特征，XI领域无关特征；使用X'=WS∪XI=(x'1,x'2,…,x'r)⊆X定义评论的特征；按照特征集X'将源领域评论和目标领域评论进行特征化得到D'S=和D'T=；步骤4：定义‖WS‖×‖XI‖的相关矩阵R，rij是特征Ri∈WS与Rj∈XI共同出现的评论数；步骤5：构造矩阵；；L=B-A；计算L的最小α个非零特征值对应的特征向量v1,v2,…,vα，并组成矩阵F=[v1,v2,…,vα]；U=F[1：‖WS‖，：]，即F中第1到‖WS‖行定义为U；定义映...

【专利技术属性】
技术研发人员：李维华，王顺芳，
申请(专利权)人：云南大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人