一种自动审核评论并打标签系统技术方案

技术编号:26504967 阅读:24 留言:0更新日期:2020-11-27 15:32
本发明专利技术公开了一种自动审核评论并打标签系统,包括:利用运营人员日常标注过的评论数据进行学习,训练神经网络模型,评论模型和一级标签预测模型;针对一条评论数据进行审核,包括审核所述评论数据的有效字数,所述有效字数小于预设定有效字数判断为不通过;审核所述评论数据是否存在违规词语,如果存在违规词语判断为不通过;如果通过,用所述神经网络模型进行判断;如果通过,挖掘所述评论数据的关键词并与一级标签进行匹配,如果相同定义为命中,直接绑定至相应一级标签;当没有命中所述一级标签时,用所述神经网络模型进行一级标签命中预测,如果所述一级标签被预测到,就绑定上相应的所述一级标签;可以大大提升电商平台对评论的审核成本。

【技术实现步骤摘要】
一种自动审核评论并打标签系统
本专利技术涉及深度学习
,特别涉及自然语言处理,一种自动审核评论并打标签系统。
技术介绍
近年来随着电子商务的发展,各大电商平台发展如火如荼,用户进行网购已经成为生活中的一种习惯,而在网购行为结束后,用户在电商网站与平台上留下自己对商品的评论也已经是一种无需思考的行为,评论里包含了用户对商品的看法以及使用心得与个人使用体验及感受,这对电商平台而言是非常宝贵的财富,筛选出有效的可以通过审核的评论,并从用户的有效评论中找到用户对商品不同维度的感受,进而进行个性化展示,对丰富商品的整体形象,对后续用户的购买行为的引导,以及让用户客观的了解商品都具有积极的意义。CN105824898A公开的网络评论的标签提取方法和装置,对评论短句进行评论对象和情感类别的标注。然后按照评论对象进行统计,统计同一评论对象中情感类别为正面情感的评论短句数量,并将统计结果作为标签进行提取。与仅将评论短句进行语义去重提取标签的方法相比,标签中含有评论短句评述的对象,以及对评述对象的正面和负面评论数信息,可以将商品的某一方面信息以更加简洁的标签形式进行展示,改善用户的购物体验。CN107633007A提供了一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块;数据抓取模块对语料信息和评论数据进行存储;词向量训练模块得到训练语料集;特征信息抽取模块得到评论数据对应的特征信息集合;特征信息标签化模块得到聚类后的评论数据标签化结果。本专利技术的有益效果为:提供了一种基于层次化AP聚类的商品评论数据标签化的系统和方法,达到了自动完成评论数据标签化的目的,并且可以挖掘这些特征信息的价值取向,以标签的形式展现给商家和客户,为后续的数据分析提供支持,也可以为企业和消费者提供一个方便、科学、直观地获取有用评论信息的工具。CN108984523A涉及自然语言处理领域,特别涉及一种基于深度学习模型的商品评论情感分析方法,抓取的商品评论数据,并将商品评论数据中的一星和二星评价标注为积极评论,四星和五星评价标注为消极评论,将商品评论数据分为训练集和测试集,并进行预处理;构建出情感要素词典集和情感特征向量,根据训练集预处理得到的词序列和情感特征向量得到词向量,多个词向量连接形成文本向量;构建动态卷积神经网络模型,以文本向量作为训练对象通过BP算法和随机梯度下降算法更新动态卷积神经网络的网络参数,最终得到情感分类模型并对测试集进行情感标注;本专利技术结合动态卷积神经网络能够提高分类模型泛化能力,能够实现较好的分类效果。目前,电商平台对于评论内容的挖掘,比较依赖于运营小编的人工审核,对于评论是否可以通过,需审核是否命中黑名单关键词,是否属于营销型评论等。而对于评论的关联标签操作,需提前设定好与评论相关联的特色标签,人工进行评论的理解与审核,挑选命中的标签进行人工审核并绑定,比如认为这条评论设计“商品外观”,“使用体验”等标签。此外还会通过在标签下收集常见的对应关键词,若评论内容命中了关键词便会绑定上相应标签。这些方法时间和人力成本都比较高,对于现在电商的繁荣,可能一天新增加的评论数就有很多,以上方法显得有些吃力。此外,单纯只靠关键词来绑定标签,会遗漏很多评论,因为有些时候这条评论可能没有命中关键词,但仔细理解评论里文字的意思可能是符合某些标签的意思的。
技术实现思路
本专利技术实施例提供了一种自动审核评论并打标签系统。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。根据本专利技术实施例,提供了一种自动审核评论并打标签系统,包括:S1:利用运营人员日常标注过的数据进行学习,训练神经网络模型,所述神经网络模型包括,营销型评论或者导流型评论模型和标签预测模型;S2:审核针对一条评论,包括有效字数判断与黑名单词汇扫描,判断能否通过;S3:如果通过,用所述神经网络模型进行判断是否为营销型评论或者导流型评论;S4:如果通过,一级标签进行关键词的挖掘,找到标签下能命中的那些关键词,直接绑定至相应标签;S5:当没有命中所述一级标签关键词时,用所述神经网络模型进行标签命中预测,标签被预测到,就绑定上相应的标签;S6:进行二级标签的抽取,抽取出评论中用户的核心主观观点,作为二级标签,二级标签可以个性化展示评论内容。优选的,所述训练神经网络模型是离线进行,评论数据的规范化处理,并送入神经网络模型中进行训练。优选的,所述营销型评论或者导流型评论模型为1个分类器,规定目标值为“1”即为营销型或导流型的评论,目标值为“0”即为非营销型或导流型的评论。优选的,所述标签预测模型为二分类器,对于n个标签变量建立n个二分类器,对于分类器规定目标值为“1”,打上相对应的标签。优选的,所述二分类器采用fasttext技术来实现。优选的,为了使用fasttext,所述评论数据的规范化处理包括数据标注,分词,停止词过滤,构建成fasttext要求的格式化数据集;所述数据标注是指首先对每条评论进行人工标注是与否,把标签中符合的标签绑定到评论上;所述分词就是将中文文本,分成一个字,一个字的形式;所述停止词过滤即去掉那些无意义的汉字及所有标点符号。优选的,所述fasttext要求的格式化数据集包括训练集与测试集,训练集与测试集都是一个txt文件,文件内每一行即为一条样本数据。优选的,所述标签命中预测,模型判断为“1”的标签关联到评论上。优选的,所述二级标签的抽取采用无监督学习的模型,通过文本分析,抽取出用户表达的对商品的观点,这些抽取出来的个性化的标签,作为二级标签的结果。优选的,所述无监督学习的模型为ltp语言分析工具。本专利技术实施例提供的技术方案可以包括以下有益效果:利用自然语言处理技术对用户评论进行自动化审核与自动化打标的工作,可以大大提升电商平台对评论的审核成本,包括时间成本与人力成本。只需前期电商平台运营人员进行数据标准工作,积累了足够多的训练集样本数据后,便可利用fasttext训练速度快的优势,迅速得到深度学习模型,此后便可利用模型比较好的泛化性能代替人工进行评论的审核与打标签操作,后续人工只需要进行抽检工作即可。此外,构建的二级标签体系,可以更丰富的展示用户评论的原生内容,让用户感受到更真实与贴切的商品评价与商品描述,进而引起用户更大的关注,也提高了点评的可参考性与外在价值。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的自动审核评论并打标签系统的流程图;图2是根据一示例性实施例示本文档来自技高网
...

【技术保护点】
1.一种自动审核评论并打标签系统,其特征在于,包括,/nS1:利用运营人员日常标注过的评论数据进行学习,训练神经网络模型,所述神经网络模型包括,营销型评论模型或者导流型评论模型和一级标签预测模型;/nS2:针对一条评论数据进行审核,包括审核所述评论数据的有效字数,所述有效字数小于预设定有效字数判断为不通过;审核所述评论数据是否存在违规词语,如果存在违规词语判断为不通过;/nS3:如果通过,用所述神经网络模型进行判断是否为营销型评论或者导流型评论;/nS4:如果通过,挖掘所述评论数据的关键词并与一级标签进行匹配,如果相同定义为命中,直接绑定至相应一级标签;/nS5:当没有命中所述一级标签时,用所述神经网络模型进行一级标签命中预测,如果所述一级标签被预测到,就绑定上相应的所述一级标签;/nS6:进行二级标签的抽取,抽取出评论中用户的核心主观观点,作为二级标签,所述二级标签个性化展示评论内容。/n

【技术特征摘要】
1.一种自动审核评论并打标签系统,其特征在于,包括,
S1:利用运营人员日常标注过的评论数据进行学习,训练神经网络模型,所述神经网络模型包括,营销型评论模型或者导流型评论模型和一级标签预测模型;
S2:针对一条评论数据进行审核,包括审核所述评论数据的有效字数,所述有效字数小于预设定有效字数判断为不通过;审核所述评论数据是否存在违规词语,如果存在违规词语判断为不通过;
S3:如果通过,用所述神经网络模型进行判断是否为营销型评论或者导流型评论;
S4:如果通过,挖掘所述评论数据的关键词并与一级标签进行匹配,如果相同定义为命中,直接绑定至相应一级标签;
S5:当没有命中所述一级标签时,用所述神经网络模型进行一级标签命中预测,如果所述一级标签被预测到,就绑定上相应的所述一级标签;
S6:进行二级标签的抽取,抽取出评论中用户的核心主观观点,作为二级标签,所述二级标签个性化展示评论内容。


2.根据权利要求1所述的自动审核评论并打标签系统,其特征在于,所述训练神经网络模型是离线进行的,首先进行所述评论数据的规范化处理,然后送入神经网络模型中进行训练。


3.根据权利要求2所述的自动审核评论并打标签系统,其特征在于,所述营销型评论模型或者导流型评论模型为1个分类器,规定目标值为“1”即为营销型或导流型的评论,目标值为“0”即为非营销型或非导流型的评论。


4.根据权利要求2所述的自动审核评论并打标签系统,其特征在于,所述一级标签预测模型为二分类器,对于n个标签变量建立n个...

【专利技术属性】
技术研发人员:王鹏翔
申请(专利权)人:北京值得买科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1