【技术实现步骤摘要】
一种多层级用户评论安全审核的模型构建方法
本专利技术涉及一种多层级用户评论安全审核的模型构建方法。
技术介绍
用户评论一般为社会大众对某新闻事件或消费者对特定产品/商品的评价,该数据是用户态度、问题、建议的载体,对媒体和产品评估和改进优化具有很大的参考价值。但用户评论数据多为非正式的文本、图像信息,其内容可能存在诸多垃圾信息(如言语辱骂、涉黄、低质灌水、暴力血腥等),同时随着互联网技术的迅速发展,用户对媒体新闻和商品网络点评、互动逐渐增强,综合上述等因素,网络评论数据的暴增使得媒体和商家在利用用户评论的辅助决策的同时也饱受评论内容安全检测、信息过载等的困扰。因此,如何高效、准确、全面地检测用户评论内容,对净化网络环境、规范网络发文信息、舆论舆情监管分析等具有重要意义。用户评论数据多为非正式的文本、图像信息,其具有口语化、多样化、隐晦性等特点,当前的检测方法普遍效果不佳或者不具备通用性,同时人工审核面临工作量大、成本高等问题。同时,传统的敏感词库匹配方法很难及时、高效地应对网络用语的更新变化。专利技术内 ...
【技术保护点】
1.一种多层级用户评论安全审核的模型构建方法,其特征在于:包括如下步骤:/n①构建词库:基于数据采集技术获取用户评论数据集;/n②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;/n③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;/n④输出审核结果:输出最终所检测的审核结果,同时将错误预测的结果用于优化敏感词词典。/n
【技术特征摘要】
1.一种多层级用户评论安全审核的模型构建方法,其特征在于:包括如下步骤:
①构建词库:基于数据采集技术获取用户评论数据集;
②构建正负样本:从用户评论数据集中构建评论正样本和评论负样本作为样本数据;
③迭代优化:切分样本数据为训练集和测试集,以训练集的评论正样本和评论负样本作为训练数据进行多周期迭代训练用户评论审核模型;
④输出审核结果:输出最终所检测的审核结果,同时将错误预测的结果用于优化敏感词词典。
2.如权利要求1所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤①中,基于用户评论数据集构建评论内容安全审核的特征库和模型训练样本,步骤②中构建的评论正样本和评论负样本叠加至模型训练样本中作为样本数据。
3.如权利要求1所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤②包括如下步骤:
L1.构建敏感词库:构建多种类别、多种敏感因子的多层级敏感词库;
L2.基于敏感因子的评论检测:根据不同类别和不同敏感因子权重的敏感词库的语义相似度匹配结果,对用户评论数据集进行不同层次的检测审核;
L3.构建评论情感分析模型:结合用户评论数据集和情感极性词库,进行评论情感分析模型的训练,情感极性包含的类别有“正向”、“负向”和“中性”;
L4.对基于敏感因子的评论检测结果进行情感极性分析:对不同层次的评论审核结果进行情感极性分析。
L5.构建用户评论正负样本:结合敏感因子的检测结果和评论情感极性分析结果,构建用于模型训练的评论正负样本。
4.如权利要求1所述的多层级用户评论安全审核的模型构建方法,其特征在于:所述步骤③包括如下步骤:
N1.用户评论审核模型协同训练:切分样本数据,进行数据特征工程并构建特征库,采用多个分类器进行协同训练,进行样本标签预测,对比修正和迭代优化模型,获得用户评论审核模型;
N2.加载用户评论审核模型:加载已训练好的用户评论审核模型;
N3.模型预测:结合已训练好的模型,对待测样本进行预测,获取高置信度的数据,依据预测结果对模型进行迭代优化。
5.如权利要求2所述的多层级用户评论...
【专利技术属性】
技术研发人员:常兵,印忠文,晏玉珽,曹扬,
申请(专利权)人:中电科大数据研究院有限公司,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。