【技术实现步骤摘要】
一种基于深度学习的产品信息审核方法及系统
本专利技术涉及计算机深度学习领域,特别是涉及一种基于深度学习的产品信息审核方法及系统。
技术介绍
互联网电商平台需要对商户上传的产品信息进行合规性审核,通常这种审核由人工完成,当平台规模较大时,需要耗费大量的人力,人工审核也存在审核效率低下、周期较长等问题,同时存在审核人员疲劳导致审核准确率下降的风险。本专利技术针产品信息审核的问题进行了方法和系统的设计,根据产品信息审核数据的各个字段,利用深度学习模型等方法抽取字段信息的特征,利用这些特征和审核结果构建分类模型,从而实现能否通过审核的判断。该方法和系统能够高效准确的完成产品信息的审核,最小化人工审核员的参与和工作量。单纯的用计算机程序的某一种信息审核数据的方法并不能保证审核的准确或效率。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足,提供一种基于深度学习的产品信息审核的方法及系统。尤其是根据产品信息审核数据的各个字段构建分类模型的输入特征,使用单层神经网络构建一个Wide分类模型,同时使 ...
【技术保护点】
1.一种基于深度学习的产品信息审核的方法,其特征在于,包括如下步骤:/n步骤一:准备产品信息审核数据集,筛选与审核结果有关的字段,并对人工审核结果的标注信息进行复核;与审核结果有关的一个或多个字段是指产品标题、产品描述、产地、关键词、品牌或/和所属目录;/n步骤二:对筛选后的产品信息审核数据集中的一个或多个字段内容进行统计和汇总,在此基础上进行预处理后得到适合模型输入的特征编码Feature;/n步骤三:将特征编码转换为特征向量后作为模型的输入,构建单层神经网络的Wide分类模型,预测产品过审的概率;对于Wide分类模型,输入为特征编码Feature,输出为概率得分Score
【技术特征摘要】
1.一种基于深度学习的产品信息审核的方法,其特征在于,包括如下步骤:
步骤一:准备产品信息审核数据集,筛选与审核结果有关的字段,并对人工审核结果的标注信息进行复核;与审核结果有关的一个或多个字段是指产品标题、产品描述、产地、关键词、品牌或/和所属目录;
步骤二:对筛选后的产品信息审核数据集中的一个或多个字段内容进行统计和汇总,在此基础上进行预处理后得到适合模型输入的特征编码Feature;
步骤三:将特征编码转换为特征向量后作为模型的输入,构建单层神经网络的Wide分类模型,预测产品过审的概率;对于Wide分类模型,输入为特征编码Feature,输出为概率得分Scorew,构建一个神经网络模型,使得Fw(Feature)=Scorew;
步骤四:将特征编码转映射为稠密向量后作为模型的输入,构建循环神经网络和深度神经网络结合的Deep分类模型,预测产品过审的概率;对于Deep分类模型,输入为特征编码Feature,输出为概率得分Scored,构建一个神经网络模型,使得Fd(Feature)=Scored;
步骤五:结合Wide和Deep分类模型的得分输出,以产品信息审核数据集中的人工审核结果为目标对模型进行训练,判断产品能否通过审核。
2.根据权利要求1所述的基于深度学习的产品信息审核的方法,其特征在于,所述步骤一中,所述产品信息审核数据集中至少包含300万条记录,每条记录中至少包含产品标题、产品描述、产地、关键词、品牌、所属目录和审核结果等字段,其中产品标题、产品描述为文本型字段{CategoryFieldi},关键词、品牌、所属目录为类别型字段{TextFieldj}。
3.根据权利要求1所述的基于深度学习的产品信息审核的方法,其特征在于,所述步骤二中,特征编码的构建还包括如下步骤:
步骤1:对于类别型字段信息,统计所有字段的所有可能出现的值,并给所有可能值一个从0开始的序号;即构建一个字段值到特征序号的一个映射Mc(FieldValue)=id;
步骤2:将类别型字段信息使用映射Mc转换为类别型特征编码,使得Mc({CategoryFieldi})=CategoryFeature;
步骤3:对于文本型字段信息,将所有文本进行分词后统计出词表,并对停用词和高频词进行过滤;即构建一个词到词序号的一个映射Mt(Token)=id;
步骤4:将文本型字段信息进行分词后使用映射Mt转换为字符型特征编码,使得Mt({TextFieldi})=TextFeature;
步骤5:将两种特征拼接起来,得到适合模型输入的特征编码
4.根据权利要求1所述的基于深度学习的产品信息审核的方法,其特征在于,所述步骤三中,Wide分类模型构建还包括如下步骤:
步骤1:利用Multi-hot方式将特征编码Feature转换为特征向量FeatureVector;
步骤2:随机初始化单层神经网络的参数W和b,构建二分类模型Scorew=Fw(Feature)=W·FeatureVector+b,用于获取各个特征与能否过审之间的直接关系得分。
5.根据权利要求1所述的基于深度学习的产品信息审核的方法,其特征在于,所述步骤四中,Deep分类模型构建还包括如下步骤:
步骤...
【专利技术属性】
技术研发人员:袁明磊,房鹏展,
申请(专利权)人:焦点科技股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。