基于大数据的网销商品检验抽样方法技术

技术编号:25481649 阅读:61 留言:0更新日期:2020-09-01 23:02
本发明专利技术公开了基于大数据的网销商品检验抽样方法,该方法中针对某同类商品的情感得分计算步骤包括:B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息;B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分。本发明专利技术可以在网销商品各类复杂的情况下,尤其是总体商品总数不确定的情况下,即可获得相对适合的入样概率和抽样数量,使质量监控或抽检工作目标性更强,效率更高,更为科学合理。

【技术实现步骤摘要】
基于大数据的网销商品检验抽样方法
本专利技术涉及一种检验抽样方法,具体涉及一种网销商品的检验抽样方法。
技术介绍
在质量管理过程中,要对产品进行检测,以判断产品的总体质量状况。在检测中,抽检的数量不仅密切影响着总体质量判断的准确性,同时也和时间成本、资金成本、人员成本等密切相关。随着社会生活的不断发展,网络销售模式亦在不断演变和进化,网购逐渐深入到千家万户,越来越多的人接受和选择通过各种网络销售平台采买所需的商品和物资。但是,对于网络平台商品而言,由于存在着品牌多、商品分类复杂、商品总数不确定、销售渠道不固定等诸多问题,尤其是总体商品总数的不确定,使得传统的抽检方法难以很好地适用于网销产品来确定适合的抽样概率或抽样数量。网络销售商品的质量控制一直都是质量监管部门、网销平台关注的核心问题,如何在商品总数不确定、销售渠道不固定、品牌多、商品分类复杂的情况下,获得适合的抽样数量,或者如何确定适合的或较少的抽样数量,来获得较高的判断准确性,均是目前亟待解决的问题。
技术实现思路
专利技术目的:为了解决现有技术中的不足本文档来自技高网...

【技术保护点】
1.一种基于大数据的网销商品检验抽样方法,其特征在于:该方法包括情感得分计算步骤和抽样数据计算步骤;/n其中针对某同类商品的情感得分计算步骤包括:/nB1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息;/nB2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;/nB3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分;/n其中针对某同类商品的抽样数据计算步骤包括:/nC1)根据该同类商品下各网销商品链接的商品情感得分,结...

【技术特征摘要】
1.一种基于大数据的网销商品检验抽样方法,其特征在于:该方法包括情感得分计算步骤和抽样数据计算步骤;
其中针对某同类商品的情感得分计算步骤包括:
B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息;
B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;
B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分;
其中针对某同类商品的抽样数据计算步骤包括:
C1)根据该同类商品下各网销商品链接的商品情感得分,结合品牌数据,计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先验概率;
C2)结合该同类商品下的品牌数据,确定该同类商品下各品牌的入样概率;
C4)结合该同类商品的待抽取商品总数,确定该同类商品下各品牌的商品抽样数量。


2.根据权利要求1所述的基于大数据的网销商品检验抽样方法,其特征在于:所述步骤B1)为:采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、网销店铺数据、评论数据、销售量数据在内的数据信息;
所述步骤C2)后还包括步骤C3):结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率,确定该同类商品下各品牌在各网销店铺中的入样概率;
所述步骤C4)后还包括步骤C5):根据该同类商品的待抽取商品总数,确定该同类商品下各品牌在各网销店铺中的商品抽样数量。


3.根据权利要求1所述的基于大数据的网销商品检验抽样方法,其特征在于:该方法还包括初始化步骤;其中初始化步骤包括:A0)基于网络平台上用户对商品的多源评论数据,构建和/或更新商品的评论分析词典的步骤;
所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典;
其中情感词词典中包括若干情感词以及各情感词对应的情感词分值;
其中否定词词典中包括若干否定词;
其中程度词词典中包括若干程度词以及各程度词对应的程度词分值;
其中停用词词典中包括若干停用词。


4.根据权利要求1所述的基于大数据的网销商品检验抽样方法,其特征在于:所述B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分的步骤中,基于评论分析词典的情感倾向分析方法对某一网销商品链接bij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤:
B21)子句分割:根据标点符号将条评论对应的评论文本c,拆分为若干子句
B22)修饰关系分析:根据评论分析词典,针对每个子句,识别该子句中的情感词(a1,a2,…)、程度词(d1,d2,…)、否定词(h1,h2,…)和停用词,并记录其位置;结合停用词确定各程度词、否定词所修饰的目标情感词,并结合评论分析词典中对应的程度词分值和情感词分值,以及否定词的数量,确定该子句中各程度词、否定词与目标情感词之间的修饰关系;
B23)各子句情感得分计算:根据获得的修饰关系,确定各个子句的情感得分,其中子句ci的情感得分为:



其中,|H|表示否定词出现的次数,D表示程度词分值,表示情感词wk的情感词分值,nw表示子句ci中情感词出现次数;其中,对si为正值的子句ci的情感得分用子句正向情感得分表示,对si为负值的子句ci的情感得分用子句负向情感得分用表示;
B24)该条评论情感得分计算:针对该条评论对应的评论文本c,将其所有子句中的子句正向情感得分进行累加,得到该条评论的正向情感得分s+,将其所有子句中的子句负向情感得分进行累加,得到该条评论的负向情感得分s-:






其中,mc表示评论c的子句数量。


5.根据权利要求4所述的基于大数据的网销商品检验抽样方法,其特征在于:所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合标准化和基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分;
其中,某一网销商品链接bij的商品情感得分为:



其中,和分别为该网销商品链接bij的正、负向情感标准分:






其中,
nc是该网销商品链接bij下评论的总条数;

和分别为该网销商品链接bij第k条评论ck的正、负向情感得分;

和分别为该网销商品链接bij所有评论的正、负向情感得分的平均值;

和分别为该网销商品链接bij所有评论的正、负向情感得分的标准差;
其...

【专利技术属性】
技术研发人员:王海涛赵静张帆曹馨宇吴刚赵超丁文兴
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1