一种电子商务产品质量的风险评价方法技术

技术编号:17838376 阅读:20 留言:0更新日期:2018-05-03 19:47
本发明专利技术提出了一种电子商务产品质量的风险评价方法,具体步骤如下:1,评论语料库获取:利用网络爬虫技术在电商平台爬取产品评论指定信息并保存到数据库中;2,中文自然语言处理:首先对评论文本进行预处理,然后利用条件随机场模型从评论数据中提取质量特征词;3,质量风险评价:根据多维度数据融合,设计出评价融合函数,计算出每一款电商产品的最终得分,根据评分得到产品的风险等级。这就为优化电子商务产品质量安全监管工作,提高监管质量和电子商务安全创造了条件。

A risk assessment method for e-commerce product quality

The invention puts forward a risk evaluation method for the quality of electronic commerce products. The specific steps are as follows: 1, review corpus acquisition: crawling the product comment specified information on the e-commerce platform using the web crawler technology and storing it in the database; 2, Chinese Natural Language Processing: first, preprocessing the comment text, and then using it. The condition follows the airport model to extract the quality feature words from the review data; 3, quality risk assessment: Based on the multi-dimensional data fusion, the evaluation fusion function is designed to calculate the final score of each electronic business product, and the risk grade of the product is obtained according to the score. This creates conditions for optimizing the quality and safety supervision of e-commerce products, improving the quality of supervision and the safety of e-commerce.

【技术实现步骤摘要】
一种电子商务产品质量的风险评价方法
:本专利技术属于产品质量管理领域,尤其涉及一种电子商务产品质量的风险评价方法。
技术介绍
:传统的质量管理方法往往只注重生产过程中的质量管理,产品的出厂意味着质量管理的结束。随着全面质量管理的兴起,质量管理的范围扩展到了用户使用阶段,企业致力于发现用户使用过程中的产品质量问题,并将这些质量问题反馈给设计和生产部门,从而改善产品质量,提高用户体验。目前,企业主要通过售后服务部门来收集用户使用过程中的产品质量问题。很多大型制造企业在全国设立售后服务点,通过售后服务点收集用户在使用过程中遇到的质量问题,并将这些质量问题反馈给设计和生产部门,为产品质量的改进提供方向。但是由于资金、人力、物力等的限制,售后服务点覆盖的范围有限,甚至有的企业根本就没有设立售后服务点,所以传统的通过售后服务部门来收集用户使用过程中的产品质量问题并不能完全满足企业的需求。电子商务是指在互联网、企业内部网等网络上以电子交易方式进行交易活动和相关服务的活动,是以计算机网络为基础所进行的各种商业活动,是传统商业活动的网络化。虽然电子商务发展迅猛,但是也存在着不少问题。其中一个是电子商务安全问题。在进行电子商务活动时,都会涉及到大量的信息存储和传递,例如用户个人资料、资金的转移等等,这些行为都需要特殊的技术来保证安全性。另一个重要问题在于电子商务产品质量。国家质检总局对电子商务产品质量高度关注,并在2013年底建立了国家电子商务产品质量风险检测中心,与阿里巴巴、京东等电子商务公司通力合作,构建包含电子商务产品销量信息、投诉信息、评价信息、厂家信息等在内的风险监测知识库,为电子商务产品质量的治理和督查提供强有力的支持。电子商务产品与传统产品在性质上是一致的,区别在于传统产品销售平台是在线下,而电子商务产品是在线上。消费者借助电商平台,足不出户就可以买到与实体店里一样的产品,这类产品称之为电子商务产品。由于电子商务的虚拟性,一些企业会片面的追求短期经济利益,在生产过程中偷工减料、以次充好,生产假冒伪劣产品,但是在平台展示的却是合格的产品。消费者在网络上很难辨识产品的真假和质量是否存在问题,因此非常容易购买到这些问题产品,如果可以通过对网络上海量的舆情数据和质量检测数据的分析,利用数据挖掘技术,对电子商务产品质量进行风险评估,就可以有效的避免由产品质量引发的各种问题。因此需要质检部门采取有效的监管措施来监督企业提高产品质量水平,同时也要加强电子商务平台的管理。
技术实现思路
:为了能快速、有效地从海量、多源异构的有关商品的信息中分析出其存在的质量风险,本专利技术提供了一种电子商务产品质量的风险评价方法,是对传统电子商务质量管理方法的一种补充。本专利技术解决其技术问题所采用的技术方案如下述内容:一种电子商务产品质量的风险评价方法,其特征在于:该方法包括下述步骤:步骤1:语料库获取:利用网络爬虫软件,制定爬取规则,抓取与指定产品相关的电商网站以及论坛上的用户评论文本,以结构化形式保存到数据库中;步骤2:中文自然语言处理:首先对原始的评论数据进行数据清理操作,然后利用中文自然语言处理工具对评论语料分别进行初次分词及词性标注、新词识别、评论真实度情感分析等预处理以获得结构化的情感分析结果并保存到数据库中,进一步,训练条件随机场模型,最后利用条件随机场模型从评论数据中提取质量特征词;步骤3:质量风险评价:首先提出商家信用综合评价表,并基于该模板统计出与每个商家的信用指数;进一步,构建评估函数,完成对电商产品的评估,根据设计评价融合函数,计算出每一款电商产品的最终得分,最后,根据评分得到产品的风险等级。在上述的一种电子商务产品质量的风险评价方法中,在所述的步骤1中,由于网络的开放性和网络评论的多元化、离散性,使得抓取的评论文本中含有大量的“噪音”,包括无效评论、垃圾评论和重复评论,这些评论都会对后续的文本分析造成重大影响,为了解决“脏”文本,必须对评论文本进行预处理。根据电商评论文本具有短字数、信息大和主体明确的特点,可以设置字数阈值和判断是否为重复字评论去除无效评论;对于垃圾评论可以判断是否含有一定的中文字数去除;最后计算评论文本的字面相似度去除重复评论。在上述的一种电子商务产品质量的风险评价方法中,在所述的步骤2中,其特征在于:(1)用整理的情感词词典对依存关系分析结果中的支配词进行标注,得到以词语为基本记录单元的结构化数据。(2)将情感分析的结果分为训练集和测试集,制定条件随机场特征模板,利用开源工具包,对已经标注产品特征的训练集进行训练,生成条件随机场模型,再利用该模型对测试集进行产品特征标注,然后对不同类的特征给予不同的影响权重。在上述的一种电子商务产品质量的风险评价方法中,在所述的步骤3中,评价融合函数的计算公式为:其中,分别表示商品销量模型所得分数、商铺信誉模型所得分数及评论文本模型所得分数,分别表示各个因子所占权重。在上述的一种电子商务产品质量的风险评价方法中,在所述的步骤3中,评价融合函数算法中,的计算公式为:历史销售百分比:未来销售百分比:商品销量得分:其中,表示回归函数,,,为第i商品惩罚项为第i期数的百分数。在上述的一种电子商务产品质量的风险评价方法中,在所述的步骤三中,在评价融合函数算法中,的计算公式为:其中,为商铺得分集合,表示第i商铺得分集合和第i个商铺最终得分。表示第i个商铺的第j个分值。分别表示,每个商铺第j个得分集合中的最大值、平均值和最小值。在上述的一种电子商务产品质量的风险评价方法中,在所述的步骤三中,在评价融合函数算法中,的计算公式为:其中,RQC表示评论质量系数,QRG表示质量水平得分,FWG表示特征词得分,ETA表示情感倾向分析得分。本专利技术的有益效果:利用网络爬虫工具从电商平台网站上获取海量、多源异构的产品使用评论文本,经过浅层、深层的中文文本信息处理技术,使得非结构化的数据变成结构化的数据,并从中发现产品的质量问题,进而对产品质量的各个方面进行风险评估。这就为帮助决策者确定最为关键的交易风险因素,有效的避免由产品质量引发的各种问题,建立起风险防范体系,提高了电子商务交易的安全性。附图说明:图1是本专利技术的整体流程图也是本专利技术的摘要附图。图2是本专利技术的整体技术路线图。图3是本专利技术的语料库获取流程图。图4是本专利技术的预处理技术路线图。图5是其构建情感词典主要流程图。图6是其风险等级划分设计图。具体实施方式:下面结合具体附图对本专利技术作进一步的说明。本专利技术是通过网络爬虫工具对大型电商平台进行信息抓取,获得海量、多源异构的中文网络用户评论文本,并对其进行中文自然语言处理,建立完整的电子商务产品质量风险的综合评价。一种电子商务产品质量的风险评价方法,包括语料库获取、中文自然语言处理和质量风险评价这三个步骤,如图1所示。下面对这三个步骤分别进行详细说明。步骤1,语料库获取:利用网络爬虫工具,从大型电商平台上采集某个指定产品的产品使用的相关信息,并保存到本地数据库,然后对保存的评论信息进行预处理,降低数据中的噪音,得到真实、可靠、非结构化的评论语料库。评论语料库获取的过程如图3所示。制定网络爬虫工具的爬取规则,对待抓取的大型电商平台进行数据抓取,将抓取的结果存储到本地数据库中,成为原始评论文本;对本文档来自技高网
...
一种电子商务产品质量的风险评价方法

【技术保护点】
一种电子商务产品质量的风险评价方法,其特征在于:步骤1:语料库获取利用网络爬虫软件,制定爬取规则,抓取与指定产品相关的电商网站以及论坛上的用户评论文本,以结构化形式保存到数据库中;步骤2:中文自然语言处理首先对原始的评论数据进行数据清理操作,然后利用中文自然语言处理工具对评论语料分别进行初次分词及词性标注、新词识别、评论真实度情感分析等预处理以获得结构化的情感分析结果并保存到数据库中,进一步,训练条件随机场模型,最后利用条件随机场模型从评论数据中提取质量特征词;步骤3:质量风险评价首先提出商家信用综合评价表,并基于该模板统计出与每个商家的信用指数;进一步,构建评估函数,完成对电商产品的评估,根据设计评价融合函数,计算出每一款电商产品的最终得分,最后,根据评分得到产品的风险等级。

【技术特征摘要】
1.一种电子商务产品质量的风险评价方法,其特征在于:步骤1:语料库获取利用网络爬虫软件,制定爬取规则,抓取与指定产品相关的电商网站以及论坛上的用户评论文本,以结构化形式保存到数据库中;步骤2:中文自然语言处理首先对原始的评论数据进行数据清理操作,然后利用中文自然语言处理工具对评论语料分别进行初次分词及词性标注、新词识别、评论真实度情感分析等预处理以获得结构化的情感分析结果并保存到数据库中,进一步,训练条件随机场模型,最后利用条件随机场模型从评论数据中提取质量特征词;步骤3:质量风险评价首先提出商家信用综合评价表,并基于该模板统计出与每个商家的信用指数;进一步,构建评估函数,完成对电商产品的评估,根据设计评价融合函数,计算出每一款电商产品的最终得分,最后,根据评分得到产品的风险等级。2.如权利要求1所述的一种电子商务产品质量的风险评价方法,其特征在于:在步骤1中,爬虫技术是通过网页中的HTTP协议,把制定好的正则表达式用来采集电商网站某种特定商品评论区的评论信息。3.如权利要求1所述的一种电子商务产品质量的风险评价方法,其特征在于:在步骤2中,(1)对文本数据的清理主要是对评论文本数据缺省值、文本重复和评论字数限制的预处理;(2)对文本数据分词产品特征词聚类及其权重的定义情感分析。4.如权利要求3所述的一种电子商务产品质量的风险评价方法,其特征在于:(1)用整理的情感词词典对依存关系分析结果中的支配词进行标注,得到以词语为基本记录单元的结构化数据...

【专利技术属性】
技术研发人员:徐新胜唐敬文
申请(专利权)人:中国计量大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1