一种电商服务问题自动发现系统技术方案

技术编号:19059957 阅读:26 留言:0更新日期:2018-09-29 12:47
本发明专利技术提出一种电商服务问题自动发现系统,其特征在于包括:特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块;所述特征词提取模块,完成对文本中出现的有意义词的提取。所述文本分类模块,完成对单条文本的初步分类;所述一级属性发现模块,完成基于词性的电商服务问题一级属性关键词的确定;所述二级属性提取模块,实现电商服务问题二级属性的自动发现;建立二级属性备选集合;基于情绪词典对二级属性统计与排序,统计在文本中,从而有助于针对性的改进和提高电商服务质量。

【技术实现步骤摘要】
一种电商服务问题自动发现系统
本专利技术涉及一种电商服务问题自动发现系统,尤其涉及一种适用于对有关电商服务问题的文本进行分类统计、语义分析,并基于文本的情感倾向自动发现电商服务问题的系统
技术介绍
随着互联网的发展,电子商务发展迅速,2017年,全国网上零售额达到7.18万亿元人民币,同比增长32.2%,增速较上一年提高了6个百分点。与传统商务相比,电子商务具有交易虚拟化、交易成本低、交易效率高、交易透明化等特点,消费者可以在网络上发布关于电商服务质量的文本,但由于每个人的表述都有所不同,并且数据量太大,逐个阅读每个文本的所有内容将耗费大量时间。现有技术中,由于有关电商服务问题的文本数量太多,很难逐条读完,用户无法在短时间内了解电商服务中的问题,并且由于对于电商服务的问题发现存在滞后性,电商无法短时间内获取消费者对于电商服务的反馈信息,从而针对性的改进和提高服务质量。
技术实现思路
本专利技术提供一种电商服务问题自动发现系统,包括:特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块;所述特征词提取模块,完成对文本中出现的有意义词的提取:对已经标记的典型文本进行分词并去除停用词之后,根据词语出现频次排序,得到特征词。所述文本分类模块,完成对单条文本的初步分类:利用逻辑回归分类器对有关电商服务问题的文本进行分类,分类结果分为物流、产品、售后、营销四类;所述一级属性发现模块,完成基于词性的电商服务问题一级属性关键词的确定,为二级属性的自动发现提供数据基础;所述二级属性提取模块,实现电商服务问题二级属性的自动发现;建立二级属性备选集合;基于情绪词典对二级属性统计与排序,并进行统计。本专利技术能够从海量数据中统计出各个产品的质量问题,使用户能在短时间内了解电商服务的具体问题,并能使制造者能够在短时间内了解自己的何种产品出现了质量问题,有助于针对性的改进和提高产品质量。附图说明图1为本专利技术的组成框图;图2为本专利技术中的特征词提取模块实现流程图;图3为本专利技术中的文本分类模块实现流程图;图4为本专利技术中的一级属性发现模块实现流程图;图5为本专利技术中的二级属性提取模块实现流程图;具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。如图1所示,本专利技术系统包括特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块。所述特征词提取模块,完成对文本中出现的有意义词的提取:对已经标记的典型文本进行分词并去除停用词之后,根据词语出现频次排序,得到特征词。所述文本分类模块,完成对单条文本的初步分类:利用逻辑回归分类器对有关电商服务问题的文本进行分类,分类结果分为物流、产品、售后、营销四类;所述一级属性发现模块,完成基于词性的电商服务问题一级属性关键词的确定,为二级属性的自动发现提供数据基础;所述二级属性提取模块,实现电商服务问题二级属性的自动发现;建立二级属性备选集合;基于情绪词典对二级属性统计与排序,统计在文本中,电商服务问题的分布和消费者的情绪特点,为商家或管理者提供文本概况或画像。如图2所示,所述特征词提取模块的具体实现过程为:步骤2a,对已标注的文本进行分词;步骤2b,去除其中的停用词;步骤2c,按词语出现频次统计得到所有的特征词。如图3所示,所述文本分类模块中使用所述逻辑回归分类器对有关电商服务问题的文本进行分类的具体实现过程为:步骤3a,手工标记部分典型的文本,作为该文本的类别标注;步骤3b,将特征词提取模块得到的特征词,作为特征集;步骤3c,从电商网站的商品评论获取的有关电商服务问题的文本数据中去掉重复和无效的数据,作为训练数据;步骤3d,利用特征集将已标注的数据、训练数据转为向量,并以此训练逻辑回归分类器;步骤3e,使用所训练的逻辑回归分类器对文本进行分类。如图4所示,所述基于词性的一级属性发现模块中基于词性的问题一级属性关键词确定,具体实现为:对不同类别相关文本进行分词处理,所述类别包括物流、产品、售后、营销,过滤停用词,筛选其中词性为名词的词语,统计频次并按照降序排序,作为关键词集合,由此得到不同类别商品问题的一级属性及其对应关键词。如图5所示,所述二级属性提取模块中二级属性备选集合的建立,具体实现为:步骤5a,将文本分类模块获得的不同类别相关文本下属的一级属性关键词作为二级属性备选集合建立模块的输入;步骤5b,将所输入的一级属性关键词所对应的文本类别进行分词处理,并过滤停用词,每条文本生成一个分词列表;步骤5c,使用滑动窗口方法,取窗口长度为2,遍历步骤5b中生成的本文本分词列表,若窗口中包含所输入关键词,进一步判断窗口内除关键词外的词语的情感倾向,过滤积极情感词,建立词组组成的二级属性备选集合。所述二级属性提取模块中基于情绪词典对二级属性统计与排序时,设定文本长度和语义密度阈值,进行判断后进行相应处理,当文本长度长,且语义密度大时,则使用文本情感倾向度统计方法,当反之文本长度短,且语义密度低时,则使用情绪词典区分情感词统计方法。所述二级属性提取模块中文本情感倾向度统计方法,首先进行基于情绪词典的文本情绪倾向标记,其中所使用的情感字典从外部获取,所述情感字典包括HowNet、NTUSD;随后基于文本负面情感倾向度对二级属性的排序与提取。所述二级属性提取模块中基于情绪词典的文本情绪倾向标记,具体实现为:步骤8a,导入包含积极情感词与消极情感词的情绪词典;步骤8b,遍历所述特征词提取模块中获得的文本分词列表,计算每条文本对应列表中包含的积极情感词数量p,包含的消极情感词数量n;步骤8c,计算并标记每条文本所对应的负面情感倾向度w=n/(p+n)。所述二级属性提取模块中基于文本的负面情感倾向度对二级属性的排序与提取,具体实现为:步骤9a,将特定一级属性关键词对应的二级备选集合作为模块输入;步骤9b,遍历集合中某词组在文本文件中出现的所有文本,对每条文本对应的负面情感倾向度求和,数值作为该词组的消极指数;步骤9c,得到某一级属性对应的全部备选二级属性词组的消极指数,根据消极指数对备选二级属性进行降序排序;步骤9d,排序靠前的备选二级属性输出,作为目标属性的问题发现结果。所述二级属性提取模块中基于情绪词典区分情感词统计方法,具体实现为:步骤10a,将特定一级属性关键词对应的二级备选集合作为模块输入;步骤10b,遍历集合中某关键词在备选集合中出现的所有词组,对词组中的非关键词词汇进行基于情绪词典的情绪判断,如该词属于消极词汇,则记频次为2;若为积极词汇,记频次为0;若为中性词,记频次为1;步骤10c,生成所有词组的对应频次,并进行降序排序。一实施例中,所述特征词提取模块,对文本进行分词,得到文本中出现的有意义的高频词的词语,所述特征词提取模块的处理过程为:步骤1,将文本记为tP,进行分词得到单词向量(wp,1,wp,2,…wp,j),其中wp,j为文本tp对应的单词向量的第j个单词,j为正整数;步骤2,将停用词列表记为S,特征词字典记为F,若wp,j不在S中且不在F中,则将wp,j加入F本文档来自技高网...

【技术保护点】
1.一种电商服务问题自动发现系统,其特征在于包括:特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块;所述特征词提取模块,完成对文本中出现的有意义词的提取:对已经标记的典型文本进行分词并去除停用词之后,根据词语出现频次排序,得到特征词。所述文本分类模块,完成对单条文本的初步分类:利用逻辑回归分类器对有关电商服务问题的文本进行分类,分类结果分为物流、产品、售后、营销四类;所述一级属性发现模块,完成基于词性的电商服务问题一级属性关键词的确定,为二级属性的自动发现提供数据基础;所述二级属性提取模块,实现电商服务问题二级属性的自动发现;建立二级属性备选集合;基于情绪词典对二级属性统计与排序,并进行统计。

【技术特征摘要】
1.一种电商服务问题自动发现系统,其特征在于包括:特征词提取模块、文本分类模块、一级属性发现模块和二级属性提取模块;所述特征词提取模块,完成对文本中出现的有意义词的提取:对已经标记的典型文本进行分词并去除停用词之后,根据词语出现频次排序,得到特征词。所述文本分类模块,完成对单条文本的初步分类:利用逻辑回归分类器对有关电商服务问题的文本进行分类,分类结果分为物流、产品、售后、营销四类;所述一级属性发现模块,完成基于词性的电商服务问题一级属性关键词的确定,为二级属性的自动发现提供数据基础;所述二级属性提取模块,实现电商服务问题二级属性的自动发现;建立二级属性备选集合;基于情绪词典对二级属性统计与排序,并进行统计。2.根据权利要求1所述的一种电商服务问题自动发现系统,其特征在于:所述特征词提取模块的具体实现过程为:步骤2a,对已标注的文本进行分词;步骤2b,去除其中的停用词;步骤2c,按词语出现频次统计得到所有的特征词。3.根据权利要求1所述的一种电商服务问题自动发现系统,其特征在于:所述文本分类模块中使用所述逻辑回归分类器对有关电商服务问题的文本进行分类的具体实现过程为:步骤3a,手工标记部分典型的文本,作为该文本的类别标注;步骤3b,将特征词提取模块得到的特征词,作为特征集;步骤3c,从电商网站的商品评论获取的有关电商服务问题的文本数据中去掉重复和无效的数据,作为训练数据;步骤3d,利用特征集将已标注的数据、训练数据转为向量,并以此训练逻辑回归分类器;步骤3e,使用所训练的逻辑回归分类器对文本进行分类。4.根据权利要求3所述的一种电商服务问题自动发现系统,其特征在于:所述基于词性的一级属性发现模块中基于词性的问题一级属性关键词确定,具体实现为:对不同类别相关文本进行分词处理,所述类别包括物流、产品、售后、营销,过滤停用词,筛选其中词性为名词的词语,统计频次并按照降序排序,作为关键词集合,由此得到不同类别商品问题的一级属性及其对应关键词。5.根据权利要求4所述的一种电商服务问题自动发现系统,其特征在于:所述二级属性提取模块中二级属性备选集合的建立,具体实现为:步骤5a,将文本分类模块获得的不同类别相关文本下属的一级属性关键词作为二级属性备选集合建立模块的输入;步骤5b,将所输入的一级属性关键词所对应的文本类别进行分词处理,并过滤停用词,每条文本生成一个分词列表;步骤5c,使用滑动窗口方法,取窗口长度为2,遍历步...

【专利技术属性】
技术研发人员:赵吉昌王珊珊孙孟晗
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1