一种商品自动分类方法及系统技术方案

技术编号:22055288 阅读:33 留言:0更新日期:2019-09-07 15:16
本发明专利技术提供一种商品自动分类方法及系统,包括一数据库以及一数据处理系统。所述数据处理系统包括:第一样本采集单元、第一样本分类单元、第一分类器构建单元、第二样本采集单元、第二样本分类单元、第二分类器构建单元、被检测样本采集单元以及商品类别判断单元。本发明专利技术通过结合自然语言处理技术以及大数据,可以有效解决了传统商品分类效率低等问题;并且通过将特征筛选方法引入系统中,更进一步的提高商品分类的效率。

A Method and System for Automatic Classification of Commodities

【技术实现步骤摘要】
一种商品自动分类方法及系统
本专利技术设计自然语言处理
,特别涉及一种商品自动分类方法及系统。
技术介绍
信息化时代的来临使得人们的生活步入数字化的轨道;商品信息的管理也迈入数字化、科技化、移动化的阶段。电商平台商品类别众多,随着大数据时代的来临,商品数据信息迎来了数据大爆炸,其中电商平台管理商品信息最重要的步骤就是商品的分类。传统的商品类别分类一般是根据人为的主观意识或者生活经验对商品进行分类,主要通过对商品的标题信息进行简单的分类。由于个人认知不同,这容易导致对商品的分类不够准确。并且,如果人为的去处理商品的分类,这严重的影响了工作效率。短文本分类是浅层自然语言处理领域的一个分支,其处理对象为各种形式的短文本语料,近年来已经得到快速的发展,并取得了一定的研究成果。但是到目前为止,还没有一套统一的文本分类的系统可以解决各种类型的文本分类问题,特别是在文本特征处理方面。文本特征处理是文本分类的基础,对最终的分类效果有着直接影响,因此对于不同的文本分类基础,选择合适的特征处理方法尤为重要。因此,急需提出一种商品自动分类方法及系统,通过现有的自然语言处理技术以及大数据,可以提高商品本文档来自技高网...

【技术保护点】
1.一种商品自动分类方法,其特征在于,包括如下步骤:数据库建立步骤,录入两个以上不同种类的商品信息数据至一数据库,每一商品信息数据包括商品的第一类别、第二类别以及文本标题;第一样本采集步骤,从所述数据库中采集第一样本,每一第一样本包括不同第一类别的商品的第一类别以及文本标题;第一样本分类步骤,将两个以上所述第一样本随机分成第一训练样本及第一测试样本两类;第一分类器构建步骤,利用两个以上第一训练样本训练并构建第一分类器;第二样本采集步骤,从所述数据库中采集N组第二样本,每组第二样本包括两个以上商品的第二类别以及文本标题,同组别第二样本的商品的第一类别相同,N为第一类别的数量;第二样本分类步骤,将...

【技术特征摘要】
1.一种商品自动分类方法,其特征在于,包括如下步骤:数据库建立步骤,录入两个以上不同种类的商品信息数据至一数据库,每一商品信息数据包括商品的第一类别、第二类别以及文本标题;第一样本采集步骤,从所述数据库中采集第一样本,每一第一样本包括不同第一类别的商品的第一类别以及文本标题;第一样本分类步骤,将两个以上所述第一样本随机分成第一训练样本及第一测试样本两类;第一分类器构建步骤,利用两个以上第一训练样本训练并构建第一分类器;第二样本采集步骤,从所述数据库中采集N组第二样本,每组第二样本包括两个以上商品的第二类别以及文本标题,同组别第二样本的商品的第一类别相同,N为第一类别的数量;第二样本分类步骤,将每一组所述第二样本随机分成第二训练样本及第二测试样本两类;第二分类器构建步骤,利用每一组两个以上第二训练样本训练并构建N个第二分类器,分别对应每一种第一类别;被检测样本采集步骤,采集一被检测商品样本的待检测文本标题;以及商品类别判断步骤,所述第一分类器读取被检测商品的文本标题,判断所述被检测商品的第一类别;根据所述被检测商品的第一类别选择一第二分类器,读取被检测商品的文本标题,判断所述被检测商品的第二类别。2.如权利要求1所述的商品自动分类方法,其特征在于,所述第一分类器构建步骤,包括如下步骤:初级第一分类器构建步骤,利用两个以上第一训练样本训练并构建初级第一分类器;第一验证步骤,根据至少一第一测试样本对所述第一初级分类器进行验证;初级第一分类器优化步骤,根据第一验证步骤的验证结果优化初级第一分类器,获得所述第一分类器;所述第二分类器构建步骤,包括如下步骤:初级第二分类器构建步骤,利用两个以上第二训练样本训练并构建初级第二分类器;第二验证步骤,根据至少一第二测试样本对所述第二初级分类器进行验证;初级第二分类器优化步骤,根据第二验证步骤的验证结果优化初级第二分类器,获得所述第二分类器。3.如权利要求1所述的商品自动分类方法,其特征在于,所述第一样本采集步骤,包括如下步骤:标题文本获取步骤,从数据库中读取若干不同第一类别商品的文本标题,并记录每一商品的第一类别;第一样本预处理步骤,将所属相同第一类别商品的文本标题放于同一集合,并对每一集合中所有文本标题进行分词处理,获得不同第一类别集合中商品的文本标题的第一特征分词;第一数据化样本生成步骤,生成两个以上数据化样本,每一数据化样本包括第一类别以及多个第一特征分词集合;所述第二样本采集步骤,包括如下步骤:标题文本获取步骤,从所述数据库中读取N组文本标题,并记录每一商品的第二类别,每组文本标题的第一类别相同;第二样本预处理步骤,将所属相同第二类别商品的文本标题放于同一集合,并对各集合中所有文本标题进行分词处理,获得N组不同第二类别集合中商品标题文本的第二特征分词;第二数据化样本生成步骤,生成两个以上数据化样本,每一数据化样本包括第二类别以及多个第二特征分词集合。4.如权利要求3所述的商品自动分类方法,其特征在于,在所述第一样本数据预处理步骤中,所述第一样本数据的分词处理采用结巴中文自动分词算法;在所述第二样本数据预处理步骤中,所述第二样本数据的分词处理采用结巴中文自动分词算法。5.如权利要求3所述的商品自动分类方法,其特征在于,所述第一样本采集步骤中,在所述第一样本数据预处理步骤之后,还包括第一特征分词筛选步骤,筛选所述第一特征分词,将与商品特征无关的第一特征分词滤除;所述第二样本采集步骤中,在所述第二样本数据预处理步骤之后,还包括第二特征分词筛选步骤,筛选所述第二特征分词,将与商品特征无关的第二特征分词滤除。6.如权利要求2所述的商品自动分类方法,其特征在于,所述初级第一分类器构建步骤,包括如下步骤:词频计算步骤,在不同的第一类别的前提下,计算每一第一特征分词集合中各个词语出现的次数,并将所述在第一特征分词集合中出现的次数除以所述第一特征分词集合的词语总数;逆向文件频率计算步骤,将所有第一特征分词集合数量分别除以不同词语出现在不同集合的频次,并进行取对数操作;第一权重计算步骤,将第一类别下不同词语的词频与逆向文件频率相乘,获得每一词语的权重;以及初级第一分类器生成步骤,根据所述每一词语的权重生成初级第一分类器;所述初级第二分类器构建步骤,包括如下步骤:词频计算步骤,在不同的第二类别的前提下,计算每一第二特征分词集合中不同词语出现的次数,并将所述在第二特征分词集合中出现的次数除以所述第二特征分词集合的词语总数;逆向文件频率计算步骤,在相同的第一类别前提,将第二特征分词集合数量分别除以不同词语出现在不同集合的频次,并进行取对数操作;第二权重计算步骤,将第二类别下不同词语的词频与逆向文件频率相乘,获得每一词语的权重;以及初级第二分类器生成步骤,根据所述每一词语的权重生成初级第二分类器。7.如权利要求6所述的商品自动分类方法,其特征在于,所述第一验证步骤,包括如下步骤:输入第一测试样本步骤,输入X个第一测试样本至初级第一分类器,获取X个第一结果;第一比对步骤,将所述X个第一结果与所述X个第一测试样本的X个第一类别比较,统计与所述第一类别不一致的第一结果的个数Y;第一错误样本分类步骤,根据Y个错误样本被错分的第一类别,统计所述Y个错误样被错分到相同的第一类别的样本个数;计算步骤,计算第一错误率,所述计算第一错误率为第一错误样本中不同错误类别的个数与第一测试样本的样本数X的比值;所述第二验证步骤,包括如下步骤:输入第二测试样本步骤,输入X个第二测试样本至初级第二分类器,获取X个第二结果;第二比对步骤,将所述X个第二结果与所述X个第二测试样本的X个第二类别比较,统计与所述第二类别不一致的第二结果的个数Y;第二错误样本分类步骤,根据Y个错误样本被错分的第二类别,统计所述Y个错误样被错分到相同的第二类别的样本个数;计算步骤,计算第二错误率,所述计算第二错误率为第二错误样本中不同错误类别的个数与第二测试样本的样本数X的比值。8.如权利要求7所述的商品自动分类方法,其特征在于,所述初级第一分类器优化步骤,包括如下步骤:放大步骤,将所述第一错误率放大一定的预设倍数,并将放大后的第一错误率进行取对数运算得到一放大功率;第一权重调整步骤,将所述放大功率与所述初级第一分类器的权重相乘,获得第一优化权重;以及第一分类器生成步骤,根据所述每一词语的第一优化权重生成所述第一分类器;所述初级第二分类器优化步骤,包括如下步骤:放大步骤,将所述第二错误率放大一定的预设倍数,并将放大后的第二错误率进行取对数运算得到一放大功率;第二权重调整步骤,将所述放大功率与所述初级第二分类器的权重相乘,获得第二优化权重;以及第二分类器生成步骤,根据所述每一词语的第二优化权重生成所述第二分类器。9.如权利要求1所述的商品自动分类方法,其特征在于,所述被检测样本采集步骤,包括如下步骤:被检测商品获取步骤,在数据库中读取被检测商品的文本标题;被检测商品预处理步骤,对被检测商品的文本标题进行分词处理,得到特征分词;被检测商品筛选特征步骤,对得到的特征分词进行筛选,滤除与商品特征无关的特征分词,得到检测特征分词集合;被检测数据化样本生成步骤,生成一被检测数据化样本,包括所述被检测商品的检测特征分词集合。10.如权利要求9所述的商品自动分类方法,其特征在于,在所述被检测样本预处理步骤中,所述被检测样商品的标题文本的分词处理采用结巴中文自动分词算法。11.如权利要求1所述的商品自动分类方法,其特征在于,所述商品类别判断步骤,包括如下步骤:第一分类器判断步骤,根据检测特征分词集合查找第一权重,分别计算该集合中每一个第一类别的第一权重和值,该第一权重和值为第一类别相同的所有分词的第一权重的总和,取第一权重和值最大的第一类别为第一结果;第二分类器调用步骤,根据所述第一结果调用相对应的第二分类器,调用的第二分类器的第一类别与所述第一结果一致;第二分类器判断步骤,根据检测特征分词集合查找第二权重,分别计算该集合中每一个第二类别的第二权重和值,该第二权重和值为第二类别相同的所有分词的第二权重的总和,取第二取权重和值最大的第二类别为第二结果。12.如权利要求11所述的商品自动分类方法,其特征在于,所述第一分类器判断步骤之前,包括如下步骤:初级第一分类器判断步骤,根据检测特征分词集合查找初级第一权重,分别计算不同第一类别的所述检测特征分词集合的初级第一权重和值,所述初级第一权重和值最大的第一类别为初级第一结果;初级第一分类器调整步骤,调用所述初级第一结果所述对应的所有第一类别的错误率,调整所述第一错误率对应的初级第一权重得到第一权重;在所述第二分类器判断步骤之前,包括如下步骤:初级第二分类器判断步骤,根据所述检测特征分词集合查找初级第二权重,分别计算不同第二类别的所述检测特征分词集合的初级第二权重和值,所述初级第二权重和值最大的第二类别为初级第二结果;初级第二分类器调整步骤,根据初级第...

【专利技术属性】
技术研发人员:何秋
申请(专利权)人:上海艾瑞市场咨询股份有限公司
类型:发明
国别省市:上海,31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1