【技术实现步骤摘要】
商品名称的归集方法和装置
本专利技术涉及大数据处理
,尤其涉及一种商品名称的归集方法和装置。
技术介绍
在各种基于企业进销商品分析的业务中,如果由于相同的商品而不同的描述是会带来很大的偏差的,不仅影响分析效率,并且更加会影响效果,因此需要对商品名称进行归集,将不同描述的相同商品归集到一起,并且使用一个最简洁的名称来代替。比如“外科纱布敷料,34cm*40cm*1000袋”既包括商品名,又包括大小或数量,需要归集标准的商品名"纱布"。但是,随著商品经济的发展,商品种类越来越多,商品描述也是各种各样,层出不穷,迫切需要一种成本低且商品名称归集准确率高的方法,为商品归类、进销不符、虚开识别等业务分析提供重要的数据基础。
技术实现思路
为了解决上述问题,本专利技术提供一种商品名称的归集方法和装置,保证商品归集准确率高的同时,实现低成本和耗时短。本专利技术实施例提供一种商品名称的归集方法,包括:根据商品描述的相似度,对商品描述进行领域归类;对每个领域中的每个商品描述进行商品词的归集处理,确定每 ...
【技术保护点】
1.一种商品名称的归集方法,其特征在于,包括:/n根据商品描述的相似度,对商品描述进行领域归类;/n对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词。/n
【技术特征摘要】
1.一种商品名称的归集方法,其特征在于,包括:
根据商品描述的相似度,对商品描述进行领域归类;
对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词。
2.根据权利要求1所述的方法,其特征在于,所述根据商品描述的相似度,对商品描述进行领域归类包括:
计算各个商品描述之间的相似度;
根据各个商品描述之间的相似度,构建商品相似度的网络结构,所述网络结构中的各个节点表示各自对应的商品描述,各个节点之间的边表示对应的商品描述之间的相似度;
计算商品相似度的网络结构的模块度;
根据所述模块度对所述商品相似度的网络结构划分多个子网络,每个子网络表示对应领域的商品描述。
3.根据权利要求2所述的方法,其特征在于,计算各个商品描述之间的相似度包括:
将每个商品描述转换为对应的词向量;
采用神经词袋模型对每两个词向量间求平均,计算每两个商品描述间的哈希值,得到每两个商品描述之间的相似度。
4.根据权利要求1所述的方法,其特征在于,对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词,包括:
根据每个领域中的商品描述的出现频次,取前N个出现频次高的商品描述作为高频次的商品描述,其余的作为低频次的商品描述;
将第一高频次的商品描述加入到所述领域的商品词库中;
从第二高频次的商品描述开始直至第N高频次的商品描述,依频次高低顺序,从高到低,分别对各频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应频次的商品描述归集的商品名称;
若相似度小于m,则将对应高频次的商品描述作为商品词加入到所述领域的商品词库中,并将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
5.根据权利要求4所述的方法,其特征在于,对每个领域中的每个商品描述进行商品词的归集处理,确定每个能归集处理的商品描述的商品词,还包括:
基于所述领域的商品词库,对每个低频次的商品描述进行分词处理,计算切分后的词与所述领域的商品词库中的商品词的相似度,若存在相似度大于等于m的商品词,则将所述商品词作为对应低频次的商品描述归集的商品名称;
若相似度小于m,将该相似度小于m的对应频次的商品描述确定为不能归集处理的商品描述。
6.根据权利要求1所述的方法,其特征在于,确定每个能归集处理的商品描述的商品词之后还包括:
基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词。
7.根据权利要求6所述的方法,其特征在于,基于能归集处理的商品描述中的商品词,标注不能归集处理的商品描述中的商品词序列,确定每个不能归集处理的商品描述中的最大概率商品词,包括:
将所述相似度大于等于m的对应频次的商品描述确定为能归集处理的商品描述;
采用训练模型学习能归集处理的商品描述中的商品词和非商品词的文本和词序,标注每个不能归集处理的商品描述中的商品词和非商品词的序列;
将标注序列最大的商...
【专利技术属性】
技术研发人员:夏超,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。