System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及spu聚合,具体涉及一种spu的聚合方法、装置、设备及其存储介质。
技术介绍
1、商品分类是人们在市场中对商品进行整理和归类,以便于消费者和商家更好地理解和寻找所需的商品。而商品标题在商品营销和销售过程中起着非常重要的作用,一个好的商品标题可以吸引消费者的注意,概括产品的关键特点,引起消费者的兴趣,促使他们进行购买。当前,由于商品分类的不断完善,在旧体系下的一个商品可能存在两个、以及两个以上的类别,例如t恤,它可以存在男装-t恤中,也可以存在女装-t恤中。同时,在实际使用中,有些商家为了节省商品上架的时间,在商品分类时,会出现乱选的情况。而每天都有大量的商品交易出现,以上情况的出现时,会有大量的商品标题无法准确的对应相同商品;但如果单纯只使用商品的类别去区分相同商品,则错误率又会很高。
2、现有解决上述问题的方案有cn202110785144.2一种从文本中提取数据生成商品spu的方法,其包括以下步骤:1)定期采集新增笔记文本存入预先创建的sql server数据库和笔记队列中;2)调用品牌词逐个扫描笔记文本,检索是否存在相应品牌词;3)调用商品词逐个扫描笔记文本,检索是否存在相应商品词;4)判断检索到的商品词商品类别与品牌词商品类别是否存在交集;5)检索该商品词与预先创建的描述词库是否关联有描述词集合,若否,则保存品牌词和商品词,作为商品spu,若是,则截取该笔记文本品牌词与商品词之间的字符串,与描述词集合进行关键描述词匹配,若未匹配到关键描述词,则保存品牌词和商品词作为商品spu,若匹配到关键描述词
3、现有的生成商品spu方法在使用品牌词和商品词扫描文本存在词歧义的情况,例如:对于品牌美的,在标题:【超美的丝绒亮片裙】气质时尚法式小众感重工优雅半身裙新中,美的就不是一个品牌词,而原技术不会消除这类影响。再如标题:【回力】跑步运动鞋增高冬季男鞋2023新款工装鞋男士休闲鞋篮球鞋潮中,篮球不是一个商品,篮球鞋才是商品。如果使用现有的生成商品spu方法去识别,则至少存在50%以上的spu是错误的。
4、有鉴于此,提出本申请。
技术实现思路
1、本专利技术提供了一种spu的聚合方法、装置、设备及其存储介质,能至少部分的改善上述问题。
2、为实现上述目的,本专利技术采用以下技术方案:
3、一种spu的聚合方法,其包括:
4、获取全商品类别数据集、词汇表,使用bioes标注法对所述全商品类别数据集进行标注,根据标注后的所述全商品类别数据集和所述词汇表进行训练预处理,训练bilstm+crf模型,其中,所述全商品类别数据集包括多个商品大类别数据,每一所述商品大类别数据至少3000条,所述训练预处理包括添加对抗网络fgm处理;
5、获取待处理的商品标题数据,调用所述bilstm+crf模型对所述待处理的商品标题数据进行提取处理,以提取所述待处理的商品标题数据中的商品、品牌、规格;
6、获取用户搜索数据,并对所述用户搜索数据进行识别处理,生成同义词表;
7、将相同商品名、品牌、规格词的标题全部聚合到一起,并根据所述同义词表将意思相同字形不同的商品聚合到一起,以完成spu的聚合。
8、优选地,在获取词汇表之前,还包括:
9、获取多个商品标题,其中,所述商品标题了覆盖市面上所有的商品类目;
10、对所述商品标题进行逐字分词处理,统计处理后的商品标题的每个字的频率,生成频率结果和频次结果;
11、将所述商品标题中所述频率结果大于于95%,且所述频次结果大于10次的字,进行组合处理,组成所述词汇表;
12、对于所述商品标题中无法识别的字,统一用预设字符进行表示,并且在数据处理时,不存在于所述词汇表中的字,也统一用预设字符进行表示。
13、优选地,所述添加对抗网络fgm处理,具体为:
14、获取原始embedding矩阵,根据所述原始embedding矩阵,计算输入数据x的前向损失loss,并进行反向传播,得到embedding矩阵的梯度;
15、根据embedding矩阵的梯度计算扰动值r,并将所述扰动值r添加到所述embedding矩阵上,得到扰动结果x+r;
16、计算所述扰动结果x+r的前向损失loss,进行反向传播,得到对抗的梯度,并将所述对抗的梯度累加到所述embedding矩阵的梯度上,得到新梯度;
17、将所述embedding矩阵恢复至所述原始embedding矩阵的值,并根据所述新梯度对参数进行更新。
18、优选地,获取用户搜索数据,并对所述用户搜索数据进行识别处理,生成同义词表,具体为,具体为:
19、获取待处理的商品标题数据,将所述待处理的商品标题数据中的用户搜索词进行标注处理,根据筛选条件将相同的搜索词标注出来,其中,所述筛选条件为每日搜索频率>95%,并且搜索次数超过3次的词。
20、本专利技术实施例还提供了一种spu的聚合装置其包括:
21、bilstm+crf模型生成单元,用于获取全商品类别数据集、词汇表,使用bioes标注法对所述全商品类别数据集进行标注,根据标注后的所述全商品类别数据集和所述词汇表进行训练预处理,训练bilstm+crf模型,其中,所述全商品类别数据集包括多个商品大类别数据,每一所述商品大类别数据至少3000条,所述训练预处理包括添加对抗网络fgm处理;
22、提取单元,用于获取待处理的商品标题数据,调用所述bilstm+crf模型对所述待处理的商品标题数据进行提取处理,以提取所述待处理的商品标题数据中的商品、品牌、规格;
23、识别单元,用于获取用户搜索数据,并对所述用户搜索数据进行识别处理,生成同义词表;
24、spu聚合单元,用于将相同商品名、品牌、规格词的标题全部聚合到一起,并根据所述同义词表将意思相同字形不同的商品聚合到一起,以完成spu的聚合。
25、优选地,在获取词汇表之前,还包括:
26、获取多个商品标题,其中,所述商品标题了覆盖市面上所有的商品类目;
27、对所述商品标题进行逐字分词处理,统计处理后的商品标题的每个字的频率,生成频率结果和频次结果;
28、将所述商品标题中所述频率结果大于于95%,且所述频次结果大于10次的字,进行组合处理,组成所述词汇表;
29、对于所述商品标题中无法识别的字,统一用预设字符进行表示,并且在数据处理时,不存在于所述词汇表中的字,也统一用预设字符进行表示。
...【技术保护点】
1.一种SPU的聚合方法,其特征在于,包括:
2.根据权利要求1所述的一种SPU的聚合方法,其特征在于,在获取词汇表之前,还包括:
3.根据权利要求1所述的一种SPU的聚合方法,其特征在于,所述添加对抗网络fgm处理,具体为:
4.根据权利要求1所述的一种SPU的聚合方法,其特征在于,获取用户搜索数据,并对所述用户搜索数据进行识别处理,生成同义词表,具体为:
5.一种SPU的聚合装置其特征在于,包括:
6.根据权利要求5所述的一种SPU的聚合装置,其特征在于,在获取词汇表之前,还包括:
7.根据权利要求5所述的一种SPU的聚合装置,其特征在于,所述添加对抗网络fgm处理,具体为:
8.根据权利要求5所述的一种SPU的聚合装置,其特征在于,获取用户搜索数据,并对所述用户搜索数据进行识别处理,生成同义词表,具体为:
9.一种SPU的聚合设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至4任意一项所述的一种SPU的聚
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如权利要求1至4任意一项所述的一种SPU的聚合方法。
...【技术特征摘要】
1.一种spu的聚合方法,其特征在于,包括:
2.根据权利要求1所述的一种spu的聚合方法,其特征在于,在获取词汇表之前,还包括:
3.根据权利要求1所述的一种spu的聚合方法,其特征在于,所述添加对抗网络fgm处理,具体为:
4.根据权利要求1所述的一种spu的聚合方法,其特征在于,获取用户搜索数据,并对所述用户搜索数据进行识别处理,生成同义词表,具体为:
5.一种spu的聚合装置其特征在于,包括:
6.根据权利要求5所述的一种spu的聚合装置,其特征在于,在获取词汇表之前,还包括:
7.根据权利要求5所述的一种spu的...
【专利技术属性】
技术研发人员:陈鑫,邢东进,杨洪进,
申请(专利权)人:厦门蝉羽网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。