一种基于单遍聚类的外贸产品描述去重批量化处理方法技术

技术编号:46579596 阅读:1 留言:0更新日期:2025-10-10 21:20
本申请涉及一种基于单遍聚类的外贸产品描述去重批量化处理方法,涉及数据处理技术领域,包括:设置产品描述特征向量相似度阈值,创建产品描述全量类簇中心向量库,存储首个产品描述的特征向量作为初始类簇中心;提取新增批次产品描述的特征向量,计算其与全量类簇中心的相似度;根据相似度阈值将新增批次产品描述划分为两组:潜在新类簇中心组和可被归属组;对每个潜在新类簇中心按原出现顺序进行严格单遍聚类,生成临时新类簇中心向量库并合并至全量库;批量将可归属组的产品描述关联至最近类簇中心;聚类完成后,根据业务需求设置去重阈值,将簇内高于去重阈值的产品描述去重掉。本申请具有能够提高外贸产品描述去重效率的技术效果。

【技术实现步骤摘要】

本申请涉及数据处理的,尤其是涉及一种基于单遍聚类的外贸产品描述去重批量化处理方法


技术介绍

1、在外贸领域,产品描述去重是确保数据质量和提升业务效率的重要环节。传统基于单遍聚类的去重方法虽然在理论上适合处理持续更新的数据流,但在实际应用中面临诸多效率挑战。这类方法需要将每个新产品描述与所有现有类簇进行全维度相似度比对,随着数据规模的扩大,计算开销显著增加,导致系统响应速度明显下降。

2、在硬件资源利用方面,传统串行处理模式难以充分发挥现代计算硬件的并行处理能力。由于算法强制按顺序处理数据,即使面对批量相似的描述信息,也无法有效利用多核处理器或gpu的并行计算优势。同时,频繁的内存随机访问导致缓存效率低下,进一步降低了计算性能。这种效率瓶颈在需要实时处理的业务场景中表现得尤为突出,严重影响了系统的整体吞吐量。

3、面对跨境贸易日益增长的数据处理需求,传统方法已难以满足业务对实时性和处理效率的要求。特别是在高峰流量时段,系统处理能力不足的问题更加凸显,不仅影响去重效果,还会对后续的数据分析和业务决策造成延迟。>

<本文档来自技高网...

【技术保护点】

1.一种基于单遍聚类的外贸产品描述去重批量化处理方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于单遍聚类的外贸产品描述去重批量化处理方法,其特征在于:所述全量类簇中心向量库配置有支持近似最近邻搜索的索引结构,并采用内存数据库或分布式数据库存储类簇中心信息。

3.根据权利要求2所述的一种基于单遍聚类的外贸产品描述去重批量化处理方法,其特征在于:所述支持快速近似最近邻搜索的索引结构具体计算产品描述特征向量之间的余弦距离度量,以获得所述新增批次外贸详单的产品描述特征向量与所述全量类簇中心向量库中已有的类簇中心向量的相似度。

<p>4.根据权利要求...

【技术特征摘要】

1.一种基于单遍聚类的外贸产品描述去重批量化处理方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于单遍聚类的外贸产品描述去重批量化处理方法,其特征在于:所述全量类簇中心向量库配置有支持近似最近邻搜索的索引结构,并采用内存数据库或分布式数据库存储类簇中心信息。

3.根据权利要求2所述的一种基于单遍聚类的外贸产品描述去重批量化处理方法,其特征在于:所述支持快速近似最近邻搜索的索引结构具体计算产品描述特征向量之间的余弦距离度量,以获得所述新增批次外贸详单的产品描述特征向量与所述全量类簇中心向量库中已有的类簇中心向量的相似度。

4.根据权利要求1所述的一种基于单遍聚类的外贸产品描述去重批量化处理方法,其特征在于:根据所述相似度和产品描述特征相似度阈值对新增批次外贸产品描述进行分组,分为潜在新...

【专利技术属性】
技术研发人员:刘天赏乔永志黄启龙
申请(专利权)人:上海腾道信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1