【技术实现步骤摘要】
一种数据处理的方法、装置及电子设备
[0001]本专利技术涉及计算机
,具体涉及一种数据处理的方法、装置及电子设备。
技术介绍
[0002]随着线上购物的兴起,越来越多的人开始使用线上购物这一新的购物模式代替线下购物,平台每段时间都会有大量的物品上架,为了对平台上的物品结构进行优化,需要与其它多个平台的物品数据进行比较,确定物品的结构特点,例如,物品的有无以及物品的价格等。为实现上述目的,需要对物品的标题信息与其它平台中物品的标题信息进行匹配。
[0003]现有技术中,通过分词后计算相似度、或者训练深度学习的短文本匹配模型、或者通过设置固定的规则等方式对物品的标题信息进行匹配,但是上述三种匹配方式都存在一定的缺点,其中,通过分词后计算相似度的方式进行匹配会依赖分词效果,但由于商品的标题信息中包括的名称、品牌、规格等数量较大,可能会出现分词不准问题,进而导致计算相似度的准确性降低;通过分词后计算相似度的方式进行匹配,但训练模型非常耗费计算资源和时间;通过设置固定的规则进行匹配,但是由于物品更新太快,需要不断的对规 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理的方法,其特征在于,该方法包括:获取物品的待处理标题信息,其中,所述标题信息中包括物品名称;确定所述待处理标题信息中的物品名称;将所述物品名称进行数据增强,生成设定格式的物品名称增强数据;将所述物品名称增强数据输入到预先训练的快速文本分类模型,确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括至少一个候选匹配标题信息;根据预先设定的规则确定所述候选匹配标题信息集合中与所述待处理标题信息匹配的至少一个候选匹配标题信息。2.如权利要求1所述的方法,其特征在于,该方法还包括:获取物品的初始标题信息,其中,所述初始标题信息中包括噪声数据、物品名称以及物品规格;对所述初始标题信息进行数据清洗,消除所述初始标题信息中的噪声数据;确定物品的所述待处理标题信息。3.如权利要求1所述的方法,其特征在于,所述将所述物品名称进行数据增强,生成设定格式的物品名称增强数据,具体包括:将所述物品名称基于字进行分割,生成不分割的物品名称在前,分割后的所述物品名称中包含的每个字在后的字符串;将所述字符串确定为所述物品名称增强数据。4.如权利要求1所述的方法,其特征在于,所述将所述物品名称增强数据输入到预先训练的快速文本分类模型,确定候选匹配标题信息集合,具体包括:将所述物品名称增强数据以及匹配需求输入到预先训练的快速文本分类模型,其中,所述匹配需求包括相似度第一阈值以及所述候选匹配标题信息集合中候选匹配标题信息的第一数量;确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括第一数量的所述候选匹配标题信息,以及每个所述候选匹配标题信息与所述待处理标题信息的相似度,所述每个所述候选匹配标题信息与所述待处理标题信息的相似度大于所述相似度第一阈值。5.如权利要求1所述的方法,其特征在于,所述根据预先设定的规则确定所述候选匹配标题信息集合中与所述待处理标题信息匹配的至少一个候选匹配标题信息,具体包括:针对每个所述候选匹配标题信息,对所述候选匹配标题信息进行有效性校验;响应于所述候选匹配标题信息有效,确定其为与所述待处理标题信息匹配的候选匹配标题信息;或者,响应于所述候选匹配标题信息无效,从所...
【专利技术属性】
技术研发人员:王焕铭,乔勇,
申请(专利权)人:北京橙心无限科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。