本发明专利技术实施例公开了一种数据处理的方法、装置及电子设备。本发明专利技术实施例通过获取物品的待处理标题信息,其中,所述标题信息中包括物品名称;确定所述待处理标题信息中的物品名称;将所述物品名称进行数据增强,生成设定格式的物品名称增强数据;将所述物品名称增强数据输入到预先训练的快速文本分类模型,确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括至少一个候选匹配标题信息;根据预先设定的规则确定所述候选匹配标题信息集合中与所述待处理标题信息匹配的至少一个候选匹配标题信息。通过上述方法,可以准确的对物品的标题信息进行匹配,提高了匹配的准确度并且减少了人力资源的消耗。度并且减少了人力资源的消耗。度并且减少了人力资源的消耗。
【技术实现步骤摘要】
一种数据处理的方法、装置及电子设备
[0001]本专利技术涉及计算机
,具体涉及一种数据处理的方法、装置及电子设备。
技术介绍
[0002]随着线上购物的兴起,越来越多的人开始使用线上购物这一新的购物模式代替线下购物,平台每段时间都会有大量的物品上架,为了对平台上的物品结构进行优化,需要与其它多个平台的物品数据进行比较,确定物品的结构特点,例如,物品的有无以及物品的价格等。为实现上述目的,需要对物品的标题信息与其它平台中物品的标题信息进行匹配。
[0003]现有技术中,通过分词后计算相似度、或者训练深度学习的短文本匹配模型、或者通过设置固定的规则等方式对物品的标题信息进行匹配,但是上述三种匹配方式都存在一定的缺点,其中,通过分词后计算相似度的方式进行匹配会依赖分词效果,但由于商品的标题信息中包括的名称、品牌、规格等数量较大,可能会出现分词不准问题,进而导致计算相似度的准确性降低;通过分词后计算相似度的方式进行匹配,但训练模型非常耗费计算资源和时间;通过设置固定的规则进行匹配,但是由于物品更新太快,需要不断的对规则进行优化,耗费大量的人力资源。
[0004]综上所述,如何快速准确的对物品的标题信息进行匹配是目前需要解决的问题。
技术实现思路
[0005]有鉴于此,本专利技术实施例提供了一种数据处理的方法、装置及电子设备,可以准确的对物品的标题信息进行匹配,提高了匹配的准确度并且减少了人力资源的消耗。
[0006]第一方面,本专利技术实施例提供了一种数据处理的方法,该方法包括:
[0007]获取物品的待处理标题信息,其中,所述标题信息中包括物品名称;
[0008]确定所述待处理标题信息中的物品名称;
[0009]将所述物品名称进行数据增强,生成设定格式的物品名称增强数据;
[0010]将所述物品名称增强数据输入到预先训练的快速文本分类模型,确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括至少一个候选匹配标题信息;
[0011]根据预先设定的规则确定所述候选匹配标题信息集合中与所述待处理标题信息匹配的至少一个候选匹配标题信息。
[0012]优选地,该方法还包括:
[0013]获取物品的初始标题信息,其中,所述初始标题信息中包括噪声数据、物品名称以及物品规格;
[0014]对所述初始标题信息进行数据清洗,消除所述初始标题信息中的噪声数据;
[0015]确定物品的所述待处理标题信息。
[0016]优选地,所述将所述物品名称进行数据增强,生成设定格式的物品名称增强数据,具体包括:
[0017]将所述物品名称基于字进行分割,生成不分割的物品名称在前,分割后的所述物
品名称中包含的每个字在后的字符串;
[0018]将所述字符串确定为所述物品名称增强数据。
[0019]优选地,所述将所述物品名称增强数据输入到预先训练的快速文本分类模型,确定候选匹配标题信息集合,具体包括:
[0020]将所述物品名称增强数据以及匹配需求输入到预先训练的快速文本分类模型,其中,所述匹配需求包括相似度第一阈值以及所述候选匹配标题信息集合中候选匹配标题信息的第一数量;
[0021]确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括第一数量的所述候选匹配标题信息,以及每个所述候选匹配标题信息与所述待处理标题信息的相似度,所述每个所述候选匹配标题信息与所述待处理标题信息的相似度大于所述相似度第一阈值。
[0022]优选地,所述根据预先设定的规则确定所述候选匹配标题信息集合中与所述待处理标题信息匹配的至少一个候选匹配标题信息,具体包括:
[0023]针对每个所述候选匹配标题信息,对所述候选匹配标题信息进行有效性校验;
[0024]响应于所述候选匹配标题信息有效,确定其为与所述待处理标题信息匹配的候选匹配标题信息;或者,
[0025]响应于所述候选匹配标题信息无效,从所述候选匹配标题信息集合中去除所述候选匹配标题信息。
[0026]优选地,所述标题信息以及所述候选匹配标题信息还包括物品规格,响应于所述候选匹配标题信息有效后,该方法还包括:
[0027]将所述标题信息以及所述候选匹配标题信息中的物品规格进行匹配;
[0028]响应于所述物品规格匹配,确定其为与所述待处理标题信息匹配的候选匹配标题信息;或者,
[0029]响应于所述物品规格不匹配,从所述候选匹配标题信息集合中去除所述候选匹配标题信息。
[0030]优选地,该方法还包括:
[0031]响应于所述候选匹配标题信息与所述待处理标题信息的相似度大于设定第二阈值,确定其为与所述待处理标题信息匹配的候选匹配标题信息;或者,
[0032]响应于所述候选匹配标题信息与所述待处理标题信息的相似度小于或等于所述第二阈值,从所述候选匹配标题信息集合中去除所述候选匹配标题信息。
[0033]第二方面,本专利技术实施例提供了一种数据处理的装置,该装置包括:
[0034]获取单元,用于获取物品的待处理标题信息,其中,所述标题信息中包括物品名称;
[0035]确定单元,用于确定所述待处理标题信息中的物品名称;
[0036]生成单元,用于将所述物品名称进行数据增强,生成设定格式的物品名称增强数据;
[0037]所述确定单元还用于,将所述物品名称增强数据输入到预先训练的快速文本分类模型,确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括至少一个候选匹配标题信息;
[0038]匹配单元,用于根据预先设定的规则确定所述候选匹配标题信息集合中与所述待处理标题信息匹配的至少一个候选匹配标题信息。
[0039]优选地,所述获取单元还用于:获取物品的初始标题信息,其中,所述初始标题信息中包括噪声数据、物品名称以及物品规格;
[0040]所述装置还包括:清洗单元,用于对所述初始标题信息进行数据清洗,消除所述初始标题信息中的噪声数据;
[0041]所述确定单元还用于,确定物品的所述待处理标题信息。
[0042]优选地,所述生成单元具体用于:将所述物品名称基于字进行分割,生成不分割的物品名称在前,分割后的所述物品名称中包含的每个字在后的字符串;
[0043]将所述字符串确定为所述物品名称增强数据。
[0044]优选地,所述确定单元具体用于:将所述物品名称增强数据以及匹配需求输入到预先训练的快速文本分类模型,其中,所述匹配需求包括相似度第一阈值以及所述候选匹配标题信息集合中候选匹配标题信息的第一数量;
[0045]确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括第一数量的所述候选匹配标题信息,以及每个所述候选匹配标题信息与所述待处理标题信息的相似度,所述每个所述候选匹配标题信息与所述待处理标题信息的相似度大于所述相似度第一阈值。
[0046]优选地,所述匹配单元具体用于:针对每个所述候本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据处理的方法,其特征在于,该方法包括:获取物品的待处理标题信息,其中,所述标题信息中包括物品名称;确定所述待处理标题信息中的物品名称;将所述物品名称进行数据增强,生成设定格式的物品名称增强数据;将所述物品名称增强数据输入到预先训练的快速文本分类模型,确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括至少一个候选匹配标题信息;根据预先设定的规则确定所述候选匹配标题信息集合中与所述待处理标题信息匹配的至少一个候选匹配标题信息。2.如权利要求1所述的方法,其特征在于,该方法还包括:获取物品的初始标题信息,其中,所述初始标题信息中包括噪声数据、物品名称以及物品规格;对所述初始标题信息进行数据清洗,消除所述初始标题信息中的噪声数据;确定物品的所述待处理标题信息。3.如权利要求1所述的方法,其特征在于,所述将所述物品名称进行数据增强,生成设定格式的物品名称增强数据,具体包括:将所述物品名称基于字进行分割,生成不分割的物品名称在前,分割后的所述物品名称中包含的每个字在后的字符串;将所述字符串确定为所述物品名称增强数据。4.如权利要求1所述的方法,其特征在于,所述将所述物品名称增强数据输入到预先训练的快速文本分类模型,确定候选匹配标题信息集合,具体包括:将所述物品名称增强数据以及匹配需求输入到预先训练的快速文本分类模型,其中,所述匹配需求包括相似度第一阈值以及所述候选匹配标题信息集合中候选匹配标题信息的第一数量;确定候选匹配标题信息集合,其中,所述候选匹配标题信息集合中包括第一数量的所述候选匹配标题信息,以及每个所述候选匹配标题信息与所述待处理标题信息的相似度,所述每个所述候选匹配标题信息与所述待处理标题信息的相似度大于所述相似度第一阈值。5.如权利要求1所述的方法,其特征在于,所述根据预先设定的规则确定所述候选匹配标题信息集合中与所述待处理标题信息匹配的至少一个候选匹配标题信息,具体包括:针对每个所述候选匹配标题信息,对所述候选匹配标题信息进行有效性校验;响应于所述候选匹配标题信息有效,确定其为与所述待处理标题信息匹配的候选匹配标题信息;或者,响应于所述候选匹配标题信息无效,从所...
【专利技术属性】
技术研发人员:王焕铭,乔勇,
申请(专利权)人:北京橙心无限科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。