分类字典建立方法、商户数据分类方法、装置及设备制造方法及图纸

技术编号:24169409 阅读:43 留言:0更新日期:2020-05-16 02:27
本申请提供了一种分类字典建立方法、商户数据分类方法、装置及设备,涉及数据处理领域。该分类字典建立方法,包括:获取包括多个商户数据对应的第一商户名称的第一商户名称训练集;对第一商户名称进行分词,得到第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;根据词向量训练模型,利用专业规范语料库对属性词字典中的属性词进行训练,得到属性词字典中的属性词对应的属性词向量;基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,分类字典包括属性词与类别词的从属关系,分类词典用于根据商户名称对商户名称对应的商户数据进行分类。利用本申请的技术方案能够提高商户数据分类的准确性。

【技术实现步骤摘要】
分类字典建立方法、商户数据分类方法、装置及设备
本申请属于数据处理领域,尤其涉及一种分类字典建立方法、商户数据分类方法、装置及设备。
技术介绍
随着互联网技术的普及,电子商务规模不断扩大,商户数据大量出现,需要对商户数据进行分类管理。最初采用人工审核商户数据的方式来对商户数据进行分类,但人工审核效率低,且容易发生错误。为了解决人工审核带来的问题,现阶段利用电子设备采集并根据商户名称信息、商品名称信息、交易信息等多类信息实现对商户数据的分类。但是,在相关信息类型较少的情况下,由于采集的相关信息种类不足,从而导致商户数据的分类的准确率下降。
技术实现思路
本申请实施例提供了一种分类字典建立方法、商户数据分类方法、装置及设备,能够提高商户数据分类的准确性。第一方面,本申请实施例提供一种分类字典建立方法,包括:获取第一商户名称训练集,第一商户名称训练集包括多个商户数据对应的第一商户名称;对第一商户名称训练集中的第一商户名称进行分词,得到第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;根据词向本文档来自技高网...

【技术保护点】
1.一种分类字典建立方法,其特征在于,包括:/n获取第一商户名称训练集,所述第一商户名称训练集包括多个商户数据对应的第一商户名称;/n对所述第一商户名称训练集中的所述第一商户名称进行分词,得到所述第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;/n根据词向量训练模型,利用专业规范语料库对所述属性词字典中的属性词进行训练,得到所述属性词字典中的属性词对应的属性词向量;/n基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,所述分类字典包括属性词与类别词的从属关系,所述分类词典用于根据商户名称对商户名称对应的商户数据进行分类。/n

【技术特征摘要】
1.一种分类字典建立方法,其特征在于,包括:
获取第一商户名称训练集,所述第一商户名称训练集包括多个商户数据对应的第一商户名称;
对所述第一商户名称训练集中的所述第一商户名称进行分词,得到所述第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典;
根据词向量训练模型,利用专业规范语料库对所述属性词字典中的属性词进行训练,得到所述属性词字典中的属性词对应的属性词向量;
基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,所述分类字典包括属性词与类别词的从属关系,所述分类词典用于根据商户名称对商户名称对应的商户数据进行分类。


2.根据权利要求1所述的方法,其特征在于,所述基于属性词向量与预设的类别词的类别词向量的相似度,建立分类字典,包括:
计算属性词向量与每个类别词的类别词向量的相似度;
对于每个类别词,选取与所述类别词的类别词向量的相似度高于相似度阈值的属性词向量对应的属性词,作为与所述类别词具有从属关系的属性词;
利用每个所述类别词以及与所述类别词具有从属关系的属性词,建立所述分类字典。


3.根据权利要求2所述的方法,其特征在于,还包括:
若存在与两个以上的所述类别词的类别词向量的相似度高于所述相似度阈值的目标属性词,确定所述目标属性词的备选场景;
获取所述目标属性词的每个所述备选场景的场景权重,利用所述目标属性词的属性词向量与所述类别词的类别词向量的相似度,以及所述场景权重,确定与所述目标属性词具有从属关系的所述类别词。


4.根据权利要求1所述的方法,其特征在于,在所述对所述第一商户名称训练集中的所述商户名称进行分词之前,还包括:
对所述第一商户名称训练集中的所述第一商户名称进行整合处理。


5.根据权利要求1所述的方法,其特征在于,在所述选取词频最高的预设属性词数目的属性词构建属性词字典之前,还包括:
根据预设的干扰去除规则,在所述属性词中确定干扰词并去除。


6.一种商户数据分类方法,其特征在于,包括:
获取待分类商户数据对应的第二商户名称;
利用所述待分类商户数据对应的第二商户名称和分类词典,对所述待分类商户数据进行分类,其中,同一类所述待分类数据对应的类别词相同,所述分类词典根据权利要求1至5中任意一项所述的分类字典的建立方法得到。


7.根据权利要求6所述的方法,其特征在于,所述利用所述待分类商户数据对应的第二商户名称和分类词典,对所述待分类商户数据进行分类,包括:
确定所述第二商户名称中含有的标记属性词,所述标记属性词为所述分类字典中的属性词;
将所述第二商户名称中含有的标记属性词对应的类别词相同的商户数据划分为同一类。


8.根据权利要求6所述的方法,其特征在于,还包括:
获取所述待分类商户数据的分类辅助信息,利用所述分类辅助信息对所述待分类商户数据的分类结果进行验证。


9.一种分类字典建立装置,其特征在于,包括:
训练集获取模块,用于获取第一商户名称训练集,所述第一商户名称训练集包括多个商户数据对应的第一商户名称;
字典构建模块,用于对所述第一商户名称训练集中的所述第一商户名称进行分词,得到所述第一商户名称的属性词,选取词频最高的预设属性词数目的属性词构建属性词字典...

【专利技术属性】
技术研发人员:杨峥王旸陈汉华锦芝
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1