【技术实现步骤摘要】
一种数据处理方法及装置
[0001]本申请涉及数据处理
,尤其涉及一种数据处理方法及装置。
技术介绍
[0002]近年来,由于计算机技术和网络技术的迅猛发展,大数据技术的应用愈加广泛。在大数据产业中,对海量数据的分析与利用,促进了相关行业的健康发展。如,银联的跨行交易数据是最具价值的海量数据之一,可以通过数据分析和建模等手段获取包含数据特征的分析结果,帮助用户进行相关决策。
[0003]现有技术中,银联的跨行交易数据中没有商户所属的品牌信息。因此,通过网页爬虫方式获取品牌信息,再通过分词算法获得品牌信息中的品牌关键词和商户名称,从而将该品牌关键词与银联商户库中的商户名称进行逐一匹配,建立商户库中商户名称与品牌关键词的关联关系。但该方式需要网页爬虫得到的品牌信息中包括品牌关键词,使得难以为商户库中所有商户名称均匹配到品牌关键词。
[0004]因此,现在亟需一种数据处理方法及装置,用于提高商户库中商户名称匹配到品牌关键词的数量。
技术实现思路
[0005]本专利技术实施例提供一种数据处理方法 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:对商户数据库中的第二商户名称进行分词,得到所述第二商户名称的各关键词及各关键词在所述第二商户名称中的词序;确定各设定词性在商户名称中的初始词性分布概率;确定所述各关键词在所述各设定词性下的观测概率矩阵和词性转移概率矩阵;基于各关键词在所述第二商户名称中的词序,通过所述初始词性分布概率、所述词性转移概率矩阵和所述观测概率矩阵,确定所述各关键词中作为所述第二商户名称的品牌关键词。2.如权利要求1中所述的方法,其特征在于,对商户数据库中的第二商户名称进行分词之前,还包括:抓取外部品牌数据,通过规则分词模型对所述外部品牌数据进行分词,得到外部关键词;从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,并作为所述第一商户名称的品牌关键词;将所述商户数据库中未匹配到所述外部关键词的商户名称,确定为第二商户名称。3.如权利要求2中所述的方法,其特征在于,从所述商户数据库中确定出与所述外部关键词匹配的第一商户名称,包括:对各外部关键词构建字典树;将所述商户数据库中的商户名称分别与所述字典树进行匹配;确定包含所述字典树任一分支的第一商户名称,并将所述分支对应的外部关键词作为所述第一商户名称的品牌关键词。4.如权利要求3中所述的方法,其特征在于,确定包含所述字典树任一分支的第一商户名称,包括:确定包含所述字典树任一分支的商户名称;针对任一所述商户名称,若所述商户名称中包含所述分支对应的外部关键词的品牌关联词集中任一关联词,且所述商户名称中不包含所述分支对应的外部关键词的品牌非关联词集中任一非关联词,则确定所述商户名称为所述第一商户名称。5.如权利要求1中所述的方法,其特征在于,基于如下公式,确定所述各关键词中作为所述第二商户名称的品牌关键词:其中,i∈(reg,brand,ind,other)表示关键词i属于所述第二...
【专利技术属性】
技术研发人员:周航,陈鑫,徐婷婷,赵萌,
申请(专利权)人:银联智策顾问上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。