数据处理方法和装置,存储介质和电子设备制造方法及图纸

技术编号:26304135 阅读:24 留言:0更新日期:2020-11-10 19:59
本公开的目的是提供一种数据处理方法和装置,存储介质和电子设备,以解决相关技术中对公司名称的解析处理不够高效的问题。所述方法包括:根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;根据所述目标样本字段更新所述目标词库。

【技术实现步骤摘要】
数据处理方法和装置,存储介质和电子设备
本公开涉及数据处理领域,具体地,涉及一种数据处理方法和装置,存储介质和电子设备。
技术介绍
随着互联网金融的发展,越来越多的业务场景需要用户信息来做相关决策分析。通过公司名称可以了解到用户的背景,有助于构建用户的“画像”。相关技术中,在获取到用户输入公司名称之后,还需要解析公司名称中的关键字。公司名称中往往由多个字段组成,比如,“北京蓝天绿树网络科技有限责任公司”中的行政区域类型字段“北京”,行业类型字段“网络科技”,以及公司类字段“有限责任公司”,剩下的则为商号字段“蓝天绿树”。具体实施时,需要通过建立针对不同类型字段的词集,以便于对公司名称进行解析、匹配等操作。相关技术中,不同类型字段的词集主要由人工录入。针对行政区域词集,内容较为有限且不会随时间变化,人工录入的工作量较小。然而,针对行业类型的词集,其内容随着发展商业模式的发展不断地更新变化,人工从海量样本公司名称中提取行业类型字段再进行录入,耗时耗力且效率较低。
技术实现思路
本公开的目的是提供一种数据处理方法和装置,存储介质和电子设备本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;/n通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;/n确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;/n根据所述目标样本字段更新所述目标词库。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;
通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;
确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;
根据所述目标样本字段更新所述目标词库。


2.根据权利要求1所述的方法,其特征在于,所述目标词库包括行政区域类型词集、公司类型词集和行业类型词集。


3.根据权利要求2所述的方法,其特征在于,所述根据所述目标样本字段更新所述目标词库,包括:
将所述目标样本字段计入所述目标词库的所述行业类型词集。


4.根据权利要求2所述的方法,其特征在于,所述通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段,包括:
确定多个所述样本字段中词频符合第二预设词频条件的样本字段;
将词频符合第二预设词频条件的所述样本字段中,未存在于所述行政区域类型词集和所述公司类型词集的样本字段作为所述待选样本字段。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取由用户输入的待检公司名称;
根据所述预设的分词模型对所述待检公司名称进行字段划分处理,得到待检字段;
将所述待检字段与更新后的所述目标词库的进行匹配,确定所述待检公司名称中未包含在更新后的所述目标词库中的目标待检字段;
确定所述目标待检字段为所述待检公司名称的关键字段,所述关键字段用于所述待检公司名称与其他用户输入的待检公司名称的名称匹配操作。


6.一种数据处理装置,其特征在于,所述装置包括:
分词模块,用于根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;...

【专利技术属性】
技术研发人员:周立伍家俊
申请(专利权)人:深圳中兴飞贷金融科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1