数据处理方法和装置,存储介质和电子设备制造方法及图纸

技术编号:26304135 阅读:18 留言:0更新日期:2020-11-10 19:59
本公开的目的是提供一种数据处理方法和装置,存储介质和电子设备,以解决相关技术中对公司名称的解析处理不够高效的问题。所述方法包括:根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;根据所述目标样本字段更新所述目标词库。

【技术实现步骤摘要】
数据处理方法和装置,存储介质和电子设备
本公开涉及数据处理领域,具体地,涉及一种数据处理方法和装置,存储介质和电子设备。
技术介绍
随着互联网金融的发展,越来越多的业务场景需要用户信息来做相关决策分析。通过公司名称可以了解到用户的背景,有助于构建用户的“画像”。相关技术中,在获取到用户输入公司名称之后,还需要解析公司名称中的关键字。公司名称中往往由多个字段组成,比如,“北京蓝天绿树网络科技有限责任公司”中的行政区域类型字段“北京”,行业类型字段“网络科技”,以及公司类字段“有限责任公司”,剩下的则为商号字段“蓝天绿树”。具体实施时,需要通过建立针对不同类型字段的词集,以便于对公司名称进行解析、匹配等操作。相关技术中,不同类型字段的词集主要由人工录入。针对行政区域词集,内容较为有限且不会随时间变化,人工录入的工作量较小。然而,针对行业类型的词集,其内容随着发展商业模式的发展不断地更新变化,人工从海量样本公司名称中提取行业类型字段再进行录入,耗时耗力且效率较低。
技术实现思路
本公开的目的是提供一种数据处理方法和装置,存储介质和电子设备,以解决相关技术中对公司名称的解析处理不够高效的问题。为了实现上述目的,本公开提供一种数据处理方法,所述方法包括:根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;根据所述目标样本字段更新所述目标词库。可选地,所述目标词库包括行政区域类型词集、公司类型词集和行业类型词集。可选地,所述根据所述目标样本字段更新所述目标词库,包括:将所述目标样本字段计入所述目标词库的所述行业类型词集。可选地,所述通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段,包括:确定多个所述样本字段中词频符合第二预设词频条件的样本字段;将词频符合第二预设词频条件的所述样本字段中,未存在于所述行政区域类型词集和所述公司类型词集的样本字段作为所述待选样本字段。可选地,所述方法还包括:获取由用户输入的待检公司名称;根据所述预设的分词模型对所述待检公司名称进行字段划分处理,得到待检字段;将所述待检字段与更新后的所述目标词库的进行匹配,确定所述待检公司名称中未包含在更新后的所述目标词库中的目标待检字段;确定所述目标待检字段为所述待检公司名称的关键字段,所述关键字段用于所述待检公司名称与其他用户输入的待检公司名称的名称匹配操作。本公开提供一种数据处理装置,所述装置包括:分词模块,用于根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;第一确定模块,用于通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;第二确定模块,用于确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;词库更新模块,用于根据所述目标样本字段更新所述目标词库。可选地,所述目标词库包括行政区域类型词集、公司类型词集和行业类型词集。可选地,所述词库更新模块,用于将所述目标样本字段计入所述目标词库的所述行业类型词集。可选地,所述第一确定模块,用于:确定多个所述样本字段中词频符合第二预设词频条件的样本字段;将词频符合第二预设词频条件的所述样本字段中,未存在于所述行政区域类型词集和所述公司类型词集的样本字段作为所述待选样本字段。可选地,所述装置还包括:获取模块,用于获取由用户输入的待检公司名称;所述分词模块,还用于根据所述预设的分词模型对所述待检公司名称进行字段划分处理,得到待检字段;第三确定模块,用于将所述待检字段与更新后的所述目标词库的进行匹配,确定所述待检公司名称中未包含在更新后的所述目标词库中的目标待检字段;第四确定模块,用于确定所述目标待检字段为所述待检公司名称的关键字段,所述关键字段用于所述待检公司名称与其他用户输入的待检公司名称的名称匹配操作。本公开提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述数据处理方法的步骤。本公开提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现任一项所述数据处理方法的步骤。上述技术方案至少能够达到以下技术效果:根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段,进一步地,通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段,再确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段,进而根据所述目标样本字段更新所述目标词库。这样,可以从样本公司名称自动提取高词频的行业类型字段,减少人工录入的工作量,提升了建立行业类型词集的便捷度,进而提升了公司名称解析的效率。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是根据一示例性实施例示出的一种数据处理方法流程图。图2是根据一示例性实施例示出的另一种数据处理方法流程图。图3是根据一示例性实施例示出的另一种数据处理方法流程图。图4是根据一示例性实施例示出的另一种数据处理装置框图。图5是根据一示例性实施例示出的一种电子设备框图。图6是根据一示例性实施例示出的另一种电子设备框图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。图1是根据一示例性实施例示出的一种数据处理方法流程图。如图1所示,所述方法包括:S11,根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段。其中,可以提前获取百万个样本公司名称。样本公司名称的数据量越大,则得到的样本字段也越多,其包含的信息量广度也会相应的增加。具体实施时,先使用开源的结巴分词工具库对每一的样本公司名做分词,还可以通过停止词进行分词。例如,对公司名称“金喜鹊商贸有限责任公司”进行分词处理之后,得到的样本字段可以是“金喜鹊”、“商贸”、“有限责任公司”。再比如对“新疆亚克西广场物业服务有限公司”进行分词处理之后,得到的样本字段可以是“新疆”、“亚克西”、“广场”、“物业服务”、“有限公司”。对公司名称本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;/n通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;/n确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;/n根据所述目标样本字段更新所述目标词库。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;
通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段;
确定所述待选样本字段中词频符合第一预设词频条件的目标样本字段;
根据所述目标样本字段更新所述目标词库。


2.根据权利要求1所述的方法,其特征在于,所述目标词库包括行政区域类型词集、公司类型词集和行业类型词集。


3.根据权利要求2所述的方法,其特征在于,所述根据所述目标样本字段更新所述目标词库,包括:
将所述目标样本字段计入所述目标词库的所述行业类型词集。


4.根据权利要求2所述的方法,其特征在于,所述通过将多个所述样本字段与目标词库中的字段进行匹配,确定多个所述样本字段中未包含在所述目标词库中的待选样本字段,包括:
确定多个所述样本字段中词频符合第二预设词频条件的样本字段;
将词频符合第二预设词频条件的所述样本字段中,未存在于所述行政区域类型词集和所述公司类型词集的样本字段作为所述待选样本字段。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取由用户输入的待检公司名称;
根据所述预设的分词模型对所述待检公司名称进行字段划分处理,得到待检字段;
将所述待检字段与更新后的所述目标词库的进行匹配,确定所述待检公司名称中未包含在更新后的所述目标词库中的目标待检字段;
确定所述目标待检字段为所述待检公司名称的关键字段,所述关键字段用于所述待检公司名称与其他用户输入的待检公司名称的名称匹配操作。


6.一种数据处理装置,其特征在于,所述装置包括:
分词模块,用于根据预设的分词模型对多个样本公司名称中的每一所述样本公司名称进行字段划分处理,得到多个样本字段;...

【专利技术属性】
技术研发人员:周立伍家俊
申请(专利权)人:深圳中兴飞贷金融科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1