一种基于贝叶斯分类的行业编码选定方法技术

技术编号:35645295 阅读:14 留言:0更新日期:2022-11-19 16:38
本发明专利技术公开了一种基于贝叶斯分类的行业编码选定方法。该方法包括获取用户提交的相关申请资料;从申请资料中提取企业的基本信息;判断企业是否为新的行业客户,是则列举出该企业经营范围内的所有行业,由客户选定所属行业,否则,通过对企业经营范围的内容解析,识别出企业经营范围数据集,并给出最大概率的四级行业编码推荐数据选项;若四级行业编码推荐数据选项不被用户认可,扩大推荐范围至选定确认成功,或由客户对系统推荐的行业编码进行校验确认,无误则落库存储。本发明专利技术解决了跨行业经营的企业的主行业分类计算问题和存量历史数据的校验和修复问题,提升客户对行业编码的定位效率和准确度,逐步提升对新客群的行业编码分类能力。分类能力。分类能力。

【技术实现步骤摘要】
一种基于贝叶斯分类的行业编码选定方法


[0001]本专利技术涉及基于贝叶斯分类的行业编码选定方法
,具体涉及一种基于贝叶斯分类的行业编码选定方法。

技术介绍

[0002]我国银行业金融机构承担定期向国家金融监管部门报送的责任。而随着政府部门对监管报送的内容的准确性要求越来越高,各银行机构需要投入在监管报送数据校验工作上的人力和物力愈来愈重。由于数据源的加工处理过程来源复杂,且加工逻辑不一,在汇总成综合报表后,容易出现数据不一致,或数据不准确的问题。
[0003]监管报送数据处理中,涉及企业经营类数据的报送内容有“经营范围”和“所属行业”两个维度的数据。其中“经营范围”属于多种并列关系数据,即一个企业的经营范围可能较为广阔,横跨多个“行业”。但是企业的“所属行业”又只能填写一个,部分系统数据填写又由于引入人工填写的内容,容易造成企业“经营范围”和“所属行业”不匹配的问题。
[0004]实际发生数据不一致问题时,如果数据规模较小,可手动调整,但是如果涉及数据过大,手动的人工调整存在风险,且不能从根本上解决数据不一致的问题。再者,其数据修复所耗时间长,涉及人工修复成本高,不利于后续的数据运营管理。

技术实现思路

[0005]本专利技术的目的是针对现有技术存在的不足,提供一种基于贝叶斯分类的行业编码选定方法。
[0006]为实现上述目的,本专利技术提供了一种基于贝叶斯分类的行业编码选定方法,包括:
[0007]步骤1、获取用户在申请相关业务时提交的相关申请资料;
[0008]步骤2、从所述申请资料中提取企业的基本信息;
[0009]步骤3、基于提取的企业的基本信息判断所述企业是否为新的行业客户,若为新的行业客户,则跳转至步骤6,否则,进入步骤4;
[0010]步骤4、通过对企业经营范围的内容解析,识别出企业经营范围数据集,并给出最大概率的四级行业编码推荐数据选项;
[0011]步骤5、若所述四级行业编码推荐数据选项不被用户认可,则基于企业的经营范围,给出过滤后的概率最高的A个四级行业编码推荐数据选项供客户选择,若仍未被用户认可,则回退至三级行业编码推荐数据选项供客户选择,若仍未被用户认可,则由用户选择继续回退直至选定确认成功或跳转至步骤6;
[0012]步骤6、若为新的行业客户,则列举出该企业经营范围内的所有行业,由客户选定所属行业,否则由客户对系统推荐的行业编码进行校验确认;
[0013]步骤7、用户确认选定或校验确认的行业编码无误后,通过整个业务办理流程后落库存储。
[0014]进一步的,所述申请资料包括营业执照,所述步骤2基于OCR解析营业执照内容。
[0015]进一步的,所述步骤4具体包括:
[0016]将当前历史数据中的每条经营范围记录作数据清洗提取后,统计第i种经营范围记录r
i
在行内的指定类别细项的统计数量计算第i种经营范围记录r
i
在当前数据集下的先验概率p(r
i
)为:
[0017][0018]其中,M代表经营记录细项的总数;
[0019]统计当前历史数据中的每个经营四级行业编码的数量,将出现的频率映射为四级分类编码的概率,具体如下:
[0020][0021]其中,N代表四级行业编码的总数,代表第i种行业编码h
i
在当前数据集的出现次数;
[0022]根据企业经营范围的内容解析结果给定所述企业的经营范围r1,r2,...,r
n
,其中,n为大于2的自然数;
[0023]在行业编码固定的情况下,计算当前给定的经营范围r1,r2,

,r
n
的条件概率p(r
j
|h
i
),其中j∈[1,

,n];
[0024]根据当前给定的经营范围r1,r2,...,r
n
的条件概率p(r
j
|h
i
)计算行业编码的概率p(h
i
|r1,r2,...,r
n
),具体如下:
[0025][0026]其中,p(r1,r2,...,r
n
|h
i
)为在确认行业编码为h
i
的情况下,r1,r2,...,r
n
这个组合的条件概率,p(r1,r2,...,r
n
|h
l
)为在确认行业编码为h
l
的情况下,r1,r2,...,r
n
这个组合的条件概率,p(h
l
)为第l种经营范围的四级分类编码的概率,l∈[1,

,N];
[0027]计算argmax(p(h
i
|r1,r2,

,r
n
)),并作为最大概率的四级行业编码推荐数据选项,argmax(.)为求自变量最大的函数。
[0028]进一步的,所述数据清洗提取的方式具体如下:
[0029]基于“一般经营项目”和“特许经营项目”将经营范围分解成若干个大类;
[0030]将“;”作为分隔符,分解出每个经营项目,同时去除掉“。”符号,形成经营范围列表busi_scope_list。
[0031]进一步的,所述当前给定的经营范围r1,r2,...,r
n
的条件概率p(r
j
|h
i
)的计算方式如下:
[0032]提取每种行业编码h
i
关联的所有企业的经营范围集合{r1,r2,...,r
m
},其中,m为大于2的自然数;
[0033]统计每个经营范围r
k
的频率并计算经营范围r
k
的条件概率p(r
k
|h
i
)为:
[0034][0035]其中,r
k
∈{r1,r2,...,r
m
};
[0036]查找所述企业的经营范围子集的概率集合S,其中,S∈{r1,r2,...,r
m
};
[0037]重复执行直至所有行业编码都完成遍历。
[0038]进一步的,在计算出行业编码的概率p(h
i
|r1,r2,...,r
n
)后,将h
i
的概率进行归纳整理成三级行业编码概率具体如下:
[0039][0040]其中,为第i类四级行业编码对应的三级行业编码概率;
[0041]对所述三级行业编码概率累加构建二级行业编码概率具体如下:
[0042][0043]其中,为第i类四级行业编码对应的二级行业编码概率。
[0044]进一步的,判断所述企业是否为新的行业客户的方式具体如下:
[0045]查询本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于贝叶斯分类的行业编码选定方法,其特征在于,包括:步骤1、获取用户在申请相关业务时提交的相关申请资料;步骤2、从所述申请资料中提取企业的基本信息;步骤3、基于提取的企业的基本信息判断所述企业是否为新的行业客户,若为新的行业客户,则跳转至步骤6,否则,进入步骤4;步骤4、通过对企业经营范围的内容解析,识别出企业经营范围数据集,并给出最大概率的四级行业编码推荐数据选项;步骤5、若所述四级行业编码推荐数据选项不被用户认可,则基于企业的经营范围,给出过滤后的概率最高的A个四级行业编码推荐数据选项供客户选择,若仍未被用户认可,则回退至三级行业编码推荐数据选项供客户选择,若仍未被用户认可,则由用户选择继续回退直至选定确认成功或跳转至步骤6;步骤6、若为新的行业客户,则列举出该企业经营范围内的所有行业,由客户选定所属行业,否则由客户对系统推荐的行业编码进行校验确认;步骤7、用户确认选定或校验确认的行业编码无误后,通过整个业务办理流程后落库存储。2.根据权利要求1所述的一种基于贝叶斯分类的行业编码选定方法,其特征在于,所述申请资料包括营业执照,所述步骤2基于OCR解析营业执照内容。3.根据权利要求1所述的一种基于贝叶斯分类的行业编码选定方法,其特征在于,所述步骤4具体包括:将当前历史数据中的每条经营范围记录作数据清洗提取后,统计第i种经营范围记录r
i
在行内的指定类别细项的统计数量计算第i种经营范围记录r
i
在当前数据集下的先验概率p(r
i
)为:其中,M代表经营记录细项的总数;统计当前历史数据中的每个经营四级行业编码的数量,将出现的频率映射为四级分类编码的概率,具体如下:其中,N代表四级行业编码的总数,代表第i种行业编码h
i
在当前数据集的出现次数;根据企业经营范围的内容解析结果给定所述企业的经营范围r1,r2,

,r
n
,其中,n为大于2的自然数;在行业编码固定的情况下,计算当前给定的经营范围r1,r2,...,r
n
的条件概率p(r
j
|h
i
),其中j∈[1,...,n];根据当前给定的经营范围r1,r2,...,r
n
的条件概率p(r
j
|h
i
)计算行业编码的概率p(h
i
|r1,r2,...,r
n
),具体如下:
其中,p(r1,r2,...,r
n
|h
i
)为在确认行业编码为h
i
的情况下,r1,r2,...,r
n
这个组合的条件概率,p(r1,r2,...,r
n
|h
l
)为在确认行业编码为h
l
的情况下,r1,r2...

【专利技术属性】
技术研发人员:郑清正
申请(专利权)人:江苏苏宁银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1