本发明专利技术涉及一种数据的分类方法及系统,该方法包括步骤:获得待分类的数据,所述数据包括企业名称和若干个特征变量;根据所述企业名称确定该企业所属行业,并从规则库中调取出该企业所属行业的分类规则;根据调取出的分类规则和所述若干个特征变量的数值进行分类。通过本发明专利技术方法或系统,可以更加准确地对企业数据进行分类,继而使得在进一步应用时可以有针对于性采用对应的方法或模型,使得数据处理结果更具有准确性。
A data classification method and system
【技术实现步骤摘要】
一种数据分类方法及系统
本专利技术涉及数据处理
,特别涉及一种适用于企业信用风险预警的数据分类方法及系统。
技术介绍
基于大数据时代,通过对企业运营中产生的各种数据进行收集、分析,可以有效地帮助企业自己或他人创造更多的价值。例如,通过分析产品的热销类型和购买人群,可以帮助企业做出更准确的产品营销策略。又例如,通过对企业交易数据的分析,可以帮助企业形成信用档案,有助于企业进行融资或贷款。以企业信用评估为例,传统的征信模型,通过以逻辑回归、判别分析等方法为主要的模型对企业进行信用评估,虽然能够评价企业信用风险,但是传统的信用评估模型的数据主要依赖于交易数据,针对于具有大量交易数据的大企业而言具有很好的可靠性,而对于缺乏贷款经历和交易行为的小公司,他们的信贷记录缺失或者不完整,便会自动被视为信用风险较大,继而影响其融资或贷款。因此,通过对企业进行分类,基于不同类型的企业采用不同的信用评估模型,可以提高信用评估的准确性。然而目前的企业分类一般是根据企业从业人员、营业收入、资产总额等指标进行分类,这是一种粗糙的分类方式,而这样的分类方式并不适用于例如企业信用评估等各种不同的应用,并不能提高评估结果的准确性。
技术实现思路
本专利技术的目的在于改善现有技术中所存在的上述不足,提供一种适用于企业信用风险预警的数据分类方法及系统。为了实现上述专利技术目的,本专利技术实施例提供了以下技术方案:一种数据的分类方法,包括以下步骤:从数据库中获得待分类的数据,所述数据包括企业名称和若干个特征变量;根据所述企业名称确定该企业所属行业,并从规则库中调取出该企业所属行业的分类规则;根据调取出的分类规则和所述若干个特征变量的数值进行分类。上述方法中,针对不同行业采用不同的分类规则,分类时先根据企业名称确定所属行业,然后再基于该行业的分类规则进行分类,相比于传统方法针对所有行业都采用企业规模这种单一划分方式,更具有准确性。基于分类后的数据进行相应的应用处理,处理结果也更具有准确性和参考性。作为一种较优的实施方式,所述根据调取出的分类规则和所述若干个特征变量的数值进行分类的步骤,包括:以分类条件的要求高低为参考,按种类从高到低的顺序,判断所有的特征变量的数值是否同时满足某一种类的分类条件,若同时满足则分类为该种类,若其中任一个特征变量的数值不满足该种类的分类条件,则分类为该种类的下一级种类。另一方面,本专利技术实施例同时提供了一种数据的分类系统,包括:第一存储器,配置有数据库,用于存储待分类的数据,所述数据包括企业名称和若干个特征变量;第二存储器,配置有规则库,用于存储各个行业的分类规则;带处理器的分类设备,分别与第一存储器和第二存储器进行数据通信,用于从第一存储器中获取待分类的数据,并根据所述企业名称确定该企业所属行业,然后从从第二存储器的规则库中调取出该企业所属行业的分类规则,并根据调取出的分类规则和所述若干个特征变量的数值进行分类。与现有技术相比,通过本专利技术方法或系统,可以更加准确地对企业数据进行分类,继而使得在进一步应用时可以有针对于性采用对应的方法或模型,使得数据处理结果更具有准确性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为实施例中一种数据分类方法的流程图。图2为实施例中另一种数据分类方法的流程图。图3为实施例中数据分类系统的示意图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图3,本实施例中提供了一种数据分类系统,包括第一存储器、第二存储器和带处理器的分类设备,分类设备分别与第一存储器和第二存储器通信以便于进行数据传输。分类设备可以是PC机、笔记本电脑、服务器等具有数据处理功能的设备。其中,第一存储器配置有数据库,用于存储待分类的数据,所述数据包括企业名称和若干个特征变量。第二存储器配置有规则库,用于存储各个行业的分类规则。分类设备从第一存储器中获取待分类的数据,并根据所述企业名称确定该企业所属行业,然后从从第二存储器的规则库中调取出该企业所属行业的分类规则,并根据调取出的分类规则和所述若干个特征变量的数值进行分类。本实施例中同时提供了一种基于上述系统实现数据分类方法。请参阅图2,该数据分类方法包括如下步骤:S100,获得待分类的数据,所述数据包括企业名称和若干个特征变量。针对于不同的应用,特征变量的个数可以不同,例如前述针对于企业信用评估的应用,特征变量变量注册资本和一度关联方数量。容易理解的,此处的数据所包含的特征变量不仅是指特征变量的名称,还包含特征变量的具体数值。例如某企业的名称为AAA,注册资本为200万,一度关联方数量为15个,那么本步骤中所述的数据包括:AAA,注册资本200万,一度关联方数量15个。S200,根据所述企业名称确定该企业所属行业,并从规则库中调取出该企业所属行业的分类规则。针对于不同的应用可以有不同的行业划分方式,例如针对于企业信用评估的应用,将全行业划分为21个类别,而针对于其他应用可以有其他划分方式,例如将全行业划分为生产制造业(包括农、林、牧、渔业,采矿业,制造业,建筑业,金融业,房地产业)、盈利性服务业(包括电力、热力、燃气及水生产和供应业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息传输、软件和信息技术服务业,租赁和商务服务业,文化、体育和娱乐业)、非盈利性服务业(包括科学研究和技术服务业,水利、环境和公共设施管理业,居民服务、修理和其他服务业,教育业,卫生和社会工作业,公共管理、社会保障和社会组织,国际组织)和其他这4大类别。S300,根据调取出的分类规则和所述若干个特征变量的数值进行分类。在进行分类时,以分类条件的要求高低为参考,按种类从高到低的顺序,首先判断所有的特征变量的数值是否同时满足某一种类的分类条件,若同时满足则分类为该种类,若不能同时满足,也就是说,针对于每一种分类,若其中任一个特征变量的数值不满足该种类的分类条件,那么分类为该种类的下一级种类。基于不同的应用对企业数据可以有不同的分类方法,仅作为举例,下面将以企业信用评估应用为例,再阐述一下本专利技术数据分类方法。请参阅图1,基于企业信用评估本文档来自技高网...
【技术保护点】
1.一种数据的分类方法,其特征在于,包括以下步骤:/n从数据库中获得待分类的数据,所述数据包括企业名称和若干个特征变量;/n根据所述企业名称确定该企业所属行业,并从规则库中调取出该企业所属行业的分类规则;/n根据调取出的分类规则和所述若干个特征变量的数值进行分类。/n
【技术特征摘要】
1.一种数据的分类方法,其特征在于,包括以下步骤:
从数据库中获得待分类的数据,所述数据包括企业名称和若干个特征变量;
根据所述企业名称确定该企业所属行业,并从规则库中调取出该企业所属行业的分类规则;
根据调取出的分类规则和所述若干个特征变量的数值进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据调取出的分类规则和所述若干个特征变量的数值进行分类的步骤,包括:
以分类条件的要求高低为参考,按种类从高到低的顺序,判断所有的特征变量的数值是否同时满足某一种类的分类条件,若同时满足则分类为该种类,若其中任一个特征变量的数值不满足该种类的分类条件,则分类为该种类的下一级种类。
3.根据权利要求1所述的方法,其特征在于,所述特征变量包括注册资本和一度关联方数量。
4.一种数据的分类系统,其特征在于,包括:
第...
【专利技术属性】
技术研发人员:陈文,林佳仪,巫源睿,周凡吟,曾途,吴桐,
申请(专利权)人:成都数联铭品科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。