一种创建企业画像的方法及装置制造方法及图纸

技术编号:19023370 阅读:78 留言:0更新日期:2018-09-26 19:03
本发明专利技术涉及一种创建企业画像的方法及装置。该方法包括:获取与企业画像相关的数据;对与企业画像相关的数据进行预处理,获取预处理后的数据;对预处理后的数据进行分类;对分类后的数据与企业进行匹配,并将匹配成功后的数据存储至与企业对应的企业信息数据库;利用企业信息数据库中存储的数据,创建与企业对应的企业画像。获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。根据分类后的数据创建企业画像,完整地刻画了企业的全面方位信息,使创建的企业画像更加全面,更加客观。

【技术实现步骤摘要】
一种创建企业画像的方法及装置
本专利技术涉及数据处理领域,尤其涉及一种创建企业画像的方法及装置。
技术介绍
企业画像具体是指通过分析一个或多个来源的数据,对同企业相关的信息进行提炼与整理,从而得到刻画、描述企业经营业务、发展情况等多个方面的“画像”,即数据集。现阶段,在许多针对企业的业务或应用中,都是基于企业画像所确定的企业相关信息而开展。伴随着互联网信息的海量扩张,以及社会信息化程度的提高,同企业本身相关的信息、数据也在飞速的增加,这也导致企业画像这一技术方法的应用更加丰富,分析成果更具说服力。例如,在社交、电商领域普遍的商家评分系统,就可以理解为企业画像的一种应用形式,这类应用中,系统(或移动端App)会分析来自用户的反馈以及商家自身提供的信息,通过分析模型提炼关键的指标或特征,完成商家的“画像”,并最终形成对商家质量的统一标准评分,为消费者的消费选择提供参考。企业征信同样也是企业画像应用较广的领域,许多征信模型基于传统的企业风险评估5C模型,将企业报表中的信息同5C模型中的不同模块进行对应,实现企业的多角度“画像”,并基于画像应用打分模型评估企业信用。综上,企业画像方法通过一段时间的发展,在现阶段有着较广的应用。与此同时,通过广泛了解、分析已有的企业画像应用情况,发现目前企业画像在设计、应用过程中主要存在着三个方面的缺点,包括数据源单一,数据形式偏重结构化数据以及应用场景局限。不同的企业画像在这三个方面都有着不同程度的体现,但是这三个方面无论哪一者的出现,都会对企业画像的应用效果造成显著的负面影响。以下便是对这三个方面的详细阐述。数据源单一是现有企业画像方法应用中最为广泛的问题,对企业画像的应用效果造成了直接的限制,同样也是企业画像丰富最难以突破的瓶颈。诸多分析认为,数据是21世纪信息化发展的源动力,当前的时代是数据时代,这个特点在企业画像中体现的尤为明显。企业画像的目的在于对企业的多个层面进行数据支持的刻画,而实现这一过程需要丰富数据源的驱动。现有的企业画像多数仅采用单一渠道的源数据,或为企业报表,或为网络信息,较少能够将多方面数据源整合利用。数据形式偏重结构化这一缺点在部分企业画像应用中体现的尤为明显。其中就包括针对企业报表分析的企业信用,企业影响力评估等场景。结构化数据即“行数据”,指可以在数据库中用二维表结构来进行描述的数据,在上述这部分应用中,所有的分析都基于报表中的数值型或分类型数据,这一特点会导致企业画像的丰富程度存在不足,包含在互联网非结构化信息(如新闻、研究报告等)中的海量信息被忽略,这对旨在对企业进行全面刻画的企业画像有着较严重的不利影响。应用场景局限在一定程度上是目前大部分企业画像方法的通病,这指的是目前的企业画像往往是为某一特定的应用目标(如商家推荐,企业征信等)而开展,因此导致收集的目标数据源存在单一围绕分析目标的特点。在互联网大数据时代,在注重“直接影响”的同时,“间接影响”同样不能被忽视。建立在感性认知前提上所筛选的“相关”数据源,毫无疑问会造成遗漏部分看似“不相关”实则有着显著影响的数据项,这会导致企业画像的应用效果大打折扣。
技术实现思路
为解决上述技术问题,本专利技术提供了一种创建企业画像的方法及装置。第一方面,本专利技术提供了一种创建企业画像的方法,该方法包括:获取与企业画像相关的数据;对与企业画像相关的数据进行预处理,获取预处理后的数据;对预处理后的数据进行分类;对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;利用企业信息数据库中存储的数据,创建与企业对应的企业画像。本专利技术的有益效果是:获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。根据分类后的数据创建企业画像,完整地刻画了企业的全面方位信息,使创建的企业画像更加全面,更加客观。进一步,对与企业画像相关的数据进行预处理,获取预处理后的数据,具体包括:对与企业画像相关的数据进行去重处理;分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与企业画像相关的数据中的任一条数据;将去除第一数据后的与企业画像相关的数据进行格式转换。采用上述进一步的方案的有益技术效果在于,将收集到的数据进行去重、去除无用数据,以及将数据进行格式转换等预处理,可以提高最终数据质量,统一数据标准。进一步,与企业画像相关的数据包括:政务数据和互联网数据。采用上述进一步的技术方案的有益技术效果在于,数据源来自于政务大数据和互联网大数据,数据来源更加广泛,拓展数据获取渠道,由此可以避免数据的单一性,数据形式偏重结构化,以及应用场景局限化等问题。进一步的,对预处理后的数据进行分类,具体包括:将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类;将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。采用上述进一步的技术方案的有益技术效果在于:采用两大数据源,将数据分别分为九类。根据这九大类数据可以实现全方位的构建企业画像。进一步的,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库,具体包括:当分类后的数据所属数据源中包含企业法人代码时,利用企业法人代码与企业信息进行匹配;当分类后的数据所属数据源中不包含企业法人代码时,采用模糊匹配算法,将分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至对应的企业信息数据库。采用上述进一步的技术方案的有益技术效果在于:在进行数据分类后,将每一条数据和企业信息进行匹配。当数据源含有国家统一规定的企业法人代码时,直接与企业信息进行匹配。当不包含时,则利用模糊匹配的方法,进行匹配。最终获取一个高纬度、不同属性的大数据。第二方面,本专利技术提供了一种创建企业画像的装置,该装置包括:获取单元,用于获取与企业画像相关的数据;处理单元,用于对与企业画像相关的数据进行预处理,获取预处理后的数据;分类单元,用于对预处理后的数据进行分类;匹配单元,对分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;创建单元,用于利用企业信息数据库中存储的数据,创建与企业对应的企业画像。上述方案的有益技术效果在于,获取与企业画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和企业信息进行匹配,以便于匹配后的数据同样是分类存储的。根据分类后的数据创建企业画像,完整地刻画了企业的全面方位信息,使创建的企业画像更加全面,更加客观。进一步的,处理单元具体用于:对与企业画像相关的数据进行去重处理;分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;分别将至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除第一数据,其中本文档来自技高网
...

【技术保护点】
1.一种创建企业画像的方法,其特征在于,所述方法包括:获取与企业画像相关的数据;对所述与企业画像相关的数据进行预处理,获取预处理后的数据;对所述预处理后的数据进行分类;对所述分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;利用所述企业信息数据库中存储的数据,创建与企业对应的企业画像。

【技术特征摘要】
1.一种创建企业画像的方法,其特征在于,所述方法包括:获取与企业画像相关的数据;对所述与企业画像相关的数据进行预处理,获取预处理后的数据;对所述预处理后的数据进行分类;对所述分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库;利用所述企业信息数据库中存储的数据,创建与企业对应的企业画像。2.根据权利要求1所述的方法,其特征在于,所述对所述与企业画像相关的数据进行预处理,获取预处理后的数据,具体包括:对所述与企业画像相关的数据进行去重处理;分别提取经过去重处理后的与企业画像相关的数据中每一条数据对应的至少两个关键词;分别将所述至少两个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少两个关键词均不属于关键词典中的关键词时,去除所述第一数据,其中所述第一数据为所述经过去重处理后的与企业画像相关的数据中的任一条数据;将去除所述第一数据后的与企业画像相关的数据进行格式转换。3.根据权利要求1所述的方法,其特征在于,所述与企业画像相关的数据包括:政务数据和互联网数据。4.根据权利要求3所述的方法,其特征在于,对所述预处理后的数据进行分类,具体包括:将预处理后的政务数据分为:企业登记类、行政处罚类、创新意识类、信贷信息类、信用情况类以及社会责任类;将预处理后的互联网数据分为:企业相关介绍类、企业招聘信息类以及企业相关新闻类。5.根据权利要求1-4任一项所述的法,其特征在于,所述对所述分类后的数据与企业信息进行匹配,并将匹配成功后的数据存储至与企业信息对应的企业信息数据库,具体包括:当所述分类后的数据所属数据源中包含企业法人代码时,利用所述企业法人代码与所述企业信息进行匹配;当所述分类后的数据所属数据源中不包含所述企业法人代码时,采用模糊匹配算法,将所述分类后的数据与所述企业信息进行匹配,并将匹配成功...

【专利技术属性】
技术研发人员:许青圆王启力邰莉梅黄昕庭于莹
申请(专利权)人:神州数码系统集成服务有限公司许青圆
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1