一种个人简历数据编码及连续数值化方法技术

技术编号:30169990 阅读:20 留言:0更新日期:2021-09-25 15:27
本发明专利技术提供了一种个人简历数据编码及连续数值化方法,包括以下步骤:简历数据获取及存储

【技术实现步骤摘要】
一种个人简历数据编码及连续数值化方法


[0001]本专利技术涉及一种个人简历数据编码及连续数值化方法,属于数据编码和数据表示
,具体涉及一种数据连续编码和数据连续数值化表示。

技术介绍

[0002]个人简历是求职者给招聘单位发的一份个人简要介绍,包括自己的基本信息:姓名、年龄、民族、政治面貌、学历学校、联系方式、自我评价、工作经历、求职愿望等。在人员稳定性分析、人岗匹配度分析、人员履职能力分析、人员工作作风分析等方面均需要对个人简历数据进行分析和利用。
[0003]由于个人简历数据由年龄等普通数值型数据、政治面貌等可枚举文本数据和自我评价、项目经验等复杂文本数据组成,对计算机来说具有较大的分析理解难度,因此在数据分析之前需要进行数据的编码和数值化。目前、大多数个人简历数据的处理和数值化研究中使用简单的文本完全匹配方法、分段函数数值化方法、阈值数值化方法、专家评估方法等粗粒度的编码和数值化方法,得到的结果往往呈现离散化形式,不仅无法体现数据之间的深层关系,还会丢失许多信息,不利于后续研究的开展和需求的实现。
[0004]相关研究发现连续化的数据表示比离散化的数据表示能够给数据分析的结果带来更多积极意义。因此通过统计概率、关联分析、专家经验分析等方式挖掘分析简历数据之间隐藏的关联关系,通过连续化编码技术实现数据的连续编码,通过连续化表示技术实现数据的连续表示,获得连续型、信息含量更为丰富的简历处理数据,对提升数据利用率、数据分析挖掘准确率、算法模型综合表现和技术原理可解释性有着重要意义。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供了一种个人简历数据编码及连续数值化方法,该个人简历数据编码及连续数值化方法通过客观数据统计分析、文本语义理解与表示、经验常识归纳与电子化等技术的结合实现个人简历数据的处理、编码及连续数值化,将个人简历中的离散数据、文本数据编码或映射为连续的数值型数据。
[0006]本专利技术通过以下技术方案得以实现。
[0007]本专利技术提供的一种个人简历数据编码及连续数值化方法,包括以下步骤:
[0008]①
简历数据获取及存储:进行数据存储表格设计并将获取的简历数据,按照各字段定义对应存入关系型数据库;
[0009]②
数据脱敏脱密:对简历数据中的隐私数据进行脱敏脱密处理;
[0010]③
简历数据质量分析:对简历数据的每一个字段进行数据统计分析,基于统计结果对数据质量进行评估分析;
[0011]④
简历数据预处理:基于数据质量评估结果,对简历数据进行预处理;
[0012]⑤
结构化数据连续数值化:对简历数据中的结构化数据进行编码或连续数值化;
[0013]⑥
文本数据语义理解及连续数值化:对简历数据中的文本描述数据进行语义理解
分析及关键语义抽取,并对抽取得到的文本描述数据关键语义进行编码和连续数值化;
[0014]⑦
数据继承及组合:根据上述步骤,将获取的各种数据存入表格,形成处理结果表,再将简历数据中的数值数据直接继承到处理结果表中,与其他字段的处理结果进行组合,获取最终的简历数据编码和数值化结果。
[0015]所述步骤

分为以下步骤:
[0016](1.1)通过数据文件管理系统、数据拷贝、数据接口调用、合法爬虫爬取方式获取简历数据,并保留简历数据的原有结构;
[0017](1.2)根据简历数据的构成,规划设计简历数据存储表格结构,从简历数据中提取人名、毕业院校数据,存入处理结果表格。
[0018]所述步骤

分为以下步骤:
[0019](2.1)通过具有唯一性的编码或加密方式,对简历数据中的人名数据进行编码;
[0020](2.2)将简历数据中的隐私数据用其他字符进行替换。
[0021]所述隐私数据包括手机号码、电子邮箱、身份证号、就职公司;所述预处理包括对简历数据中的无效值、重复值、空值、异常值、错误编码文本进行处理。
[0022]所述步骤

分为以下步骤:
[0023](3.1)统计简历数据中各字段的数据总数、重复数据数量、缺失数据数量、无意义数据及数量、异常数据及数量;
[0024](3.2)基于步骤(3.1)中的数据统计结果,从数据缺失率、无效数据百分占比、异常值情况、异常值百分占比的角度进行数据质量的评估分析,获取简历数据质量评估表。
[0025]所述步骤

中的预处理步骤如下:
[0026](4.1)对数据缺失率、异常值百分占比及无效数据百分占比超过阈值的字段进行标记;
[0027](4.2)通过删除、取平均值、取中位数、取众数、随机取值的方法进行其余字段中空值、无效值、异常值的处理。
[0028]所述步骤

分为以下步骤:
[0029](5.1)建立性别映射表,将性别中的男性、女性信息映射为连续的整数数字;建立包含党员、团员、群众的政治面貌映射表,将政治面貌映射为连续数字;建立包含博士、硕士、本科、专科的学历映射表,将学历数据映射为连续数字;
[0030](5.2)对毕业院校、院系和专业数据进行编码和连续数值化;
[0031](5.3)对居住城市、工作城市、期望城市数据进行编码和连续数值化;
[0032](5.4)对于行业分类、岗位分类处理数据进行编码及连续数值化;
[0033](5.5)对工作经历数据进行处理及连续数值化。
[0034]所述步骤(5.2)中,获取权威机构发布的国内外院校排名数据,按照教学质量和影响力进行院校层级的统计和划分,用连续数字进行编码并建立院校名称

编码

分级三层映射表,利用补零的方式保证编码结果长度一致,通过文字匹配方法将毕业院校映射为统一编码,然后将编码映射为对应的院校层级编码;按照同样的方法建立专业名称

编码

分级三层映射表,将各专业映射到统一编码后再映射为专业水平编码;最后将学校编码、学校层级数字、专业编码、专业水平数字组合得到毕业院校、院系和专业数据的连续数值化结果;
[0035]所述步骤(5.3)中,获取国家地区编码表并以省份为单位进行地区分组,然后根据
城市发达程度进行城市分级和标记,从各个分组中挑选一个或多个发达城市计算中心坐标:如果分组中只有一个发达城市则中心坐标为该城市的地理位置中心;如果有多个同等级发达城市则中心坐标为各个城市地理位置中心构成图形的几何中心;
[0036]依次计算同组内其他城市与中心坐标的距离,以中心城市为中心、按照距离的远近进行左右交叉排列,抽取城市数据,建立“工作城市

期望城市”数据对并进行数据对数量的统计,将不同数据对在总数据对中的百分占比作为对应数据对的概率,概率的大小表示城市之间工作异动的可能性,根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种个人简历数据编码及连续数值化方法,其特征在于:包括以下步骤:

简历数据获取及存储:进行数据存储表格设计并将获取的简历数据,按照各字段定义对应存入关系型数据库;

数据脱敏脱密:对简历数据中的隐私数据进行脱敏脱密处理;

简历数据质量分析:对简历数据的每一个字段进行数据统计分析,基于统计结果对数据质量进行评估分析;

简历数据预处理:基于数据质量评估结果,对简历数据进行预处理;

结构化数据连续数值化:对简历数据中的结构化数据进行编码或连续数值化;

文本数据语义理解及连续数值化:对简历数据中的文本描述数据进行语义理解分析及关键语义抽取,并对抽取得到的文本描述数据关键语义进行编码和连续数值化;

数据继承及组合:根据上述步骤,将获取的各种数据存入表格,形成处理结果表,再将简历数据中的数值数据直接继承到处理结果表中,与其他字段的处理结果进行组合,获取最终的简历数据编码和数值化结果。2.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤

分为以下步骤:(1.1)通过数据文件管理系统、数据拷贝、数据接口调用、合法爬虫爬取方式获取简历数据,并保留简历数据的原有结构;(1.2)根据简历数据的构成,规划设计简历数据存储表格结构,从简历数据中提取人名、毕业院校数据,存入处理结果表格。3.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤

分为以下步骤:(2.1)通过具有唯一性的编码或加密方式,对简历数据中的人名数据进行编码;(2.2)将简历数据中的隐私数据用其他字符进行替换。4.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述隐私数据包括手机号码、电子邮箱、身份证号、就职公司;所述预处理包括对简历数据中的无效值、重复值、空值、异常值、错误编码文本进行处理。5.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤

分为以下步骤:(3.1)统计简历数据中各字段的数据总数、重复数据数量、缺失数据数量、无意义数据及数量、异常数据及数量;(3.2)基于步骤(3.1)中的数据统计结果,从数据缺失率、无效数据百分占比、异常值情况、异常值百分占比的角度进行数据质量的评估分析,获取简历数据质量评估表。6.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤

中的预处理步骤如下:(4.1)对数据缺失率、异常值百分占比及无效数据百分占比超过阈值的字段进行标记;(4.2)通过删除、取平均值、取中位数、取众数、随机取值的方法进行其余字段中空值、无效值、异常值的处理。7.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤

分为以下步骤:
(5.1)建立性别映射表,将性别中的男性、女性信息映射为连续的整数数字;建立包含党员、团员、群众的政治面貌映射表,将政治面貌映射为连续数字;建立包含博士、硕士、本科、专科的学历映射表,将学历数据映射为连续数字;(5.2)对毕业院校、院系和专业数据进行编码和连续数值化;(5.3)对居住城市、工作城市、期望城市数据进行编码和连续数值化;(5.4)对于行业分类、岗位分类处理数据进行编码及连续数值化;(5.5)对工作经历数据进行处理及连续数值化。8.如权利要求7所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤(5.2)中,获取权威机构发布的国内外院校排名数据,按照教学质量和影响力进行院校层级的统计和划分,用连续数字进行编码并建立院校名称

编码

分级三层映射表,利用补零的方式保证编码结果长度一致,通过文字匹配方法将毕业院校映射为统一编码,然后将编码映射为对应的院校层级编码;按照同样的方法建立专业名称
...

【专利技术属性】
技术研发人员:刘媛印忠文褚志海张金磊赵龙军李响
申请(专利权)人:中电科大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1