【技术实现步骤摘要】
一种简历解析方法和系统
[0001]本说明书涉及自然语言处理领域,特别涉及一种简历解析方法和系统。
技术介绍
[0002]随着信息技术的发展,越来越多的简历呈现为电子文档的形式。从简历文档中提取求职者的结构化信息,是企业构建人才库、实现人才筛选和人岗匹配的基础。
[0003]目前,希望提供一种高准确率的简历解析方法。
技术实现思路
[0004]本说明书实施例之一提供一种简历解析方法,包括:获取简历对应的PDF文档和图片;基于所述图片,确定所述简历中一个或多个文本行的文本行位置;基于所述PDF文档,确定所述简历中的一个或多个第一字符以及所述一个或多个第一字符的字符位置;基于所述一个或多个文本行的文本行位置和所述一个或多个第一字符的字符位置,对所述一个或多个文本行和所述一个或多个第一字符进行匹配,以得到匹配结果;以及基于所述匹配结果,生成所述简历对应的解析文本。
[0005]本说明书实施例之一提供一种简历解析系统,包括:获取模块,用于获取简历对应的PDF文档和图片;定位模块,用于基于所述图片,确定所述简历中一个或多个文本行的文本行位置;第一解析模块,用于基于所述PDF文档,确定所述简历中的一个或多个第一字符以及所述一个或多个第一字符的字符位置;匹配模块,用于基于所述一个或多个文本行的文本行位置和所述一个或多个第一字符的字符位置,对所述一个或多个文本行和所述一个或多个第一字符进行匹配,以得到匹配结果;以及第二解析模块,用于基于所述匹配结果,生成所述简历对应的解析文本。
[0006]本 ...
【技术保护点】
【技术特征摘要】
1.一种简历解析方法,其特征在于,包括:获取简历对应的PDF文档和图片;基于所述图片,确定所述简历中一个或多个文本行的文本行位置;基于所述PDF文档,确定所述简历中的一个或多个第一字符以及所述一个或多个第一字符的字符位置;基于所述一个或多个文本行的文本行位置和所述一个或多个第一字符的字符位置,对所述一个或多个文本行和所述一个或多个第一字符进行匹配,以得到匹配结果;以及基于所述匹配结果,生成所述简历对应的解析文本。2.如权利要求1所述的方法,其特征在于,所述匹配包括判断每个所述第一字符是否位于所述一个或多个文本行中,所述基于所述匹配结果,生成所述简历对应的解析文本,包括:确定所述一个或多个文本行中是否存在未匹配到第一字符的目标文本行;响应于确定所述一个或多个文本行中存在目标文本行,对所述目标文本行进行光学文本解析,以确定所述目标文本行中的一个或多个第二字符,所述解析文本包括所述一个或多个第一字符和所述一个或多个第二字符。3.如权利要求1所述的方法,其特征在于,还包括,对于所述一个或多个文本行中的每个文本行:确定所述文本行的第一特征向量和至少一个第二特征向量,所述第一特征向量与所述文本行的语义有关,所述至少一个第二特征向量与所述文本行的文本行位置和/或文本行尺寸有关;对所述第一特征向量和所述至少一个第二特征向量进行融合处理,得到所述文本行的融合特征向量;将所述融合特征向量输入文本行分类模型,以确定所述文本行的类别;以及基于所述一个或多个文本行的类别,将所述一个或多个文本行划分为一个或多个文本块,其中,每个文本块包括至少一个文本行。4.如权利要求3所述的方法,其特征在于,所述至少一个第二特征向量包括以下特征向量中的至少一个:横向位置特征向量,所述横向位置向量与所述文本行的横向位置有关;纵向位置特征向量,所述纵向位置向量与所述文本行的纵向位置有关;横向尺寸特征向量,所述横向尺寸特征向量与所述文本行的横向长度有关;纵向尺寸特征向量,所述纵向尺寸特征向量与所述文本行的纵向长度有关。5.如权利要求4所述的方法,其特征在于,所述简历由纵向排列的多页组成,所述第一特征向量为d维向量;所述横向位置特征向量通过以下方式确定:将所述文本行的横向位置转换至预设数值范围内;所述预设数值范围包括对应所述多页的多个子范围;所述纵向位置特征向量通过以下方式确定:确定所述文本行在所述多页中的页码;基于所述页码,将所述文本行的纵向位置转换至所述页码对应的子范围内;将转换后的纵向位置映射为d维特征向量,得到所述纵向位置特征向量;
所述横向尺寸特征向量和所述纵向尺寸特征向量通过以下方式确定:将所述文本行的横向长度和纵向长度分别转换至所述预设数值范围内;将转换后的横向长度映射为d维特征向量,得到所述横向尺寸特征向量;将转换后的纵向长度映射为d维特征向量,得到所述纵向尺寸特征向量。6.如权利要求1所述的方法,其特征在于,还包括,对于所述一个...
【专利技术属性】
技术研发人员:夏鑫,郑启军,谌明,
申请(专利权)人:浙江同花顺智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。