一种简历解析方法和系统技术方案

技术编号:38338831 阅读:9 留言:0更新日期:2023-08-02 09:19
本说明书实施例公开了一种简历解析方法和系统,所述方法包括:获取简历对应的PDF文档和图片;基于所述图片,确定所述简历中一个或多个文本行的文本行位置;基于所述PDF文档,确定所述简历中的一个或多个第一字符以及所述一个或多个第一字符的字符位置;基于所述一个或多个文本行的文本行位置和所述一个或多个第一字符的字符位置,对所述一个或多个文本行和所述一个或多个第一字符进行匹配,以得到匹配结果;以及基于所述匹配结果,生成所述简历对应的解析文本。对应的解析文本。对应的解析文本。

【技术实现步骤摘要】
一种简历解析方法和系统


[0001]本说明书涉及自然语言处理领域,特别涉及一种简历解析方法和系统。

技术介绍

[0002]随着信息技术的发展,越来越多的简历呈现为电子文档的形式。从简历文档中提取求职者的结构化信息,是企业构建人才库、实现人才筛选和人岗匹配的基础。
[0003]目前,希望提供一种高准确率的简历解析方法。

技术实现思路

[0004]本说明书实施例之一提供一种简历解析方法,包括:获取简历对应的PDF文档和图片;基于所述图片,确定所述简历中一个或多个文本行的文本行位置;基于所述PDF文档,确定所述简历中的一个或多个第一字符以及所述一个或多个第一字符的字符位置;基于所述一个或多个文本行的文本行位置和所述一个或多个第一字符的字符位置,对所述一个或多个文本行和所述一个或多个第一字符进行匹配,以得到匹配结果;以及基于所述匹配结果,生成所述简历对应的解析文本。
[0005]本说明书实施例之一提供一种简历解析系统,包括:获取模块,用于获取简历对应的PDF文档和图片;定位模块,用于基于所述图片,确定所述简历中一个或多个文本行的文本行位置;第一解析模块,用于基于所述PDF文档,确定所述简历中的一个或多个第一字符以及所述一个或多个第一字符的字符位置;匹配模块,用于基于所述一个或多个文本行的文本行位置和所述一个或多个第一字符的字符位置,对所述一个或多个文本行和所述一个或多个第一字符进行匹配,以得到匹配结果;以及第二解析模块,用于基于所述匹配结果,生成所述简历对应的解析文本。
[0006]本说明书实施例之一提供一种简历解析装置,包括处理器和存储设备,所述存储设备存储有简历解析指令,当所述处理器执行所述简历解析指令时,实现如本说明书任一实施例所述的简历解析方法。
附图说明
[0007]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的简历解析系统的示例性模块图;图2是根据本说明书一些实施例所示的文本解析模块的示例性模块图;图3是根据本说明书一些实施例所示的简历解析方法的示例性流程图;图4A展示了示例性的单栏简历;图4B展示了示例性的双栏简历;图5是根据本说明书一些实施例所示的文本解析方法的示例性流程图;
图6是根据本说明书一些实施例所示的文本行分类方法的示例性流程图;图7是根据本说明书另一些实施例所示的文本行分类方法的示例性流程图;图8是根据本说明书一些实施例所示的字段提取方法的示例性流程图。
具体实施方式
[0008]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0009]应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0010]如本说明书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0011]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0012]图1是根据本说明书一些实施例所示的简历解析系统的示例性模块图。
[0013]如图1所示,简历解析系统100可以包括文本解析模块110、文本分块模块120、字段提取模块130和字段后处理模块140。
[0014]文本解析模块110可以用于生成简历对应的解析文本,所述解析文本包括所述简历中的一个或多个文本行,其中,每个文本行包括至少一个字符。
[0015]在一些实施例中,如图2所示,文本解析模块110可以包括获取模块210、定位模块220、第一解析模块230、匹配模块240和第二解析模块250。
[0016]获取模块210可以用于获取简历对应的PDF(Portable Document Format,便携式文件格式)文档和图片。
[0017]定位模块220可以用于基于所述图片,确定所述简历中一个或多个文本行的文本行位置。
[0018]第一解析模块230可以用于基于所述PDF文档,确定所述简历中的一个或多个第一字符以及所述一个或多个第一字符的字符位置。
[0019]匹配模块240可以用于基于所述一个或多个文本行的文本行位置和所述一个或多个第一字符的字符位置,对所述一个或多个文本行和所述一个或多个第一字符进行匹配,以得到匹配结果。
[0020]第二解析模块250可以用于基于所述匹配结果,生成所述简历对应的解析文本。
[0021]在一些实施例中,所述匹配可以包括判断每个所述第一字符是否位于所述一个或
多个文本行中,第二解析模块250可以用于:确定所述一个或多个文本行中是否存在未匹配到第一字符的目标文本行;响应于确定所述一个或多个文本行中存在目标文本行,对所述目标文本行进行光学文本解析,以确定所述目标文本行中的一个或多个第二字符,所述解析文本可以包括所述一个或多个第一字符和所述一个或多个第二字符。
[0022]在一些实施例中,文本解析模块110还可以包括版式调整模块260,版式调整模块260可以用于调整所述简历的版面格式,例如,文本行的排列顺序。
[0023]在一些实施例中,版式调整模块260可以用于:识别所述图片中的目标空白区域,所述目标空白区域的位置和尺寸满足预设条件;基于所述目标空白区域确定第一文本区域和第二文本区域,所述第二文本区域位于所述第一文本区域的右侧;更新所述第二文本区域中的文本行的文本行位置,以使所述第二文本区域移至所述第一文本区域的下方。
[0024]文本分块模块120可以用于将所述一个或多个文本行划分为一个或多个文本块,其中,每个文本块包括至少一个文本行。
[0025]在一些实施例中,对于所述一个或多个文本行中的每个文本行,文本分块模块120可以用于:确定所述文本行的第一特征向量和至少一个第二特征向量,所述第一特征向量与所述文本行的语义有关,所述至少一个第二特征向量与所述文本行的文本行位置和/或文本行尺寸有关; 对所述第一特征向量和所述至少一个第二特征向量进行融合处理,得到所述文本行的融合特征向量;将所述融合特征向量输入文本行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种简历解析方法,其特征在于,包括:获取简历对应的PDF文档和图片;基于所述图片,确定所述简历中一个或多个文本行的文本行位置;基于所述PDF文档,确定所述简历中的一个或多个第一字符以及所述一个或多个第一字符的字符位置;基于所述一个或多个文本行的文本行位置和所述一个或多个第一字符的字符位置,对所述一个或多个文本行和所述一个或多个第一字符进行匹配,以得到匹配结果;以及基于所述匹配结果,生成所述简历对应的解析文本。2.如权利要求1所述的方法,其特征在于,所述匹配包括判断每个所述第一字符是否位于所述一个或多个文本行中,所述基于所述匹配结果,生成所述简历对应的解析文本,包括:确定所述一个或多个文本行中是否存在未匹配到第一字符的目标文本行;响应于确定所述一个或多个文本行中存在目标文本行,对所述目标文本行进行光学文本解析,以确定所述目标文本行中的一个或多个第二字符,所述解析文本包括所述一个或多个第一字符和所述一个或多个第二字符。3.如权利要求1所述的方法,其特征在于,还包括,对于所述一个或多个文本行中的每个文本行:确定所述文本行的第一特征向量和至少一个第二特征向量,所述第一特征向量与所述文本行的语义有关,所述至少一个第二特征向量与所述文本行的文本行位置和/或文本行尺寸有关;对所述第一特征向量和所述至少一个第二特征向量进行融合处理,得到所述文本行的融合特征向量;将所述融合特征向量输入文本行分类模型,以确定所述文本行的类别;以及基于所述一个或多个文本行的类别,将所述一个或多个文本行划分为一个或多个文本块,其中,每个文本块包括至少一个文本行。4.如权利要求3所述的方法,其特征在于,所述至少一个第二特征向量包括以下特征向量中的至少一个:横向位置特征向量,所述横向位置向量与所述文本行的横向位置有关;纵向位置特征向量,所述纵向位置向量与所述文本行的纵向位置有关;横向尺寸特征向量,所述横向尺寸特征向量与所述文本行的横向长度有关;纵向尺寸特征向量,所述纵向尺寸特征向量与所述文本行的纵向长度有关。5.如权利要求4所述的方法,其特征在于,所述简历由纵向排列的多页组成,所述第一特征向量为d维向量;所述横向位置特征向量通过以下方式确定:将所述文本行的横向位置转换至预设数值范围内;所述预设数值范围包括对应所述多页的多个子范围;所述纵向位置特征向量通过以下方式确定:确定所述文本行在所述多页中的页码;基于所述页码,将所述文本行的纵向位置转换至所述页码对应的子范围内;将转换后的纵向位置映射为d维特征向量,得到所述纵向位置特征向量;
所述横向尺寸特征向量和所述纵向尺寸特征向量通过以下方式确定:将所述文本行的横向长度和纵向长度分别转换至所述预设数值范围内;将转换后的横向长度映射为d维特征向量,得到所述横向尺寸特征向量;将转换后的纵向长度映射为d维特征向量,得到所述纵向尺寸特征向量。6.如权利要求1所述的方法,其特征在于,还包括,对于所述一个...

【专利技术属性】
技术研发人员:夏鑫郑启军谌明
申请(专利权)人:浙江同花顺智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1