基于领域本体库的工作简历结构化解析方法及系统技术方案

技术编号:36084944 阅读:26 留言:0更新日期:2022-12-24 11:00
本发明专利技术属于简历解析领域,提供了一种基于领域本体库的工作简历结构化解析方法及系统,包括获取工作简历数据,提取括号文本内容并进行筛选,得到待处理语句集合;以拆分标志符为拆分依据,对待处理语句集合进行拆分并重组,得到修正后的待处理语句集合;基于修正后的待处理语句集合,根据时间、地址、工作单位以及工作职务的顺序进行实体提取;将提取到的时间实体、地址实体、工作单位实体以及职务实体进行汇总。本发明专利技术无需准备标准格式的训练集,对单位、职务等结构分情况考虑,根据结果优化先验标志符集合。标志符集合。标志符集合。

【技术实现步骤摘要】
基于领域本体库的工作简历结构化解析方法及系统


[0001]本专利技术属于简历解析术领域,具体涉及一种基于领域本体库的工作简历结构化解析方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]简历是求职者在面试时需要携带的必带物品,是求职者应聘的“敲门砖”,也是企业了解求职者过往经历的有力途径。简历是对个人基本信息、教育经历、工作经历的客观描述,求职者可以通过简历全面、细致地介绍自己;企业可以通过简历高效判断求职者是否符合岗位需求;科研院所可以通过简历提取求职者的个人特征,构建用户画像、知识图谱、复杂网络等人工智能相关课题,解决向人才推荐招聘企业、向企业推荐求职人才、挖掘企业/人才间的潜在关系等问题,但解决这些问题的关键,是如何从简历中提取出结构化的工作经历、教育经历等特征信息,即简历信息解析。
[0004]简历是一类特殊的大数据量、非结构化文本,既包含形式各异、重点不一的文字性描述,又有工作经历、教育经历等具有高度相似的表述结构。因此,符合一定标准格式约束的结本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于领域本体库的工作简历结构化解析方法,其特征在于,包括:获取工作简历数据,提取括号文本内容并进行筛选,得到待处理语句集合;以拆分标志符为拆分依据,对待处理语句集合进行拆分并重组,得到修正后的待处理语句集合;基于修正后的待处理语句集合,根据时间、地址、工作单位以及工作职务的顺序进行实体提取;将提取到的时间实体、地址实体、工作单位实体以及职务实体进行汇总。2.如权利要求1所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述获取工作简历数据,提取括号文本内容并进行筛选,得到待处理语句集合,具体为:基于栈结构提取工作简历数据的括号文本,得到括号文本集合;以是否包含时间结构和括号文本的内容为筛选条件,对括号文本集合进行筛选,得到工作简历的待处理语句集合。3.如权利要求2所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述基于栈结构提取工作简历数据的括号文本,得到括号文本集合,包括:遍历工作简历数据字符串,声明栈操作字符串和出入栈标志;若工作简历数据的字符不为括号,将当前字符更新到栈操作字符串中;若工作简历数据的字符为左括号,入栈:出入栈标志执行加1操作、将当前字符更新到栈操作字符串中;若工作简历数据的字符为右括号且出入栈标志不等于1,入栈:出入栈标志执行减1操作、将当前字符更新到栈操作字符串中;若工作简历数据的字符为右括号且出入栈标志等于1,出栈:提取栈操作字符串中括号内的文本数据、出入栈标志重置为0、栈操作字符串重置为空字符串;工作简历数据遍历结束,得到工作简历中的所有括号文本,构成括号文本集合。4.如权利要求2所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述筛选条件,具体为:如果括号文本内容完全等于综合结构的,不予保留;其中,所述综合结构为:{主持工作,挂职,借调,兼任,(\d{4}[年\.]\d{1,2}[月]?).*当选.*,(\d{4}[年\.]\d{1,2}[月]?).*明确.*,(\d{4}[年\.]\d{1,2}[月]?).*批准.*};如果括号文本含有时间结构的内容,作为一条新语句;反之,如果括号文本不含有时间结构的内容,给予保留。5.如权利要求1所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述拆分标志符为:{“,”,“兼”}。6.如权利要求1所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述基于修正后的待处理语句集合,根据时间、地址、工作单位以及工作职务的顺序进行实体提取,具体为:根据每条修正后的待处理语句中存在的时间结构的数量确定开始时间和结束时间,得到时间实体;根据每条修正后的待处理语句中的地址信息,确定地址实体;遍历每条修正后的待处理语句中的工作标志符,识别工作单位名称,确定工作单位实
体;遍历每条修正后的待处理语句中的职务标志符,识别工作职务,确定工作职务实体。7.如权利要求6所述的基于领域本体库的工作简历结构化解析方法,其特征...

【专利技术属性】
技术研发人员:陈通李成梁谭伟娜王瑞霜李扬于杨展一鸣纪丽萍
申请(专利权)人:山东亿云信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1