一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法技术方案

技术编号:12338300 阅读:103 留言:0更新日期:2015-11-18 11:09
本发明专利技术涉及一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法,通过知识匹配和语义推理方法来实现对履历信息提取,得出履历中所隐含的工作时间、工作地点、工作单位、工作职位等信息;并可在此基础上对提取结果按照一定规则进行特征标识,支持基于领域特征进行履历的语义搜索。本发明专利技术提高了信息提取的正确率,实现对履历的自动化特征标识。

【技术实现步骤摘要】

本专利技术涉及一种履历信息分析处理方法,尤其涉及一种基于知识库和规则库的履历信息抽取与特征标识分析方法,其通过知识匹配、语义推理和聚合分析来实现对履历信息抽取与特征标识分析,属于计算机软件

技术介绍
目前,我国各级政府部门和企事业单位的信息化建设已初具规模,在政府机构的人事管理系统、大型企业的人力资源系统、网络招聘的人力资源服务系统中管理着大量的电子简历。在系统中每一条工作经历或学习经历,一般分为两部分,即起止日期和经历内容,比如“2000-09-01到2001-12-01北京海淀中关村街道工委书记、办事处主任”。虽然近年来新实施的管理系统一般要求分属性、分字段的录入工作经历,但是大量历史采集的履历信息是以这种非结构化文本的形式存在于数据库中。基于这种非结构化文本数据,无法支持对人的工作时间、工作单位、工作职位等的精确的分析,只能通过关键词匹配方式查询,因为存在书写不规范的情况,很难返回完整的结果。对于更复杂的情况,基于业务语言来查询履历,比如查找“985高校学习经历”、“具有管理经验的高级IT从业人员”的人,这种查询通过关键词搜索无法返回结果,需要对履历进行语义特征标识分析,借助领域知识库,来进行搜索匹配。针对履历分析面临的这些问题,需要首先解决基于履历的工作时间、工作地点、工作单位、工作职位等实体信息的抽取问题,其次需要解决如何对履历进行语义特征标识分析的问题。履历信息抽取作为信息抽取的一个具体应用领域具有很高的商业价值和实用价值,通过从自由格式的开放性履历文本中抽取出有用的信息,构造规范化的人才库,能够帮助政府部门、企事业单位、大型公司有效地进行人才管理、匹配和检索,更进一步能够进行人才选拔、人才培养与人才规律发掘。履历信息是一类特殊的文本,有着其特有的特点和共性。从内容上,按自然语法组织语言具有自由性和非结构性,往往形式多样,因人而异;从本质上,又有一定格式约束,符合一定的标准,能兼顾风格统一和内容灵活。简历通常包含了作者的基本信息、教育经历和工作经历等信息。随着信息抽取理论研究的不断发展与成熟,其研究成果越来越多地应用到简历信息抽取领域中,涌现出了各种各样的简历信息抽取技术,有的基于自然语言处理方式、有的基于本体方式、有的基于统计学习方式,但目前的信息抽取技术只对简历抽取了简单的基本要素,包括基本信息、教育经历和工作经历等。如何利用抽取的信息来更准确的查询分析?如何抽取更详细的信息,并且建立这些信息之间的联系呢?现存的简历信息抽取技术还不能满足需求。信息抽取技术的核心内容包括命名实体识别、指代消解、关系抽取、事件抽取等内容,其中事件抽取又可分为元事件抽取和主题事件抽取两个层次。目前简历信息抽取主要停留在命名实体识别和元事件抽取上,通过基于规则的方法和基于统计的方法将半结构化的简历文本转化为结构化的简历文本,在此基础上只能做简单的查询、匹配、分析。而如果要基于简历进行精准分析,需要对抽取出的工作经历,即对半结构化的履历信息进一步信息抽取,从履历信息中抽取工作时间、工作地点、工作单位、工作职位等。在国内,有些研究团队提出了利用自然语言处理技术对纯履历文本进行分词与命名实体识别,来提取履历特征要素,包括开始时间、终止时间、地点、单位、职位等要素。有的基于正则表达式进行提取,其要求履历信息格式足够标准,格式不规范将不能正确提取;有的基于关键词词典进行提取,其要求关键词词典对待分析履历集覆盖,否则不能正确提取。而往往在实际生活中,履历信息的书写因人而异,格式不尽相同,采用目前现有的提取方法,通常情况下准确率和召回率都不高。当面对海量数据要分析时,则情况更加复杂。当今社会,履历分析的应用越来越广泛,如何快速、有效的抽取履历中的信息成为迫切需求。一方面,从信息抽取的效率上看,人工读取显然已经不能满足现实需求,而必须要利用计算机相关技术;另一方面,从信息抽取的准确度上看,结合履历的特征和文本信息抽取技术,如正则表达式匹配、关键词词典匹配等方法可以使信息抽取的结果满足部分需要。因此,对履历信息抽取实现指代消解、关系抽取、主题事件抽取等,不仅可以对单条履历提取出该作者在何时、何地、什么单位担任什么职位,而且可以对群体履历聚合分析,提高信息提取的正确率,也实现对履历的自动化特征标识是非常有必要的。目前,国内外尚未有相关的文献报导。
技术实现思路
本专利技术技术解决问题:克服现有技术的不足,提供,提高信息提取的正确率,实现对履历的自动化特征标识。本专利技术技术解决方案之一,一种基于知识库的履历信息抽取系统,包括知识库集模块、时间信息提取模块、划分语义模块、知识匹配语义推理模块和更新知识库集模块;知识库集模块包括行政区划信息集、职位信息集和单位信息集三部分,供以后知识匹配使用;所述行政区划信息集是对国家统计局公布的行政区划信息收集整理,形成一个含有知识的全国四级行政区划信息集,该信息集中除了包含行政地名,还包含地名和地名之间的隶属关系;所述职位信息集是一个字典集,包括常用职位和扩展职位,常用职位从维基百科、百度百科获取整理,扩展职位需要不断学习完善;单位信息集也是一个字典集,不断优化完善;时间信息提取模块,每条履历的开头部分是对该条履历的起始时间描述,时间格式比较标准,利用正则表达式将该条履历的起始时间提取出来,并将时间标准化便于进一步分析比较;划分语义模块,将去除时间信息后的履历部分拆分成一个个独立的语义模块,每个语义模块只代表一处工作经历,即仅包含一个时间信息或一处工作信息,其中工作信息由工作单位或工作职位构成;知识匹配模块,对每个语义模块进行知识匹配,利用知识库集模块中的行政区划信息集、职位信息集进行匹配标注,其中行政区划信息集采用正向最大匹配法、职位信息集采用逆向最大匹配法,形成一组标注词集和一组未标注词集;语义分析和知识提取模块,对标注词组集和未标注词组集进行语义分析和知识提取,根据履历规则提取出工作地点、工作单位和工作职位;更新知识库集模块,将不确定的信息反馈给用户,将新发现的职位添加到扩展职位信息集,将新发现的单位添加到单位信息集,重新通过知识匹配和语义推理进行提取工作信息,进一步提高信息抽取的准确度。所述行政区划信息集构造实现为:将全国四级行政区划信息集构造成一棵五层知识树表示,从上到下依次为根节点(RO)、省级节点(Rl)、地级节点(R2)、县级节点(R3)、乡级节点(R4),此表示结构便于在知识匹配中快速查找、补全和纠错地点信息。所述知识匹配模块具体实现为:(I)选取行政区划信息集,分层进行正向最大匹配,将分出的词标注为工作地点;(2)选取职位信息集,将剩余语义模块部分进行逆向最大匹配,将分出的词标注为工作职位;(3)将未匹配的剩余语义模块部分进行普通分词标注。所述语义分析和知识提取模块实现为:(I)利用行政区划信息集将地址信息的补全和修正;(2)利用统计和规则相结合方法对词组进行组合或拆分,得当前第1页1 2 3 4 本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105069560.html" title="一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法原文来自X技术">基于知识库和规则库的履历信息抽取与特征标识分析系统及方法</a>

【技术保护点】
一种基于知识库的履历信息抽取系统,其特征在于包括:知识库集模块、时间信息提取模块、划分语义模块、知识匹配语义推理模块和更新知识库集模块;知识库集模块包括行政区划信息集、职位信息集和单位信息集三部分,供以后知识匹配使用;所述行政区划信息集是对国家统计局公布的行政区划信息收集整理,形成一个含有知识的全国四级行政区划信息集,该信息集中除了包含行政地名,还包含地名和地名之间的隶属关系;所述职位信息集是一个字典集,包括常用职位和扩展职位,常用职位从维基百科、百度百科获取整理,扩展职位需要不断学习完善;单位信息集也是一个字典集,不断优化完善;时间信息提取模块,每条履历的开头部分是对该条履历的起始时间描述,时间格式比较标准,利用正则表达式将该条履历的起始时间提取出来,并将时间标准化便于进一步分析比较;划分语义模块,将去除时间信息后的履历部分拆分成一个个独立的语义模块,每个语义模块只代表一处工作经历,即仅包含一个时间信息或一处工作信息,其中工作信息由工作单位或工作职位构成;知识匹配模块,对每个语义模块进行知识匹配,利用知识库集模块中的行政区划信息集、职位信息集进行匹配标注,其中行政区划信息集采用正向最大匹配法、职位信息集采用逆向最大匹配法,形成一组标注词集和一组未标注词集;语义分析和知识提取模块,对标注词组集和未标注词组集进行语义分析和知识提取,根据履历规则提取出工作地点、工作单位和工作职位;更新知识库集模块,将不确定的信息反馈给用户,将新发现的职位添加到扩展职位信息集,将新发现的单位添加到单位信息集,重新通过知识匹配和语义推理进行提取工作信息,进一步提高信息抽取的准确度。...

【技术特征摘要】

【专利技术属性】
技术研发人员:马志柔刘杰伍海江叶丹吴怀林钟华
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1