一种基于n‑gram模型的简历解析方法技术

技术编号:16175769 阅读:37 留言:0更新日期:2017-09-09 03:00
本发明专利技术公开了一种基于n‑gram模型的简历解析方法,该方法为:预先收集简历样本,将常用字段关键词划分为不同类别形成分类词典,采用n‑gram模型统计出每一常用字段关键词转变到各样本关联词的转移概率,查找待解析简历中与常用字段关键词相匹配的目标关键词,如果目标关键词对应的转移概率大于预定阈值,根据目标关键词更新每一常用字段关键词对应的转移概率,并对待解析简历中的有效关键词增加前缀标注和后缀标注,对待解析简历的文本内容进行分段提取并输出。本发明专利技术能够基于n‑gram模型与词典分段技术进行自动化的简历解析,能够提高信息抽取准确率并支持不同文件格式,可为招聘网站、公司HR部门提供丰富的人才资源库。

【技术实现步骤摘要】
一种基于n-gram模型的简历解析方法
本专利技术涉及计算机科学
,特别是涉及一种基于n-gram模型的简历解析方法。
技术介绍
随着互联网技术的迅速发展,网络中容纳了海量的、类型各异的原始数据信息。在日常生活中,简历是一类十分常见而又重要的文本,它包含了作者的基本情况、工作经验等信息。因此,如何从海量的简历中自动、迅速、准确地抽取有用的信息,成为各大招聘网站、公司和企业的HR部门迫切需求。简历解析本质上是文本信息抽取的应用体现。目前的文本信息抽取模型主要有3种:基于词典的抽取模型、基于规则的抽取模型和基于隐马尔可夫模型的抽取模型。现有的应用上述3种文本信息抽取模型的简历解析方案多采用简单的关键字匹配方法,对自由格式的文本适应性弱、信息抽取准确率低,只能处理特定格式的简历。
技术实现思路
本专利技术主要解决的技术问题是提供一种基于n-gram模型的简历解析方法,能够提高信息抽取准确率并支持不同文件格式。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种基于n-gram模型的简历解析方法,包括:S1:收集预定数量的简历样本;S2:统计所述简历样本中的常用字段关键词,并将常用字段关键词按照不同描述类型划分为不同类别,形成分类词典;S3:将所述简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词,并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率;S4:将待解析简历的文件格式转换为纯文本格式;S5:采用最大匹配算法在所述待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词;S6:判断所述目标关键词对应的转移概率是否大于预定阈值,如果大于预定阈值,则将目标关键词判定为有效关键词;S7:将所述待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词,并根据所述有效关联词更新每一常用字段关键词对应的转移概率;S8:利用所述分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注;S9:根据所述前缀标注和后缀标注对待解析简历的文本内容进行分段提取,并将分段提取后的文本内容按照预定格式进行输出。优选的,所述非关键词为连续两个字符,所述步骤S3具体为;采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。优选的,所述步骤S5具体包括:将所述待解析简历的文本内容按照预定长度进行切分,形成待分词文本;扫描所述待分词文本,当扫描到与分类词典中的常用字段关键词相匹配的第一个字符时,从所述第一个字符开始记录,直到扫描不到与分类词典中的常用字段关键词相匹配的字符为止;将记录下的所有字符组成目标关键词。优选的,所述根据所述有效关联词更新每一常用字段关键词对应的转移概率的步骤具体为:判断所述各样本关联词中是否存在与有效关联词相同的样本关联词;如果存在与有效关联词相同的样本关联词,则更新每一常用字段关键词转变到有效关联词的转移概率;如果不存在与有效关联词相同的样本关联词,则统计每一常用字段关键词转变到有效关联词的转移概率。优选的,所述步骤S8具体包括:查询所述有效关键词在所述分类词典中所属的类别;按照所属的类别对待解析简历中的有效关键词增加前缀标注和后缀标注。优选的,所述步骤S9具体包括:将所述待解析简历中当前有效关键词的后缀标注与下一个有效关键词的前缀标注之间或者与所述待解析简历的文本结束符之间的文本内容作为当前有效关键词的描述信息;依次提取每一有效关键词及其对应的描述信息;将每一有效关键词及其对应的描述信息按照预定格式进行输出。优选的,所述预定格式为Json格式。优选的,所述待解析简历的文件格式至少包括doc格式、pdf格式或html格式。优选的,所述简历样本的语言为中文。与现有技术相比,本专利技术可以获得以下技术效果:1)由于基于n-gram模型,具有对不同格式的简历适应性好、准确率高的优点。2)可以为不同文件格式、自由排版的简历提取所有关键字,不但方便求职者快速投递简历,提高求职效率;也方便招聘网站、单位实现自动化抽取信息并存储为人才资源库,同时提高了招聘网站、单位对简历的筛选效率,具有很强的实用性。附图说明图1是本专利技术实施例提供的简历解析方法的流程示意图。具体实施例下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参阅图1,是本专利技术实施例提供的简历解析方法的流程示意图。本实施例的简历解析方法包括以下步骤:S1:收集预定数量的简历样本。其中,简历样本可以从各类招聘网站上收集。述简历样本的语言为中文,也可以为英文或其他语言。简历样本的文件格式可以是doc格式、pdf格式或html格式。预订数量可以根据实际需要设定,例如是300份。S2:统计简历样本中的常用字段关键词,并将常用字段关键词按照不同描述类型划分为不同类别,形成分类词典。其中,常用字段关键词是预先设定的关键字。不同描述类型用于区分常用字段关键词表述的类别,常用字段关键词的类别划分举例如下:(1)姓名、性别、年龄等信息的描述类型为基本信息类,因此将姓名、性别、年龄等信息划分为类别I;(2)工作经验、工作经历、就业经历等信息的描述类型为工作经验类,因此将作经验、工作经历、就业经历等信息划分为类别W;(3)教育经历、学历等信息的描述类型为教育经验类,因此将教育经历、学历等信息划分为类别E;(4)外语水平、计算机水平等信息的描述类型为其他技能类,因此将外语水平、计算机水平等信息划分为类别S。分类词典结构如下所示:姓名I性别I年龄I......教育经历E学历E......工作经验W工作经历W.......技能S外语水平S.......S3:将简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词,并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。其中,非关键词的字符个数与n的取值有关,在本实施例中,非关键词为连续两个字符,则n的取值为3,步骤S3具体为;采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。转移概率可以采用五元组来表示,五元组的数据形式为(常用字段关键词,字符1,字符2,出现频数,转移概率)。例如对于“工作经验:有20年日用品行业销售…”这样的序列,需要统计常用字段关键词“工作经验”转变到样本关联词“:有”的转移概率,则转移概率保存为如下五元组:("工作经验",":","有","23","0.0241")。S4:将待解析简历的文件格式转换为纯文本格式。其中,可以采用已有的文件格式转换包,将待解析简历的文件格式转换为纯文本格式。S5:采用最大匹配算法在待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词。其中,最终查找到的目标关键词可能为多个,也可能没有。在本实施例中,步骤S5具体包括:将待解析简历的文本内容按照预定长度进行切分,形成待分词文本;扫描待分词文本,当扫描到与分类词典中的常用字段关键词相匹配的第一个字符时,从第一个字符开始记录,直到扫描不到与分类词典中的常用字段关键词相匹配的字符为止;将记录下的所有字符组本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201710325550.html" title="一种基于n‑gram模型的简历解析方法原文来自X技术">基于n‑gram模型的简历解析方法</a>

【技术保护点】
一种基于n‑gram模型的简历解析方法,其特征在于,包括:S1:收集预定数量的简历样本;S2:统计所述简历样本中的常用字段关键词,并将常用字段关键词按照不同描述类型划分为不同类别,形成分类词典;S3:将所述简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词,并采用n‑gram模型统计每一常用字段关键词转变到各样本关联词的转移概率;S4:将待解析简历的文件格式转换为纯文本格式;S5:采用最大匹配算法在所述待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词;S6:判断所述目标关键词对应的转移概率是否大于预定阈值,如果大于预定阈值,则将目标关键词判定为有效关键词;S7:将所述待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词,并根据所述有效关联词更新每一常用字段关键词对应的转移概率;S8:利用所述分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注;S9:根据所述前缀标注和后缀标注对待解析简历的文本内容进行分段提取,并将分段提取后的文本内容按照预定格式进行输出。

【技术特征摘要】
1.一种基于n-gram模型的简历解析方法,其特征在于,包括:S1:收集预定数量的简历样本;S2:统计所述简历样本中的常用字段关键词,并将常用字段关键词按照不同描述类型划分为不同类别,形成分类词典;S3:将所述简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词,并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率;S4:将待解析简历的文件格式转换为纯文本格式;S5:采用最大匹配算法在所述待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词;S6:判断所述目标关键词对应的转移概率是否大于预定阈值,如果大于预定阈值,则将目标关键词判定为有效关键词;S7:将所述待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词,并根据所述有效关联词更新每一常用字段关键词对应的转移概率;S8:利用所述分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注;S9:根据所述前缀标注和后缀标注对待解析简历的文本内容进行分段提取,并将分段提取后的文本内容按照预定格式进行输出。2.根据权利要求1所述的简历解析方法,其特征在于,所述非关键词为连续两个字符,所述步骤S3具体为;采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。3.根据权利要求1所述的简历解析方法,其特征在于,所述步骤S5具体包括:将所述待解析简历的文本内容按照预定长度进行切分,形成待分词文本;扫描所述待分词文本,当扫描到与分类词典中的常用字段关键词相匹配...

【专利技术属性】
技术研发人员:杨春明张晖李建飞李波赵旭剑
申请(专利权)人:西南科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1