【技术实现步骤摘要】
一种基于机器学习的简历信息抽取方法
本专利技术涉及文本处理
,尤其涉及一种基于机器学习的简历信息抽取方法。
技术介绍
求职者在书写简历的时候,经常会使用各种形式的模板、结构,或者不同形式的书写风格,以较好地描写自己的履历,面试官也能够看到不同风格的丰富的求职者信息。但是对于简历匹配系统来说,数据处理非常繁琐,包括数据清洗、数据去重、字段抽取等,因为不同简历的风格样式各不相同,因此不同简历数据的处理也会异常复杂。同时,由于简历的描述内容千差万别,且某些用户在其简历中未写明行业类别,目前简历信息抽取系统无法准确抽取出行业类别,且提取不同风格样式的简历时,提取结果的准确性很难得到保证。
技术实现思路
有鉴于此,本专利技术提供了一种基于机器学习的简历信息抽取方法,用以解决上述
技术介绍
中存在的问题。一种基于机器学习的简历信息抽取方法,具体包括以下步骤:S1,构建行业关键词库,所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表;S2,将多个样本简历数据输入word2v ...
【技术保护点】
1.一种基于机器学习的简历信息抽取方法,其特征在于,具体包括以下步骤:/nS1,构建行业关键词库,所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表;/nS2,将多个样本简历数据输入word2vector模型进行训练和测试,生成简历向量模型;/nS3,将待抽取简历预处理成结构化字段和非结构化字段;/nS4,从所述结构化字段中正则提取出求职者的个人基本信息;/nS5,利用分类器从所述非结构化字段中预测待抽取简历所属行业;/nS6,对所述非结构化字段进行分词,将分词得到的每个词输入简历向量模型,并根据待抽取简历所属行业对应的行业关键词组,得到待抽取简历的行业特征向量。/n
【技术特征摘要】
1.一种基于机器学习的简历信息抽取方法,其特征在于,具体包括以下步骤:
S1,构建行业关键词库,所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表;
S2,将多个样本简历数据输入word2vector模型进行训练和测试,生成简历向量模型;
S3,将待抽取简历预处理成结构化字段和非结构化字段;
S4,从所述结构化字段中正则提取出求职者的个人基本信息;
S5,利用分类器从所述非结构化字段中预测待抽取简历所属行业;
S6,对所述非结构化字段进行分词,将分词得到的每个词输入简历向量模型,并根据待抽取简历所属行业对应的行业关键词组,得到待抽取简历的行业特征向量。
2.根据权利要求1所述的基于机器学习的简历信息抽取方法,其特征在于,所述步骤S1中构建行业关键词库的具体步骤为:
获取多份样本简历;
按照行业类别对多份样本简历进行分组;
...
【专利技术属性】
技术研发人员:江永青,陈运文,桂洪冠,周明星,纪达麒,连明杰,
申请(专利权)人:达而观信息科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。