【技术实现步骤摘要】
一种基于二元化的简历解析方法
本专利技术涉及的是简历解析方法,具体而言,尤其涉及一种基于二元化的简历解析方法。
技术介绍
简历解析,可以归类为自然语言处理(NaturalLanguageProcessing)的一个任务集,其中一个重要部分是命名实体识别(NER),在简历分析的任务,需要识别出待处理简历文本中包括:人名,邮件地址,电话号码,籍贯,教育经历中的学校、专业、日期,工作经历中的职位、公司名称、日期等各种信息。现有技术中的同类简历解析技术,主要有如下几种方式:(1)专利CN105787047A公开的一种简历信息的抽取解析转换方法,其包括计算机读入存放简历的文件路径,读取文件流,抽取出文本内容,输出一个大文本字符串,读入抽取的大文本字符串,进行解析,将解析出的简历信息组成简历信息模型;(2)专利CN107145584A公开了一种基于ngram模型的简历解析方法,该方法为:预先收集简历样本,将常用字段关键词划分为不同类别形成分类词典,采用ngram模型统计出每一常用字段关键词转变到各样本关联词的转移概率,查找待解析简历中与常用字段关键词相匹配的目标关键词,如果目 ...
【技术保护点】
1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI‑LSTM‑CRF机器学习 ...
【技术特征摘要】
1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储。2.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step1中,通过提供WEB接口形式,接受经HTTPPOST请求传入的简历信息。3.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为单个简历文件时,则读取指定目录内的所述单个简历文件。4.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为批量简历压缩包时,则读取指定目录内...
【专利技术属性】
技术研发人员:钟实,陈少燕,潘志锋,
申请(专利权)人:深圳市前海欢雀科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。