【技术实现步骤摘要】
简历信息结构化处理方法、装置、计算机设备和存储介质
本申请涉及人工智能
,特别是涉及一种简历信息结构化处理方法、装置、计算机设备和存储介质。
技术介绍
简历信息的结构化,方便对简历进行搜索等处理,能够提高对简历的处理效率。其中简历信息结构化的重要手段是实体提取。目前使用的技术属于命名实体识别(NamedEntityRecognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。目前常见的NER的实现方式有监督学习、半监督学习、无监督学习和混合方法。然而,简历通常字数比较多,对于没有明显分割符号的长文本来说,使用命名实体提取的方法,信息抽取的效率较差。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够信息抽取效率的简历信息结构化处理方法、装置、计算机设备和存储介质。一种简历信息结构化处理方法,所述方法包括:获取简历信息;获取简历信息条目的关键词;根据所述 ...
【技术保护点】
1.一种简历信息结构化处理方法,所述方法包括:/n获取简历信息;/n获取简历信息条目的关键词;/n根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;/n利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;/n对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;/n根据所述结构化简历属性和属性值 ...
【技术特征摘要】
1.一种简历信息结构化处理方法,所述方法包括:
获取简历信息;
获取简历信息条目的关键词;
根据所述关键词,对所述简历信息进行分割,得到每个所述简历信息条目对应的字段内容;所述简历信息条目包括第一类简历信息条目和第二类简历信息条目;所述第一类简历信息条目的字段内容长度小于所述第二类简历信息条目的字段内容长度;
利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值;
对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值;
根据所述结构化简历属性和属性值得到结构化的简历。
2.根据权利要求1所述的方法,其特征在于,利用已训练好的识别模型,识别并提取所述第一类简历信息条目的字段内容,得到所述第一类简历信息条目的结构化简历属性的属性值,包括:
对所述第一类简历信息条目的字段内容进行分词处理;
获取各分词的特征向量;
分别将所述字段内容的分词的特征向量输入预先训练好的识别模型,得到所述字段内容所属的结构化简历属性,将所述字段内容作为所述结构化简历属性的属性值。
3.根据权利要求2所述的方法,其特征在于,获取各分词的特征向量,包括:
识别各分词的词性;
将所述分词转化为词向量,将所述词性转化为词性向量;
拼接所述词向量和词性向量,得到分各分词的特征向量。
4.根据权利要求1所述的方法,其特征在于,对所述第二类简历信息条目的字段内容进行实体提取,得到所述第二类简历信息条目的各结构化简历属性的属性值,包括:
对所述第二类简历信息条目的字段内容进行实体提取,得到实体;
根据实体类别,将实体作为所述第二类简历信息条目的相应结构化简历属性的属性值;
将抽取实体之后的所述第二类简历信息的剩余字段内容字段作为所述第二类简历信息条目的内容属性的属性值。
5.权利要求要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:赵继光,黄文琦,卢铭翔,
申请(专利权)人:南方电网数字电网研究院有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。