【技术实现步骤摘要】
信息获取及相关模型的训练方法、装置、电子设备和介质
[0001]本申请涉及自然语言处理
,尤其涉及一种信息获取方法、装置、电子设备和介质,以及一种句子标注模型的训练方法、电子设备和介质。
技术介绍
[0002]随着现代社会的发展,越来越多的求职者倾向于在网上投递个人简历。对于招聘网站或者招聘企业来说,如何快速、准确地抽取出个人简历中的关键信息变得尤为重要。
[0003]在个人简历中,求职者通常会把简历内容分为基本信息、教育背景、工作经历、相关技能等几大块内容。简历信息抽取会针对不同块的内容设计不同的信息抽取方式,例如对基本信息部分就比较倾向于抽取姓名、年龄、联系方式等信息;而对工作经历部分则比较倾向于抽取公司名称、工作年限、职位、工作内容等信息。
[0004]简历信息抽取的关键在于简历内容分块,简历内容分块是指将简历内容按照不同的类别进行划分。现有技术中的简历内容分块方式一般采用基于标题关键词匹配的方式,设定标题关键词,例如“教育背景”、“工作经历”等,使用这些标题关键词划分简历内容的类别,例如采用标题 ...
【技术保护点】
【技术特征摘要】
1.一种信息获取方法,其特征在于,包括:获取待处理文档以及将所述待处理文档内容解析为纯文本格式的句子序列;将所述句子序列输入预先训练的句子标注模型中对所述句子序列进行标注,输出每个句子所属的类别标签;根据每个句子所属的类别标签,将所述句子序列中相同类别标签的句子划分至对应的内容分块;利用信息抽取模型对所述内容分块进行实体信息或属性信息的抽取,其中,所述信息抽取模型与所述类别标签相对应。2.根据权利要求1所述的方法,其特征在于,所述句子标注模型包括文本表示模型、句子表示模型和序列标注模型;所述将所述句子序列输入预先训练的句子标注模型中对所述句子序列进行标注,输出每个句子所属的类别标签,具体包括:所述文本表示模型用于对输入的所述句子序列中每个句子进行特征向量提取,输出句向量序列,其中,所述句向量序列包括每个句子对应的特征向量组成的句向量;所述句子表示模型用于对输入的所述句向量序列中每个句向量基于上下文信息进行编码,输出句子表示序列,其中,所述句子表示序列包括每个句子对应的综合上下文信息的编码句向量;所述序列标注模型用于基于预定义的至少两个类别标签对输入的所述句子表示序列中每个句子的编码句向量进行标注,输出每个句子所属的类别标签。3.根据权利要求2所述的方法,其特征在于,所述句子标注模型与所述待处理文档的类型相对应,所述预定义的至少两个类别标签基于所述待处理文档的类型设置。4.根据权利要求1所述的方法,其特征在于,在所述利用信息抽取模型对所述内容分块进行实体信息或属性信息的抽取之后,所述方法还包括:将抽取出的不规范表达的实体信息或属性信息替换为标准表达库中规范表达的实体信息或属性信息。5.根据权利要求4所述的方法,其特征在于,所述将抽取出的不规范表达的实体信息或属性信息替换为标准表达库中规范表达的实体信息或属性信息,具体包括:若所述标准表达库中不存在所述抽取出的实体信息或属性信息,则所述抽取出的实体信息或属性信息为不规范表达的实体信息或属性信息;基于同义词词典将所述不规范表达的实体信息或属性信息替换为标准表达库中的规范表达的实体信息或属性信息。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:若所述同义词词典中不存在所述不规范表达的实体信息或属性信息,则使用所述不规范表达的实体信息或属性信息从实体库或属性库中查找相应的实体信息或属性信息,基于实体信息之间相似度或属性信息之间相似度,将所述不规范表达的实体信息或属性信息替换为标准表达库中的规范表达的实体信息或属性信息。7.一种信息获取装置,其特征在于,包括:解析模块,用于获取待处理的文档以及将所述文档内容解析为纯文本格式的句子序列;句子标...
【专利技术属性】
技术研发人员:邓泽贵,蒋宁,王洪斌,吴海英,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。