【技术实现步骤摘要】
文本内容的关键信息提取方法、装置、设备及介质
[0001]本专利技术涉及计算机
,尤其涉及一种文本内容的关键信息提取方法、装置、设备及介质。
技术介绍
[0002]在日常生活中,会有很多场景需要对大量的简历进行初步筛选。其中,简历中的基本信息容易提取,但诸如实践经历、科研经历、工作履历等个性化长文本中的关键信息很难高效处理,但又是衡量候选人的最重要指标。在不同的筛选场景下,所关注的简历内容不同且初筛工作要求快速响应,因此需要有扩展性好且速度较快的轻量化解决方案。
[0003]目前,现有的文本内容的关键信息提取方法,通常是通过自然语言处理中的命名实体识别来完成,例如,可以基于长短期记忆网络结合条件随机域模型,提取输入文本的关键信息。然而,在现有技术中,需要有良好打标的训练集,且模型训练需要花费大量时间,故信息提取效率较低,且对于个性化很强的文本内容的关键信息提取的准确率较低。
技术实现思路
[0004]本专利技术提供了一种文本内容的关键信息提取方法、装置、设备及介质,可以提升个性化长文本中关键信息 ...
【技术保护点】
【技术特征摘要】
1.一种文本内容的关键信息提取方法,其特征在于,包括:获取待处理文本内容,并对所述待处理文本内容进行预处理,以获取预处理文本内容;对所述预处理文本内容进行随机采样,以获取所述预处理文本内容对应的样本集合;获取所述样本集合中各样本对应的关注信息,并根据各所述样本对应的关注信息匹配的共性表达方式,生成目标正则表达式集合;基于所述目标正则表达式集合对所述预处理文本内容进行关键信息提取,以获取所述预处理文本内容对应的关键信息。2.根据权利要求1所述的方法,其特征在于,对所述待处理文本内容进行预处理,以获取预处理文本内容,包括:获取所述待处理文本内容中各标点符号,并将各所述标点符号替换为对应的中文标点符号,以获取中间处理文本内容;获取所述中间处理文本内容中各空格字符,并将各所述空格字符替换为预设空字符串,以获取预处理文本内容。3.根据权利要求1所述的方法,其特征在于,根据各所述样本对应的关注信息匹配的共性表达方式,生成目标正则表达式集合,包括:根据各所述样本对应的关注信息匹配的共性表达方式,获取初始正则表达式集合,并基于所述初始正则表达式集合对所述各样本进行匹配检测,以获取所述初始正则表达式集合对应的匹配检测结果;若检测到所述初始正则表达式集合对应的匹配检测结果满足预设匹配检测条件,则将所述初始正则表达式集合作为目标正则表达式集合。4.根据权利要求3所述的方法,其特征在于,在基于所述初始正则表达式集合对所述各样本进行匹配检测,以获取所述初始正则表达式集合对应的匹配检测结果之后,还包括:若检测到所述初始正则表达式集合对应的匹配检测结果不满足预设匹配检测条件,则在检测到目标样本与所述初始正则表达式集合中各正则表达式均不匹配时,将所述目标样本作为异常样本添加到异常样本集合;根据所述异常样本集合中各异常样本对应的关注信息匹配的共性表达方式,对所述初始正则表达式集合进行更新,以获取中间正则表达式集合;基于所述中间正则表达式集合对各所述异常样本进行匹配检测,以获取所述中间正则表达式集合对应的匹配检测结果;若检测到所述中间正则表达式集合对应的匹配检测结果满足预设匹配检测条件,则将所述中间正则表达式集合作为目标正则表达式集合。5.根据权利要求1所述的方法,其特征在于,基于所述目标正则表达式集合对所述预处理文本内容进行关键信息提取,以获取所述预处理文本内容对应的关键信息,包括:基于所述目标正则表达式集合中各目标正则表达式,分别对所述预处理文本内容进行关键信息提取,以获取各所述目标正则表达式对应的匹配文本;根据各所述...
【专利技术属性】
技术研发人员:杨延伟,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。