一种融合视觉与文本特征的简历版面分析算法制造技术

技术编号:22418461 阅读:42 留言:0更新日期:2019-10-30 02:06
本发明专利技术公开了一种融合视觉与文本特征的简历版面分析算法,该简历版面的分析包括以下步骤:步骤1:从pdf读取程序或ocr引擎中得到文本行及其坐标;步骤2:使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);步骤3:提取对应行的图像,得到图像嵌入向量img_emb(i);步骤4:提取字号、文字长度特征,并进行归一化得到特征向量;步骤5:聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);步骤6:使用神经网络对行向量序列[line_emb(i)]进行序列标注。本发明专利技术通过结合简历的视觉特征和文本语义特征,对简历进行语义划分,识别独立的段落单元。

【技术实现步骤摘要】
一种融合视觉与文本特征的简历版面分析算法
本专利技术涉及简历解析领域,尤其涉及一种融合视觉与文本特征的简历版面分析算法。
技术介绍
传统的基于视觉的版面分析能区分图片、表格、段落等版面区域,但是很难识别区域的语义信息。在简历解析领域,需要对简历做语义解析,一般主要使用文字作为版面识别的主要依据,例如CN201810489651.X,将简历转化成文本之后,对文本进行建模处理,丢失了视觉特征,不能利用一些明显的视觉特点,比如分割线,字号大小,空白区域大小等等。也有一些方法通过规则提取简单的视觉特征。例如CN201811613437.7,通过提取字号、是否加粗、字体种类、行文本长度等视觉特征,简历一个区分标题和主体的分类器。该方法没有考虑文本内容,使用字体等简单视觉特征,先区分标题和主体,将简历分块之后,对每块进一步进行处理。无法直接识别简历中不同段落单元的语义类别。
技术实现思路
本专利技术的目的在于克服现有技术存在的以上问题,提供一种融合视觉与文本特征的简历版面分析算法,本专利技术通过结合简历的视觉特征和文本语义特征,对简历进行语义划分,识别独立的段落单元。为实现上述技术目的,达到上述技术本文档来自技高网...

【技术保护点】
1.一种融合视觉与文本特征的简历版面分析算法,其特征在于:该简历版面的分析包括以下步骤:步骤1):从pdf读取程序或ocr引擎中得到文本行及其坐标;步骤2):使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);步骤3):提取对应行的图像,得到图像嵌入向量img_emb(i);步骤4):提取字号、文字长度特征,并进行归一化得到特征向量;步骤5):聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);步骤6):使用神经网络对行向量序列[line_emb(i)]进行序列标注。

【技术特征摘要】
1.一种融合视觉与文本特征的简历版面分析算法,其特征在于:该简历版面的分析包括以下步骤:步骤1):从pdf读取程序或ocr引擎中得到文本行及其坐标;步骤2):使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);步骤3):提取对应行的图像,得到图像嵌入向量img_emb(i);步骤4):提取字号、文字长度特征,并进行归一化得到特征向量;步骤5):聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);步骤6):使用神经网络对行向量序列[line_emb(i)]进行序列标注。2.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。3.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤2中的文本进行编码前先对文本进行预处理,可以使用字符级处理或者词语级处理,然后再使用序列编码的神经网络;包括但不局限于LSTM、CNN和Transformer。4.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤2中的文本进行编码时进一步得到文本特征,用于识别该行的语义类别。5.根据权利要求1所述的一种融合视觉与文本...

【专利技术属性】
技术研发人员:丁伟峰
申请(专利权)人:苏州过来人科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1