【技术实现步骤摘要】
一种合同文件内容识别方法
[0001]本专利技术属于合同管理
,具体涉及一种合同文件内容识别方法。
技术介绍
[0002]为了方便合同的签署和管理,越来越多的用户开始采用电子合同的方式完成合同的签署,相对于纸质版的合同,电子合同更加快捷、方便。现有技术中,采用电子合同的方式完成签署时,所签署的电子合同多为不可直接编辑的文档格式,例如:pdf、jpg格式等,当这些格式的文档在保存时,由于无法直接显示所包含合同内容的关键信息,使得电子合同在管理时存在一定难度。因此,如何提供一种合同管理方法,方便管理人员及时获取每一电子合同对应的关键信息,是一个亟待解决的技术问题。
[0003]随着识别技术的发展,特别是深度学习技术的运用,文字识别技术取得了长足的进步,采用识别技术来替代人工输入文字可以大大提高工作效率、降低人力成本。但是合同文件文字识别结果无法直接用于业务系统中,无法对合同文件文字识别结果进行结构化,无法生成有意义的、可解释性的数据记录。
技术实现思路
[0004]为了解决上述问题,本专利技术提出了 ...
【技术保护点】
【技术特征摘要】
1.一种合同文件内容识别方法,其特征在于,包括如下步骤:步骤1、使用迁移学习的方法训练连接预选框网络和卷积循环神经网络,用于识别合同扫描件里的文字信息;步骤2、获取当前待识别的合同文件图像,对图像进行分割处理;步骤3、将分割好的文本送入连接预选框网络进行文字定位,生成TXT文档1;步骤4、对TXT文档1的每行内容进行识别分割,得到标题、段落、页码信息;步骤5、将分割的文字信息进行模式匹配,转化成json文档进行保存,以备后续调取使用。2.根据权利要求1所述的合同文件内容识别方法,其特征在于,所述步骤1的具体过程如下:步骤1.1、首先对获取到的合同文件数据集进行标注,在标注数据的时候采用的是顺时针方向,依次是左上角坐标点、右上角坐标点、右下角坐标点、左下角坐标点,标注的数据生成到txt中;步骤1.2、将数据输入到连接预选框网络中进行训练并输出训练完成的连接预选框网络;首先对数据特征进行提取生成特征图,然后使用长短时记忆网络提取每一行的序列特征,再使用区域生成网络生成预测框,使用文本线构造方法过滤多余预测框,最后使用损失函数进行优化;其中,连接预选框网络的损失函数定义如下:(1)其中,为文本区域得分损失,为纵坐标损失,为平均绝对误差;i表示预测的所有参照框中的第i个,N
s
为归一化参数,表示参照框的数量,s
i
表示第i个参照框的网络预测输出回归值,s
i*
表示第i个参照框回归值;λ1表示多任务平衡系数,v为判断有文本的参照框,j表示交并比大于0.5的所有参照框中的第j个,N
v
为归一化参数,表示和有效值的垂直交并比大于0.5的参照框的数量,v
j
表示有文本的参照框网络预测输出回归值,v
j*
表示有文本的参照框回归值;λ2表示多任务平衡系数,N
o
表示文本框边缘优化所检测到的参照框数量,k表示离标定的文本框左侧或者右侧的水平距离在一定值的锚框,o
k
表示有文本的参照框网络预测输出回归值,o
...
【专利技术属性】
技术研发人员:李旭健,贾志强,刘运皓,肖智勇,赵卫东,张晓明,
申请(专利权)人:山东科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。