一种对PDF文件的合同要素的识别方法技术

技术编号:26689783 阅读:13 留言:0更新日期:2020-12-12 02:39
本发明专利技术提供一种对PDF文件的合同要素的识别方法,包括:按照预设读取方式读取PDF文件的文字块,并存储每个文字块的关键信息;其中,关键信息包括页码、文本内容和坐标;根据同一页码中的文字块的坐标得到同行的文字块,并且对同行的文字块和相邻的两行的文字块进行语句划分;分别根据条款特征和标题特征对每个语句进行识别,以识别得到对应的条款和标题,并根据识别后的语句形成合同内容;将合同内容与至少一个合同模板进行匹配,并根据匹配得到的合同模块对合同内容进行识别,以识别得到合同要素。本发明专利技术的有益效果:实现将散乱复杂的PDF文字块形成自然语句;并根据匹配得到的合同模块对合同内容进行识别,从而提高识别到合同要素的精确度。

【技术实现步骤摘要】
一种对PDF文件的合同要素的识别方法
本专利技术涉及信息
,尤其涉及一种对PDF文件的合同要素的识别方法。
技术介绍
在很多合同中,合同格式混乱,没有层级关系,合同的内容通篇看起来都是正文,没有结构化的数据展示。业务需要对合同进行拆解,将不同等级的标题、合同声明内容以及合同条款识别出来。当前可以通过人工的方式,对每一项进行标注,这种方式效率低,时间长,耗费资源多。基于此,目前也提供了多种自动识别合同内容的方案,但是上述方案基本应用于Word文件中,目前缺少一种对PDF文件的合同要素进行自动识别的方法。
技术实现思路
针对现有技术中存在的上述问题,现提供一种对PDF文件的合同要素的识别方法。具体技术方案如下:一种对PDF文件的合同要素的识别方法,其中,包括以下步骤:按照预设读取方式读取PDF文件的文字块,并存储每个文字块的关键信息;其中,关键信息包括页码、文本内容和坐标;根据同一页码中的文字块的坐标得到同行的文字块,并且对同行的文字块和相邻的两行的文字块进行语句划分;分别根据条款特征和标题特征对每个语句进行识别,以识别得到对应的条款和标题,并根据识别后的语句形成合同内容;将合同内容与至少一个合同模板进行匹配,并根据匹配得到的合同模块对合同内容进行识别,以识别得到合同要素。优选的,对PDF文件的合同要素的识别方法,其中,按照预设读取方式读取PDF文件的文字块,并存储每个文字块的关键信息,具体包括以下步骤:按照页读取方式和/或行读取方式顺序读取PDF文件的文字块;将文字块对应的关键信息按照读取的顺序存储到列表中。优选的,对PDF文件的合同要素的识别方法,其中,根据同一页码中的文字块的坐标得到同行的文字块,并且对同行的文字块和相邻的两行的文字块进行语句划分,具体包括以下步骤:根据同一页码中的文字块的纵坐标得到同行的文字块,并根据同一页码中的文字块的横坐标判断同行的文字块是否形成一条语句;获取同行的文字块中的结束文字块,并将相邻的两个结束文字块之间的文字块或结束文字块之前的文字块形成一条语句;和/或获取同行的文字块中的连接文字块,并将与连接文字块相邻的文字块和连接文字块形成一条语句;判断相邻两行文字块的相连的两条语句是否形成同一条语句。优选的,对PDF文件的合同要素的识别方法,其中,文字块的纵坐标包括上坐标和下坐标;根据同一页码中的文字块的纵坐标得到同行的文字块,并根据同一页码中的文字块的横坐标判断同行文字块是否形成一条语句,具体包括以下步骤:将同一页码中的上坐标和/或下坐标的差值在预设纵坐标范围内的文字块划分到同一行中;将同行的左坐标或右坐标的差值在对应的预设横坐标范围内的文字块划分到同一条语句中。优选的,对PDF文件的合同要素的识别方法,其中,判断相邻两行文字块的相连的两条语句是否形成同一条语句,具体包括以下步骤:获取第一行文字块中的最后一条语句,以及获取第二行文字块的起始一条语句;其中,第一行文字块和第二行文字块相邻设置,以及第一行文字块的最后一条语句和第二行文字块的起始一条语句相连;当第一行文字块中的最后一条语句的末端存在结束文字块时,将第一行文字块的最后一条语句和第二行文字块的起始一条语句划分到不同的语句中;当第一行文字块中的最后一条语句的末端存在连接文字块时,将第一行文字块的最后一条语句和第二行文字块的起始一条语句划分到同一条的语句中;当第二行文字块的起始一条语句符合条款特征时,将第一行文字块的最后一条语句和第二行文字块的起始一条语句划分到不同的语句中;当第一行文字块中的最后一条语句的末端均不存在结束文字块和连接文字块,并且第二行文字块的起始一条语句不符合条款特征时,将第一行文字块的最后一条语句和第二行文字块的起始一条语句划分到同一条的语句中。优选的,对PDF文件的合同要素的识别方法,其中,合同要素包括条款;分别根据条款特征和标题特征对每个语句进行识别,以识别得到对应条款和标题,并根据识别后的语句形成合同内容,具体包括以下步骤:获取合同内容中的每个语句;将语句的起始部分符合条款特征的对应语句确定为条款;根据预设逻辑方式并依照条款的顺序确定条款的依赖顺序。优选的,对PDF文件的合同要素的识别方法,其中,合同要素包括标题;分别根据条款特征和标题特征对每个语句进行识别,以识别得到对应条款和标题,并根据识别后的语句形成合同内容,具体包括以下步骤:获取合同内容中的第一页的每个语句;将语句的末端部分符合标题特征的对应语句确定为待识别标题;判断待识别标题中的每个文字块是否均在不同行;若否,将待识别标题确定为普通标题;若是,判断待识别标题中的每个文字块的横坐标是否超过第四预设横坐标;若是,将待识别标题确定为竖行标题;若否,确定待识别标题不是标题。优选的,对PDF文件的合同要素的识别方法,其中,将合同内容与至少一个合同模板进行匹配,并根据匹配得到的合同模块对合同内容进行识别,以识别得到合同要素,具体包括以下步骤:根据实体识别模型对合同内容和至少一个合同模板中的实体进行识别,并将合同内容和每个合同模板中识别得到的实体去除;将去除实体的合同内容与每个去除实体的合同模板进行匹配,以在所有合同模块中匹配得到至少一个合同模块,并将匹配得到的合同模块记为匹配模块;获取得到未去除实体的匹配模块,根据未去除实体的匹配模块识别未去除实体的合同内容中的合同要素。优选的,对PDF文件的合同要素的识别方法,其中,将去除实体的合同内容与每个去除实体的合同模板进行匹配,以在所有合同模块中匹配得到至少一个合同模块,并将匹配得到的合同模块记为匹配模块,具体包括以下步骤:于去除实体的合同内容与每个去除实体的合同模板中分别采用游标进行对比,并获取相同内容;根据获取得到的相同内容计算去除实体的合同内容与每个去除实体的合同模板的相似度;将相似度超过预设相似度的合同模板作为匹配得到的合同模块,并将匹配得到的合同模块记为匹配模块。优选的,对PDF文件的合同要素的识别方法,其中,还包括对实体识别模型的训练方法,具体包括以下步骤:获取有关合同内容的已标注样本数据,已标注样本数据包括作为正样本的合同要素,以及,已标注的负样本;对正样本进行分词,根据得到的分词中的信息,确定模型分类特征;根据已标注样本数据和模型分类特征训练生成实体识别模型。上述技术方案具有如下优点或有益效果:通过将同一页码中的文字块进行同行文字块的划分,并对同行的文字块进行语句划分,以及对相邻的两行的文字块进行语句划分,最后根据划分得到的语句形成合同内容;从而实现对同行和跨行的语句进行划分;通过对条款和标题进行识别,使得得到包括标题和条款的合同内容,方便后续的合同要素识别本文档来自技高网...

【技术保护点】
1.一种对PDF文件的合同要素的识别方法,其特征在于,包括以下步骤:/n按照预设读取方式读取所述PDF文件的文字块,并存储每个文字块的关键信息;/n其中,所述关键信息包括页码、文本内容和坐标;/n根据同一页码中的文字块的坐标得到同行的文字块,并且对同行的文字块和相邻的两行的文字块进行语句划分;/n分别根据条款特征和标题特征对每个语句进行识别,以识别得到对应的条款和标题,并根据识别后的语句形成合同内容;/n将所述合同内容与至少一个合同模板进行匹配,并根据匹配得到的所述合同模块对所述合同内容进行识别,以识别得到合同要素。/n

【技术特征摘要】
1.一种对PDF文件的合同要素的识别方法,其特征在于,包括以下步骤:
按照预设读取方式读取所述PDF文件的文字块,并存储每个文字块的关键信息;
其中,所述关键信息包括页码、文本内容和坐标;
根据同一页码中的文字块的坐标得到同行的文字块,并且对同行的文字块和相邻的两行的文字块进行语句划分;
分别根据条款特征和标题特征对每个语句进行识别,以识别得到对应的条款和标题,并根据识别后的语句形成合同内容;
将所述合同内容与至少一个合同模板进行匹配,并根据匹配得到的所述合同模块对所述合同内容进行识别,以识别得到合同要素。


2.如权利要求1所述的对PDF文件的合同要素的识别方法,其特征在于,所述按照预设读取方式读取所述PDF文件的文字块,并存储每个文字块的关键信息,具体包括以下步骤:
按照页读取方式和/或行读取方式顺序读取所述PDF文件的文字块;
将所述文字块对应的所述关键信息按照读取的顺序存储到列表中。


3.如权利要求1所述的对PDF文件的合同要素的识别方法,其特征在于,所述根据同一页码中的文字块的坐标得到同行的文字块,并且对同行的文字块和相邻的两行的文字块进行语句划分,具体包括以下步骤:
根据同一页码中的文字块的纵坐标得到同行的文字块,并根据同一页码中的文字块的横坐标判断同行的文字块是否形成一条语句;
获取同行的文字块中的结束文字块,并将相邻的两个所述结束文字块之间的文字块或所述结束文字块之前的文字块形成一条语句;和/或
获取同行的文字块中的连接文字块,并将与所述连接文字块相邻的文字块和所述连接文字块形成一条语句;
判断相邻两行文字块的相连的两条语句是否形成同一条语句。


4.如权利要求3所述的对PDF文件的合同要素的识别方法,其特征在于,文字块的纵坐标包括上坐标和下坐标;
所述根据同一页码中的文字块的纵坐标得到同行的文字块,并根据同一页码中的文字块的横坐标判断同行文字块是否形成一条语句,具体包括以下步骤:
将同一页码中的上坐标和/或下坐标的差值在预设纵坐标范围内的文字块划分到同一行中;
将同行的左坐标或右坐标的差值在对应的预设横坐标范围内的文字块划分到同一条语句中。


5.如权利要求3所述的对PDF文件的合同要素的识别方法,其特征在于,所述判断相邻两行文字块的相连的两条语句是否形成同一条语句,具体包括以下步骤:
获取第一行文字块中的最后一条语句,以及获取第二行文字块的起始一条语句;
其中,所述第一行文字块和所述第二行文字块相邻设置,以及所述第一行文字块的最后一条语句和所述第二行文字块的起始一条语句相连;
当所述第一行文字块中的最后一条语句的末端存在结束文字块时,将所述第一行文字块的最后一条语句和所述第二行文字块的起始一条语句划分到不同的语句中;
当所述第一行文字块中的最后一条语句的末端存在所述连接文字块时,将所述第一行文字块的最后一条语句和所述第二行文字块的起始一条语句划分到同一条的语句中;
当所述第二行文字块的起始一条语句符合条款特征时,将所述第一行文字块的最后一条语句和所述第二行文字块的起始一条语句划分到不同的语句中;
当所述第一行文...

【专利技术属性】
技术研发人员:石伟坚金宏洲程亮
申请(专利权)人:杭州天谷信息科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1