一种对PDF文件的合同要素的识别方法技术

技术编号：26689783 阅读：13 留言：0更新日期：2020-12-12 02:39

本发明专利技术提供一种对PDF文件的合同要素的识别方法，包括：按照预设读取方式读取PDF文件的文字块，并存储每个文字块的关键信息；其中，关键信息包括页码、文本内容和坐标；根据同一页码中的文字块的坐标得到同行的文字块，并且对同行的文字块和相邻的两行的文字块进行语句划分；分别根据条款特征和标题特征对每个语句进行识别，以识别得到对应的条款和标题，并根据识别后的语句形成合同内容；将合同内容与至少一个合同模板进行匹配，并根据匹配得到的合同模块对合同内容进行识别，以识别得到合同要素。本发明专利技术的有益效果：实现将散乱复杂的PDF文字块形成自然语句；并根据匹配得到的合同模块对合同内容进行识别，从而提高识别到合同要素的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种对PDF文件的合同要素的识别方法
本专利技术涉及信息
，尤其涉及一种对PDF文件的合同要素的识别方法。
技术介绍
在很多合同中，合同格式混乱，没有层级关系，合同的内容通篇看起来都是正文，没有结构化的数据展示。业务需要对合同进行拆解，将不同等级的标题、合同声明内容以及合同条款识别出来。当前可以通过人工的方式，对每一项进行标注，这种方式效率低，时间长，耗费资源多。基于此，目前也提供了多种自动识别合同内容的方案，但是上述方案基本应用于Word文件中，目前缺少一种对PDF文件的合同要素进行自动识别的方法。
技术实现思路
针对现有技术中存在的上述问题，现提供一种对PDF文件的合同要素的识别方法。具体技术方案如下：一种对PDF文件的合同要素的识别方法，其中，包括以下步骤：按照预设读取方式读取PDF文件的文字块，并存储每个文字块的关键信息；其中，关键信息包括页码、文本内容和坐标；根据同一页码中的文字块的坐标得到同行的文字块，并且对同行的文字块和相邻的两行的文字块进行语句划分；分别根据条款特征和标题特征对每个语句进行识别，以识别得到对应的条款和标题，并根据识别后的语句形成合同内容；将合同内容与至少一个合同模板进行匹配，并根据匹配得到的合同模块对合同内容进行识别，以识别得到合同要素。优选的，对PDF文件的合同要素的识别方法，其中，按照预设读取方式读取PDF文件的文字块，并存储每个文字块的关键信息，具体包括以下步骤：按照页读取方...

【技术保护点】
1.一种对PDF文件的合同要素的识别方法，其特征在于，包括以下步骤：/n按照预设读取方式读取所述PDF文件的文字块，并存储每个文字块的关键信息；/n其中，所述关键信息包括页码、文本内容和坐标；/n根据同一页码中的文字块的坐标得到同行的文字块，并且对同行的文字块和相邻的两行的文字块进行语句划分；/n分别根据条款特征和标题特征对每个语句进行识别，以识别得到对应的条款和标题，并根据识别后的语句形成合同内容；/n将所述合同内容与至少一个合同模板进行匹配，并根据匹配得到的所述合同模块对所述合同内容进行识别，以识别得到合同要素。/n

【技术特征摘要】
1.一种对PDF文件的合同要素的识别方法，其特征在于，包括以下步骤：
按照预设读取方式读取所述PDF文件的文字块，并存储每个文字块的关键信息；
其中，所述关键信息包括页码、文本内容和坐标；
根据同一页码中的文字块的坐标得到同行的文字块，并且对同行的文字块和相邻的两行的文字块进行语句划分；
分别根据条款特征和标题特征对每个语句进行识别，以识别得到对应的条款和标题，并根据识别后的语句形成合同内容；
将所述合同内容与至少一个合同模板进行匹配，并根据匹配得到的所述合同模块对所述合同内容进行识别，以识别得到合同要素。

2.如权利要求1所述的对PDF文件的合同要素的识别方法，其特征在于，所述按照预设读取方式读取所述PDF文件的文字块，并存储每个文字块的关键信息，具体包括以下步骤：
按照页读取方式和/或行读取方式顺序读取所述PDF文件的文字块；
将所述文字块对应的所述关键信息按照读取的顺序存储到列表中。

3.如权利要求1所述的对PDF文件的合同要素的识别方法，其特征在于，所述根据同一页码中的文字块的坐标得到同行的文字块，并且对同行的文字块和相邻的两行的文字块进行语句划分，具体包括以下步骤：
根据同一页码中的文字块的纵坐标得到同行的文字块，并根据同一页码中的文字块的横坐标判断同行的文字块是否形成一条语句；
获取同行的文字块中的结束文字块，并将相邻的两个所述结束文字块之间的文字块或所述结束文字块之前的文字块形成一条语句；和/或
获取同行的文字块中的连接文字块，并将与所述连接文字块相邻的文字块和所述连接文字块形成一条语句；
判断相邻两行文字块的相连的两条语句是否形成同一条语句。

4.如权利要求3所述的对PDF文件的合同要素的识别方法，其特征在于，文字块的纵坐标包括上坐标和下坐标；
所述根据同一页码中的文字块的纵坐标得到同行的文字块，并根据同一页码中的文字块的横坐标判断同行文字块是否形成一条语句，具体包括以下步骤：
将同一页码中的上坐标和/或下坐标的差值在预设纵坐标范围内的文字块划分到同一行中；
将同行的左坐标或右坐标的差值在对应的预设横坐标范围内的文字块划分到同一条语句中。

5.如权利要求3所述的对PDF文件的合同要素的识别方法，其特征在于，所述判断相邻两行文字块的相连的两条语句是否形成同一条语句，具体包括以下步骤：
获取第一行文字块中的最后一条语句，以及获取第二行文字块的起始一条语句；
其中，所述第一行文字块和所述第二行文字块相邻设置，以及所述第一行文字块的最后一条语句和所述第二行文字块的起始一条语句相连；
当所述第一行文字块中的最后一条语句的末端存在结束文字块时，将所述第一行文字块的最后一条语句和所述第二行文字块的起始一条语句划分到不同的语句中；
当所述第一行文字块中的最后一条语句的末端存在所述连接文字块时，将所述第一行文字块的最后一条语句和所述第二行文字块的起始一条语句划分到同一条的语句中；
当所述第二行文字块的起始一条语句符合条款特征时，将所述第一行文字块的最后一条语句和所述第二行文字块的起始一条语句划分到不同的语句中；
当所述第一行文...

【专利技术属性】
技术研发人员：石伟坚，金宏洲，程亮，
申请(专利权)人：杭州天谷信息科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人