一种关键信息识别提取方法及系统技术方案

技术编号：24206440 阅读：91 留言：0更新日期：2020-05-20 14:52

本发明专利技术涉及一种关键信息识别提取方法及系统，属于信息处理技术领域。该方法首先获取用户选择的目标路径，解析文件夹结构并生成相应的标签树；遍历标签树的各个节点内容，在数据库中生成存储目录；对用户选取文件夹中的文档或图片进行识别，并将其转化为二进制数据，作为待分类样本，将待分类样本与样本数据集中的每一个样本进行比较，获得样本距离；找到与待分类样本最为相近的K个样本，并获取这K个样本的标签；选择这K个样本标签中出现次数最多的分类，作为待分类样本的分类；然后按照样本分类对应的标签得到识别内容。通过本发明专利技术可以有效识别提取文件中的关键信息进行比较筛选存入数据库，大幅度提高文档管理效率。

A key information recognition and extraction method and system

全部详细技术资料下载

【技术实现步骤摘要】
一种关键信息识别提取方法及系统
本专利技术属于信息处理
，具体涉及一种关键信息识别提取方法及系统。
技术介绍
信息化项目的合同、发票、技术协议等关键资料的归档、查找过程中，主要存在以下问题：1)由于目前信息化项目的合同、发票、技术协议等关键资料的归档主要是通过纸质、扫描件等方式进行归档和系统录入，平时的工作当中会经常对历史文档进行查询，通过检索纸质材料和非结构化数据会耗费大量的人力和时间。2)目前由人工对信息化项目关键资料的内容进行纸质和非结构化数据存档管理，缺乏有效的技术工具手段支撑，工作任务繁重，人工操作耗时耗力，还可能存在漏查、误查等问题。上述原因导致在信息化项目关键资料管理实际工作中存在效率不高、质量不优等问题，有时拖延了工作时间，甚至影响了项目工程进度。OCR字符识别方法及系统，申请号201310752624.4，公开了该方法包括：对用户选择的目标区域内的图像进行OCR字符识别以得到识别的词串；计算识别的词串中子词串的数量；如果词串中子词串的数量大于2，则判断第1个子词串W1中字符的个数和第K个子词串WK中字符的个数是否小于预设值；如果W1中字符的个数和/或WK中字符的个数小于预设值，则判断W1的噪声概率得分和/或WK的噪声概率得分是否大于预设噪音；如果是，则判定W1和/或WK为噪声并从词串中删除W1和/或WK以得到新的词串。根据该专利技术的实施例可提升对OCR识别的结果的OCR翻译的准确性。该方法存在如下缺点：1.识别速度较慢准确率不高，需要针对场景进行训练学习；2....

【技术保护点】
1.一种关键信息识别提取方法，其特征在于，包括如下步骤：/n获取用户选择的目标路径，解析文件夹结构；/n根据结构层级生成得到所述文件夹路径的标签树；/n遍历标签树的各个节点内容，得到对应文件夹中的内容；/n根据标签树的各个节点在数据库中生成存储目录；/n对用户选取文件夹中的文档或图片进行识别，并将其转化为二进制数据，作为待分类样本；/n令数据库中含有一个样本数据集，样本数据集中每个样本带有标签，通过标签能够获取样本数据集中每一个样本的分类；/n当获取到一个没有标签的待分类样本时，将待分类样本与样本数据集中的每一个样本进行比较；/n假设待分类样本作为测试节点，初始化样本距离为无穷大；/n从根节点开始搜索，计算当前节点与测试节点之间的距离；/n若当前节点与测试节点之间的距离小于样本距离，则将当前节点与测试节点之间的距离赋值给样本距离；/n确定当前节点的划分维度；利用当前结点的划分阈值向下搜索，若测试样本当前维的值小于当前节点阈值，则搜索左子树，否则，搜索右子树；/n采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索，获得样本距离；/n找到与待分类样本最为相近的K个样本，并获取这K个...

【技术特征摘要】
1.一种关键信息识别提取方法，其特征在于，包括如下步骤：
获取用户选择的目标路径，解析文件夹结构；
根据结构层级生成得到所述文件夹路径的标签树；
遍历标签树的各个节点内容，得到对应文件夹中的内容；
根据标签树的各个节点在数据库中生成存储目录；
对用户选取文件夹中的文档或图片进行识别，并将其转化为二进制数据，作为待分类样本；
令数据库中含有一个样本数据集，样本数据集中每个样本带有标签，通过标签能够获取样本数据集中每一个样本的分类；
当获取到一个没有标签的待分类样本时，将待分类样本与样本数据集中的每一个样本进行比较；
假设待分类样本作为测试节点，初始化样本距离为无穷大；
从根节点开始搜索，计算当前节点与测试节点之间的距离；
若当前节点与测试节点之间的距离小于样本距离，则将当前节点与测试节点之间的距离赋值给样本距离；
确定当前节点的划分维度；利用当前结点的划分阈值向下搜索，若测试样本当前维的值小于当前节点阈值，则搜索左子树，否则，搜索右子树；
采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索，获得样本距离；
找到与待分类样本最为相近的K个样本，并获取这K个样本的标签；K不小于3；
选择这K个样本标签中出现次数最多的分类，作为待分类样本的分类；
然后按照样本分类对应的标签得到识别内容。

2.根据权利要求1所述的关键信息识别提取方法，其特征在于，所述的K为5。

3.一种关键信息识别提取装置，其特征在于，包括：
预处理模块，用于获取用户选择的目标路径，解析文件夹结构，根据结构层级生...

【专利技术属性】
技术研发人员：秦丞，唐源磊，贺渝镔，殷军，王杭，颜丽渊，田昊，柏瑞，刘姜钧泰，李云冬，
申请(专利权)人：云南电网有限责任公司昆明供电局，
类型：发明
国别省市：云南;53

全部详细技术资料下载我是这个专利的主人