一种关键信息识别提取方法及系统技术方案

技术编号:24206440 阅读:91 留言:0更新日期:2020-05-20 14:52
本发明专利技术涉及一种关键信息识别提取方法及系统,属于信息处理技术领域。该方法首先获取用户选择的目标路径,解析文件夹结构并生成相应的标签树;遍历标签树的各个节点内容,在数据库中生成存储目录;对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本,将待分类样本与样本数据集中的每一个样本进行比较,获得样本距离;找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;然后按照样本分类对应的标签得到识别内容。通过本发明专利技术可以有效识别提取文件中的关键信息进行比较筛选存入数据库,大幅度提高文档管理效率。

A key information recognition and extraction method and system

【技术实现步骤摘要】
一种关键信息识别提取方法及系统
本专利技术属于信息处理
,具体涉及一种关键信息识别提取方法及系统。
技术介绍
信息化项目的合同、发票、技术协议等关键资料的归档、查找过程中,主要存在以下问题:1)由于目前信息化项目的合同、发票、技术协议等关键资料的归档主要是通过纸质、扫描件等方式进行归档和系统录入,平时的工作当中会经常对历史文档进行查询,通过检索纸质材料和非结构化数据会耗费大量的人力和时间。2)目前由人工对信息化项目关键资料的内容进行纸质和非结构化数据存档管理,缺乏有效的技术工具手段支撑,工作任务繁重,人工操作耗时耗力,还可能存在漏查、误查等问题。上述原因导致在信息化项目关键资料管理实际工作中存在效率不高、质量不优等问题,有时拖延了工作时间,甚至影响了项目工程进度。OCR字符识别方法及系统,申请号201310752624.4,公开了该方法包括:对用户选择的目标区域内的图像进行OCR字符识别以得到识别的词串;计算识别的词串中子词串的数量;如果词串中子词串的数量大于2,则判断第1个子词串W1中字符的个数和第K个子词串WK中字符的个数是否小于预设值;如果W1中字符的个数和/或WK中字符的个数小于预设值,则判断W1的噪声概率得分和/或WK的噪声概率得分是否大于预设噪音;如果是,则判定W1和/或WK为噪声并从词串中删除W1和/或WK以得到新的词串。根据该专利技术的实施例可提升对OCR识别的结果的OCR翻译的准确性。该方法存在如下缺点:1.识别速度较慢准确率不高,需要针对场景进行训练学习;2.手写体和印章无法识别;3.无法根据用户需求提取指定的关键内容。业务文档的公式信息提取方法及装置,申请号:201810085254.6,公开了该方法包括:获取第一序列,第一序列由业务文档生成,包括至少两个变量;获取第一标注序列,第一标注序列包括至少两个预设变量,第一标注序列对应第一标注表达式,第一标注表达式包括至少两个预设变量和至少两个预设变量之间的运算关系;如果第一序列与第一标注序列相匹配,则根据第一标注表达式及至少两个变量提取第一表达式,第一表达式包括至少两个变量和至少两个变量之间的运算关系,其中,至少两个变量之间的运算关系与第一标注表达式中的至少两个预设变量之间的运算关系相同。采用上述技术方案的提取方法可以有效提取出业务文档中的公式信息,尤其是隐含的用文本描述的公式信息。该方法存在如下缺点:1.无法满足实际应用要求,不能根据场景设置对应信息提取规则;2.不能对PDF、JPG、PNG等格式进行处理;3.没有对提取对象进行分类存储处理。因此如何克服现有技术的不足是目前信息处理
亟需解决的问题。
技术实现思路
本专利技术的目的是为了解决现有技术的不足,提供一种关键信息识别提取方法及系统,通过本专利技术可以有效识别提取文件中的关键信息进行比较筛选存入数据库,大幅度提高文档管理效率。为实现上述目的,本专利技术采用的技术方案如下:一种关键信息识别提取方法,包括如下步骤:获取用户选择的目标路径,解析文件夹结构;根据结构层级生成得到所述文件夹路径的标签树;遍历标签树的各个节点内容,得到对应文件夹中的内容;根据标签树的各个节点在数据库中生成存储目录;对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;令数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;假设待分类样本作为测试节点,初始化样本距离为无穷大;从根节点开始搜索,计算当前节点与测试节点之间的距离;若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索,获得样本距离;找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3;选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;然后按照样本分类对应的标签得到识别内容。进一步,优选的是,所述的K为5。本专利技术还提供一种关键信息识别提取装置,包括:预处理模块,用于获取用户选择的目标路径,解析文件夹结构,根据结构层级生成得到所述文件夹路径的标签树;待分类样本获取模块,用于遍历标签树的各个节点内容,得到对应文件夹中的内容,根据标签树的各个节点在数据库中生成存储目录,之后对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;样本距离获取模块,用于当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;假设待分类样本作为测试节点,初始化样本距离为无穷大;从根节点开始搜索,计算当前节点与测试节点之间的距离;若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;采用递归的方式继续对确定搜索的左子树或右子树进行搜索,获得样本距离;所述的数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;内容识别模块,用于找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3,选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;然后按照样本分类对应的标签得到识别内容。本专利技术同时提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述关键信息识别提取方法的步骤。本专利技术另外提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述关键信息识别提取方法的步骤。本专利技术与现有技术相比,其有益效果为:(1)本专利技术能有效识别、提取文件中的关键信息、进行比较筛选存入数据库,能将非结构化关键项目资料的关键信息进行结构化整理和管理,能规范化项目资料的存档;(2)本专利技术能让多人同时快速查找需要的项目合同、发票、技术协议等关键信息;(3)本专利技术能降低在检索纸质材料和非结构化资料时耗费的人力和时间,降低工作量,系统方便实用,实现了信息精准查询,降低漏查、误差等问题,大幅度提高文档管理效率。附图说明图1为本专利技术关键信息识别提取装置的结构示意图;图2为本专利技术电子设备的结构示意图;图3为应用实例中待识别图片;图4为应用实例中的识别结果。具体实施方式下面结合实施例对本专利技术作进一步的详细描述。本领本文档来自技高网
...

【技术保护点】
1.一种关键信息识别提取方法,其特征在于,包括如下步骤:/n获取用户选择的目标路径,解析文件夹结构;/n根据结构层级生成得到所述文件夹路径的标签树;/n遍历标签树的各个节点内容,得到对应文件夹中的内容;/n根据标签树的各个节点在数据库中生成存储目录;/n对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;/n令数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;/n当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;/n假设待分类样本作为测试节点,初始化样本距离为无穷大;/n从根节点开始搜索,计算当前节点与测试节点之间的距离;/n若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;/n确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;/n采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索,获得样本距离;/n找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3;/n选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;/n然后按照样本分类对应的标签得到识别内容。/n...

【技术特征摘要】
1.一种关键信息识别提取方法,其特征在于,包括如下步骤:
获取用户选择的目标路径,解析文件夹结构;
根据结构层级生成得到所述文件夹路径的标签树;
遍历标签树的各个节点内容,得到对应文件夹中的内容;
根据标签树的各个节点在数据库中生成存储目录;
对用户选取文件夹中的文档或图片进行识别,并将其转化为二进制数据,作为待分类样本;
令数据库中含有一个样本数据集,样本数据集中每个样本带有标签,通过标签能够获取样本数据集中每一个样本的分类;
当获取到一个没有标签的待分类样本时,将待分类样本与样本数据集中的每一个样本进行比较;
假设待分类样本作为测试节点,初始化样本距离为无穷大;
从根节点开始搜索,计算当前节点与测试节点之间的距离;
若当前节点与测试节点之间的距离小于样本距离,则将当前节点与测试节点之间的距离赋值给样本距离;
确定当前节点的划分维度;利用当前结点的划分阈值向下搜索,若测试样本当前维的值小于当前节点阈值,则搜索左子树,否则,搜索右子树;
采用递归的方式继续对上一步确定搜索的左子树或右子树进行搜索,获得样本距离;
找到与待分类样本最为相近的K个样本,并获取这K个样本的标签;K不小于3;
选择这K个样本标签中出现次数最多的分类,作为待分类样本的分类;
然后按照样本分类对应的标签得到识别内容。


2.根据权利要求1所述的关键信息识别提取方法,其特征在于,所述的K为5。


3.一种关键信息识别提取装置,其特征在于,包括:
预处理模块,用于获取用户选择的目标路径,解析文件夹结构,根据结构层级生...

【专利技术属性】
技术研发人员:秦丞唐源磊贺渝镔殷军王杭颜丽渊田昊柏瑞刘姜钧泰李云冬
申请(专利权)人:云南电网有限责任公司昆明供电局
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1