一种基于机器视觉的文本与内容识别分析方法技术

技术编号：30226042 阅读：13 留言：0更新日期：2021-09-29 09:50

本发明专利技术公开了一种基于机器视觉的文本与内容识别分析方法，包括如下步骤：S1、首先通过机器扫描文件，识别文件中的文本内容，根据文件内容选择合适的识别方式，S2、在对特定的内容进行查找时，通过在知识库中选择需要查找的内容，通过机器扫描，识别该内容对应的文本，本发明专利技术通过机器视觉识别文本提及的表格和票据，对表格和票据文本进行识别，查找对应的表格和票据，识别表格和票据名称，查找与文本关联的表格和票据，将关联的表格和票据排放在对应的文本后面，够后续查阅，方便快速的查找关联的表格和票据，对文本内容更加快速的审核，使尽职调查的速度更快，节省时间，提高效率。提高效率。提高效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器视觉的文本与内容识别分析方法

[0001]本专利技术涉及机器视觉
，具体为一种基于机器视觉的文本与内容识别分析方法。

技术介绍

[0002]机器视觉是用机器代替人眼进行目标对象的识别、判断和测量，只要研究用计算机来模拟人的视觉功能，机器视觉技术涉及目标对象的图像获取技术、对图像信息的处理技术以及对目标对象的测量和识别技术，利用机器视觉技术给生活中的特定内容的读取识别带来的便捷，机器视觉技术常应用在仪器仪表上的数据读取、智能交通的车牌识别等；但是目前在尽职调查中，通过机器视觉技术对大量文件进行识别查阅时，文件数量较多，文件种类不同，查阅文本内容较为复杂，使尽职调查的任务量较大，无法快速的将相关联的表格、票据与文本对应起来，从而导致尽职调查耗时较长。

技术实现思路

[0003]本专利技术提供一种基于机器视觉的文本与内容识别分析方法，可以有效解决上述
技术介绍
中提出目前在尽职调查中，通过机器视觉技术对大量文件进行识别查阅时，文件数量较多，文件种类不同，查阅文本内容较为复杂，使尽职调查的任务量较大，无法快速的将相关联的表格、票据与文本对应起来，从而导致尽职调查耗时较长的问题。
[0004]为实现上述目的，本专利技术提供如下技术方案：一种基于机器视觉的文本与内容识别分析方法，包括如下步骤：S1、首先通过机器扫描文件，识别文件中的文本内容，根据文件内容选择合适的识别方式；S2、在对特定的内容进行查找时，通过在知识库中选择需要查找的内容，通过机器扫描，识别该内容对应的文本；S3、先识别确定文...

【技术保护点】

【技术特征摘要】
1.一种基于机器视觉的文本与内容识别分析方法，其特征在于：包括如下步骤：S1、首先通过机器扫描文件，识别文件中的文本内容，根据文件内容选择合适的识别方式；S2、在对特定的内容进行查找时，通过在知识库中选择需要查找的内容，通过机器扫描，识别该内容对应的文本；S3、先识别确定文本的整体结构，分析不同文本之间的关联性，再抓取文件中文本的名称和目录内容；S4、然后按照目录对文本内容进行识别，先识别每个目录下的小标题，对文本结构进行补充；S5、再根据尽职调查的需要和文本结构，快速定位至需要查找的位置，对重要内容进行识别分析；S6、在重要文本内容识别分析过程中，识别到相同的文本内容时，将其他相同文本的位置标注在文本右侧；S7、重要内容识别分析完成后，打印出重点内容分析报告；S8、然后逐句对文本剩余内容进行识别分析，先识别提取数字和文字内容，最后识别图片内容；S9、在文本内容全部分析完成后，打印整体分析报告。2.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法，其特征在于，所述S1中，待识别的文件为图像文件，图像文件中的内容包括表格、文章和票据；根据文本中文字记录的表格和票据，对其他含有表格和票据的文本进行查找，将表格名称和票据名称分别与文字记录的内容进行对比，将关联的票据文本和表格文本排放在对应文本后面；关联表格和票据查找完成后，将票据与票据、表格与表格、表格与票据之间的内容进行对比分析，在对比后存在数据差异的位置进行框选标记；所述S2中，知识库中存储有公司名称、重要文件名称、商业计划书名称和商业计划书中的故事。3.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法，其特征在于，所述S3中，在识别文本内容时，先通过机器视觉对文本内容进行扫描，对整个文本开始处的文本主题名称和文本目录进行识别，了解文档的大致内容，为后期查询做准备，然后识别文本中的目录，接着识别文本的重要内容，最后识别剩余内容；在识别表格和票据时，先识别表格上方的表格名称，再识别表格的第一列和第一行的文本内容，确定表格整体结构，最后识别表格中剩余文本内容。4.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法，其特征在于，所述S4中，确定需要查询的内容，然后选择对应的文件；在对应的文本中，先对目录进行分析，确定需要查询的内容在文本中的页数，根据文本目录的指引找到对应的页数，先识别对应页数上的文本小标题，确定该...

【专利技术属性】
技术研发人员：杨修一，陈杰，庞小红，
申请(专利权)人：南京超募数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人