一种基于机器视觉的文本与内容识别分析方法技术

技术编号:30226042 阅读:13 留言:0更新日期:2021-09-29 09:50
本发明专利技术公开了一种基于机器视觉的文本与内容识别分析方法,包括如下步骤:S1、首先通过机器扫描文件,识别文件中的文本内容,根据文件内容选择合适的识别方式,S2、在对特定的内容进行查找时,通过在知识库中选择需要查找的内容,通过机器扫描,识别该内容对应的文本,本发明专利技术通过机器视觉识别文本提及的表格和票据,对表格和票据文本进行识别,查找对应的表格和票据,识别表格和票据名称,查找与文本关联的表格和票据,将关联的表格和票据排放在对应的文本后面,够后续查阅,方便快速的查找关联的表格和票据,对文本内容更加快速的审核,使尽职调查的速度更快,节省时间,提高效率。提高效率。提高效率。

【技术实现步骤摘要】
一种基于机器视觉的文本与内容识别分析方法


[0001]本专利技术涉及机器视觉
,具体为一种基于机器视觉的文本与内容识别分析方法。

技术介绍

[0002]机器视觉是用机器代替人眼进行目标对象的识别、判断和测量,只要研究用计算机来模拟人的视觉功能,机器视觉技术涉及目标对象的图像获取技术、对图像信息的处理技术以及对目标对象的测量和识别技术,利用机器视觉技术给生活中的特定内容的读取识别带来的便捷,机器视觉技术常应用在仪器仪表上的数据读取、智能交通的车牌识别等;但是目前在尽职调查中,通过机器视觉技术对大量文件进行识别查阅时,文件数量较多,文件种类不同,查阅文本内容较为复杂,使尽职调查的任务量较大,无法快速的将相关联的表格、票据与文本对应起来,从而导致尽职调查耗时较长。

技术实现思路

[0003]本专利技术提供一种基于机器视觉的文本与内容识别分析方法,可以有效解决上述
技术介绍
中提出目前在尽职调查中,通过机器视觉技术对大量文件进行识别查阅时,文件数量较多,文件种类不同,查阅文本内容较为复杂,使尽职调查的任务量较大,无法快速的将相关联的表格、票据与文本对应起来,从而导致尽职调查耗时较长的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种基于机器视觉的文本与内容识别分析方法,包括如下步骤:S1、首先通过机器扫描文件,识别文件中的文本内容,根据文件内容选择合适的识别方式;S2、在对特定的内容进行查找时,通过在知识库中选择需要查找的内容,通过机器扫描,识别该内容对应的文本;S3、先识别确定文本的整体结构,分析不同文本之间的关联性,再抓取文件中文本的名称和目录内容;S4、然后按照目录对文本内容进行识别,先识别每个目录下的小标题,对文本结构进行补充;S5、再根据尽职调查的需要和文本结构,快速定位至需要查找的位置,对重要内容进行识别分析;S6、在重要文本内容识别分析过程中,识别到相同的文本内容时,将其他相同文本的位置标注在文本右侧;S7、重要内容识别分析完成后,打印出重点内容分析报告;S8、然后逐句对文本剩余内容进行识别分析,先识别提取数字和文字内容,最后识别图片内容;S9、在文本内容全部分析完成后,打印整体分析报告。
[0005]根据上述技术方案,所述S1中,待识别的文件为图像文件,图像文件中的内容包括表格、文章和票据;根据文本中文字记录的表格和票据,对其他含有表格和票据的文本进行查找,将表格名称和票据名称分别与文字记录的内容进行对比,将关联的票据文本和表格文本排放在对应文本后面;关联表格和票据查找完成后,将票据与票据、表格与表格、表格与票据之间的内容进行对比分析,在对比后存在数据差异的位置进行框选标记;所述S2中,知识库中存储有公司名称、重要文件名称、商业计划书名称和商业计划书中的故事根据上述技术方案,所述S3中,在识别文本内容时,先通过机器视觉对文本内容进行扫描,对整个文本开始处的文本主题名称和文本目录进行识别,了解文档的大致内容,为后期查询做准备,然后识别文本中的目录,接着识别文本的重要内容,最后识别剩余内容;在识别表格和票据时,先识别表格上方的表格名称,再识别表格的第一列和第一行的文本内容,确定表格整体结构,最后识别表格中剩余文本内容。
[0006]根据上述技术方案,所述S4中,确定需要查询的内容,然后选择对应的文件;在对应的文本中,先对目录进行分析,确定需要查询的内容在文本中的页数,根据文本目录的指引找到对应的页数,先识别对应页数上的文本小标题,确定该页文本结构,对文本整体的结构进行补充,使文本结构更加完整。
[0007]根据上述技术方案,所述文本小标题确定后,将需要查找的内容与小标题进行匹配,确定需要查找的内容具体位置,在对应的小标题下查找对应的文本内容;在表格和票据识别时,对第一行和第一列文本内容识别后,确定需查找内容与第一行内容的对应位置,再确定需查找内容与第一列内容的对应位置,然后确定对应行列交叉位置的单元格,获取需要查找的内容。
[0008]根据上述技术方案,所述S6中,在文本内容识别分析过程中,对识别内容进行记忆,再次识别到相同的文本内容时,将上次识别的相同的文本位置标注在本次文本右侧,并将本次文本的位置标注至上次文本的右侧,出现多个相同文本内容时,全部相同文本位置均进行标注。
[0009]根据上述技术方案,所述相同文本的认定标准通过用户自定义设置,设置的内容包括字数、段落数和数字,其中,字数大于等于30字,段落数大于等于1,数字的个数大于等于3;在识别文本内容时,由人工设置相似文本的数值,文本相似程度达到设置值后,认定为相同的文本内容,然后对相同文本位置进行标注。
[0010]根据上述技术方案,所述S7中,在重点内容识别完成后,对识别后的内容进行分析,打印成分析报告,并附上识别时间、识别步骤和识别位置;识别报告上的内容按照识别时间进行排序,识别步骤通过步骤流程图表示,步骤流程图定位文本页数后,识别重要文本所在的段落位置,段落打印时,将需要的内容在段落中通过蓝色字体显示,其余内容用黑色字体显示。
[0011]根据上述技术方案,所述S8中,在重点内容识别分析完成后,通过机器视觉技术对文本剩余内容进行识别和分析;
识别文章内容时,先识别数字内容,再识别数字对应句子的文字内容,最后识别剩余内容;识别表格和票据的内容时,先识别数字内容,在识别文字内容,最后识别其他内容。
[0012]根据上述技术方案,所述S9中,分析完成后,将文本内容打印成整体分析报告;整体分析报告打印前,将重点内容的分析报告中重要文本段落插入整体分析报告中,再进行打印。
[0013]与现有技术相比,本专利技术的有益效果:1、通过机器视觉识别文本提及的表格和票据,对表格和票据文本进行识别,查找对应的表格和票据,识别表格和票据名称,查找与文本关联的表格和票据,将关联的表格和票据排放在对应的文本后面,够后续查阅,方便快速的查找关联的表格和票据,对文本内容更加快速的审核,使尽职调查的速度更快,节省时间,提高效率。
[0014]2、通过对文本的名称、目录、首行和首列文本内容的识别,快速的掌握文本的整体结构,从而方便对文本中重要内容进行定位,快速准确的找到需要的文本段落,也使得文本的结构更加清晰,使文本的识别分析更加有条理性,在识别过程中,在对文本中的小标题进行识别,对文本整体结构进行补充,从而使文本结构识别的更加细致,方便查找,提高文本识别的效率。
[0015]3、通过在文本分析前,对文本的类型进行识别,确定文本类型后,选择合适的识别方式对文本内容进行识别,方便根据文档类型,选取合适的文本识别方式,使文本识别分析更加符合文本特点,节省文本内容识别和分析的时间,给后续的识别分析带来方便,使识别分析的效率更高。
[0016]4、通过在文本识别分析过程中,自定义设置字数、段落和数字的相同数值,在相同个数达到设定的数值后认定为相同文本内容,并在相同文本右侧标注相同文本的具体位置,帮助用户对相同文本进行标注和后续查找,并且能够使不同的文本之间联系起来,查找更加智能化。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器视觉的文本与内容识别分析方法,其特征在于:包括如下步骤:S1、首先通过机器扫描文件,识别文件中的文本内容,根据文件内容选择合适的识别方式;S2、在对特定的内容进行查找时,通过在知识库中选择需要查找的内容,通过机器扫描,识别该内容对应的文本;S3、先识别确定文本的整体结构,分析不同文本之间的关联性,再抓取文件中文本的名称和目录内容;S4、然后按照目录对文本内容进行识别,先识别每个目录下的小标题,对文本结构进行补充;S5、再根据尽职调查的需要和文本结构,快速定位至需要查找的位置,对重要内容进行识别分析;S6、在重要文本内容识别分析过程中,识别到相同的文本内容时,将其他相同文本的位置标注在文本右侧;S7、重要内容识别分析完成后,打印出重点内容分析报告;S8、然后逐句对文本剩余内容进行识别分析,先识别提取数字和文字内容,最后识别图片内容;S9、在文本内容全部分析完成后,打印整体分析报告。2.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S1中,待识别的文件为图像文件,图像文件中的内容包括表格、文章和票据;根据文本中文字记录的表格和票据,对其他含有表格和票据的文本进行查找,将表格名称和票据名称分别与文字记录的内容进行对比,将关联的票据文本和表格文本排放在对应文本后面;关联表格和票据查找完成后,将票据与票据、表格与表格、表格与票据之间的内容进行对比分析,在对比后存在数据差异的位置进行框选标记;所述S2中,知识库中存储有公司名称、重要文件名称、商业计划书名称和商业计划书中的故事。3.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S3中,在识别文本内容时,先通过机器视觉对文本内容进行扫描,对整个文本开始处的文本主题名称和文本目录进行识别,了解文档的大致内容,为后期查询做准备,然后识别文本中的目录,接着识别文本的重要内容,最后识别剩余内容;在识别表格和票据时,先识别表格上方的表格名称,再识别表格的第一列和第一行的文本内容,确定表格整体结构,最后识别表格中剩余文本内容。4.根据权利要求1所述的一种基于机器视觉的文本与内容识别分析方法,其特征在于,所述S4中,确定需要查询的内容,然后选择对应的文件;在对应的文本中,先对目录进行分析,确定需要查询的内容在文本中的页数,根据文本目录的指引找到对应的页数,先识别对应页数上的文本小标题,确定该...

【专利技术属性】
技术研发人员:杨修一陈杰庞小红
申请(专利权)人:南京超募数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1