【技术实现步骤摘要】
图像处理系统和图像处理方法
本专利技术的各方面一般而言涉及图像处理系统和图像处理方法。
技术介绍
将图像数据中包括的字符图像识别为字符并因此将字符图像转换成文本数据的已知技术包括称为“光学字符识别”(以下称为“OCR”)的技术。OCR用于利用计算机化的数据中包括的字符信息。例如,称为例如多功能外围设备(MFP)的图像处理装置配备有将通过OCR获取的文本数据与图像数据进行组合以生成可搜索的便携式文档格式(PDF)数据的功能。可搜索的PDF数据允许搜索作为字符包括在图像数据中的字符图像,因此便利性极好。此外,现有的OCR技术可能经常错误地识别图像中包括的字符并输出包含错误的文本数据。这种错误识别的原因包括字符以外的信息(诸如图像中包括的背景或格线)的影响、图像的倾斜以及图像中包括的噪声的影响。如果以上面提到的方式在通过OCR获得的文本中包含错误,那么使用字符信息的各种功能的便利性会降低。日本专利申请公开No.2011-150436讨论了一种创建用于OCR的错误规则和用于校正的字典以校正通过OCR获得的文本的技术。 ...
【技术保护点】
1.一种图像处理系统,包括:/n用于获取神经网络模型的部件,该神经网络模型已经基于学习数据进行了训练,在学习数据中,打印数据中包括的第一文本信息和通过对基于打印数据的图像执行光学字符识别OCR处理而获取的第二文本信息彼此关联;/n用于获取扫描仪获得的图像的部件;/n用于获取通过对扫描仪获得的图像执行OCR处理而生成的第三文本信息的部件;以及/n用于基于神经网络模型根据第三文本信息的输入来输出第四文本信息的部件。/n
【技术特征摘要】
20181225 JP 2018-2417231.一种图像处理系统,包括:
用于获取神经网络模型的部件,该神经网络模型已经基于学习数据进行了训练,在学习数据中,打印数据中包括的第一文本信息和通过对基于打印数据的图像执行光学字符识别OCR处理而获取的第二文本信息彼此关联;
用于获取扫描仪获得的图像的部件;
用于获取通过对扫描仪获得的图像执行OCR处理而生成的第三文本信息的部件;以及
用于基于神经网络模型根据第三文本信息的输入来输出第四文本信息的部件。
2.根据权利要求1所述的图像处理系统,还包括用于使神经网络模型基于学习数据来执行学习的部件。
3.根据权利要求1所述的图像处理系统,还包括用于基于第一文本信息和第二文本信息来生成学习数据的部件。
4.根据权利要求1所述的图像处理系统,还包括用于基于打印数据来生成第一文本信息和第二文本信息的部件。
5.根据权利要求1所述的图像处理系统,其中基于从打印数据中获得的一页的信息来生成多条学习数据。
6.根据权利要求1所述的图像处理系统,其中第一文本信息和第二文本信息是其中第一文本信息和第二文本信息之间的关系满足预定条件的组合。
7.根据权利要求6所述的图像处理系统,其中预定条件是通过预定方法计算的相似度为预定值或更大。
8.根据权利要求1所述的图像处理系统,其中打印数据是页面描述语言PDL格式的数据。
9.根据权利要求1所述的图像处理系统,还包括用于将至少基于第四文本信息的数据传输到预定目的地的部件。
10.根据权利要求9所述的图像处理系统,其中预定目的地是通过电子邮件地址指定的目的地。
11.根据权利要求9所述的图像处理系统,其中预定目的地是在本地存储装置中分配的存储区域。
12.根据权利要求9所述的图像处理系统,其中预定目的地是云服务器。
13.根据权利要求9所述的图像处理系统,其中预定目的地是网络连接到图像处理系统的另一个装置提供的共享文件夹。
14.根据权利要求9所述的图像处理系统,其中基于第四文本信息的数据是页面描述语言PDL格式的数据。
15.根据权利要求14所述的图像处理系统,其中PDL格式的数据包括可搜索的字符信息。
16.根据权利要求1所述的图像处理系统,还包括确定部件,该确定部件用于关于是否使用从外部装置接收的打印数据来生成学习数据进行确定。
17.根据权利要求16所述的图像处理系统,还包括用于使显示设备显示设置画面的部件,经由该设置画面,能够执行与确定部件有关的设置。
18.根据权利要求16...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。