文档处理设备、图像处理装置和文档处理方法制造方法及图纸

技术编号:15399265 阅读:159 留言:0更新日期:2017-05-23 11:08
本申请公开了文档处理设备、图像处理装置和文档处理方法。一种文档处理设备包括:字符信息提取单元,从文档图像数据提取字符信息;特征字符串提取单元,从由字符信息提取单元提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取单元,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,输出条件获取单元获取所述文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成单元,从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称。

Document processing apparatus, image processing apparatus, and document processing method

The document discloses a document processing device, an image processing device, and a document processing method. A document processing apparatus includes a unit extract character information, extract character information from the document image data; feature string extraction unit, from the character information extraction unit extracts the character information extraction, indicating the characteristics of the document image data of a given number of character string as the document name candidate string; output acquisition unit with one of a plurality of processing method when the output data from the document image relates to the document name of the document image data, output output output condition acquiring unit acquires the document image data of the document name required; and document name generating unit from the candidate generation and the corresponding document name string in the condition of output character conditions consistent with the document name.

【技术实现步骤摘要】
文档处理设备、图像处理装置和文档处理方法相关申请的交叉引用本申请要求于2012年12月7日在日本提交的日本专利申请No.2012-267869的优先权权益,其全部内容通过引用方式并入到本文中。
本专利技术涉及文档处理设备、图像处理装置和文档处理方法,并且更具体地涉及如下这样的文档处理设备、图像处理装置和文档处理方法,所述文档处理设备、图像处理装置和文档处理方法为文档图像数据创建适合于如下输出条件的样式的文档名称,所述输出条件不仅依赖于所述文档图像数据被输出的时间并且还依赖于所述文档图像数据被输出到的目的地。
技术介绍
外部加载的文档图像数据包括并未向其给出文档名称的文档图像数据,并且特别是,需要向通过扫描设备从纸质文档加载的文档图像数据给出文档名称以用于存储管理,从而能够更有效地使用文档数据。存在向这样加载的图像数据给出文档名称的常规方法,其中自动创建并给出加载日期、预定序列号等。然而,存在这样的问题,其中无法仅从日期或序列号确定文档图像数据的文档内容,这导致文档图像数据的不良使用性。通常,用户将与加载的文档图像数据的内容相对应的文档名称输入给文档图像数据。这允许其他的用户根据文档名称知晓文档图像数据的内容,这改善了其使用性。然而,如果存在大量的文档图像数据,就降低了操作性,这种情况需要被改进。因此,已经提出了从文档图像数据自身提取与文档图像数据的内容相对应的标题的各种技术。例如,存在这样的方法,即从通过对文档图像数据执行光学字符识别(OCR)扫描的文档提取每个候选标题语句的特征量并且随后提取标题,从而特征量包括相似度信息,所述相似度信息是相对于文档中的多个语句的候选标题语句的相似度的函数(参见专利文献1);还存在这样的方法,即从文档图像数据的字符区域属性和线区域布局特征来提取布局相似性以便提取标题(参见专利文献2);还存在这样的方法,即从与标题字符串附近所示的关键字字符串和标题字符串之间的相对位置相关的信息提取标题(参见专利文献3)。上述常规技术中的每一个是这样的技术,其中从文档图像数据提取的字符串适合作为文档图像数据的内容的标题(文档名称);然而,并不考虑所提取的文档名称要被输出到的输出目的地装置,这意味着需要改进。通过各种设备来存储和使用文档图像数据,或通过使用各种类型的软件来传输和使用文档图像数据,并且给出文档名称,以基于文档名称指明文档图像数据,从而改进文档图像数据的使用性。然而,对输出所显示或记录的文档名称存在各种限制,例如字符代码可以根据设备、用于通过传输来输出文档图像数据的软件等而不同,对在一个传输中能够传输的数据量存在限制,或者对文档名称中的字符的数量可以存在限制。因此,文档名称的给出字符可能变为被破损,并且可能无法被准确地输出,或者期望的文档名称可能无法被输出,因此需要对给出文档名称的改进。存在这样的需求,即根据文档名称输出条件创建表示文档图像的内容的文档名称。
技术实现思路
本专利技术的一个目的在于至少部分解决现有技术中的问题。一种文档处理设备包括:字符信息提取单元,从文档图像数据提取字符信息;特征字符串提取单元,从由所述字符信息提取单元提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取单元,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,所述输出条件获取单元获取所述文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成单元,从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称。一种文档处理方法包括如下步骤:字符信息提取处理,从文档图像数据提取字符信息;特征字符串提取处理,从在所述字符信息提取处理步骤处提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取处理,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,所述输出条件获取处理获取所述文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成处理,从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称。通过结合附图阅读本专利技术当前优选实施例的具体实施方式,将更好地理解本专利技术的上述和其他目的、特征、优势以及技术和工业重要性。附图说明图1是应用了本专利技术一个实施例的文档处理设备的主单元框配置图;图2是文档名称创建单元的框配置图;图3是基本文档处理的流程图;图4是指明每个输出方法的屏幕的示例性输出目的地的图示;图5是用于发送电子邮件的文档名称生成过程的流程图;图6是执行文档处理的计算机设备的主单元框配置图;以及图7是多个设备共享文档处理的文档处理系统的示意性配置图。具体实施方式在下文中,将参照附图详细描述本专利技术的优选实施例。尽管在下文中所描述的实施例是本专利技术的优选实施例,并且对其施加了相应的技术上的优选的各种限制,但本专利技术的范围并不因此不适当地受以下描述的限制,并且进一步地,并非实施例中描述的所有部分都是本专利技术的必要部分。第一实施例图1到图7是本专利技术的文档处理设备、图像处理装置、文档处理方法和文档处理程序的实施例的图示。图1是应用到本专利技术的文档处理设备、图像处理装置、文档处理方法和文档处理程序的实施例的文档处理设备1的主单元框图。图1中所示的文档处理设备1是由处理文档图像数据的各种设备(例如复印设备、复合设备、扫描设备、计算机设备和图书阅读器)使用的。至少用于实现本专利技术的文档处理方法的文档处理程序被加载到文档处理设备1的非易失性存储器中,并且由控制处理器(例如中央处理单元(CPU))执行,从而创建文档馈送单元11、文档读取单元12、OCR单元13、标题创建单元14、文档名称创建单元15、文档存储单元16等。换言之,文档处理设备11被创建为这样的文档处理设备,其实施文档处理方法,在所述文档处理方法中,根据输出条件设置用于表示在下文中要描述的加载的文档图像数据的内容的文档名称的字符代码。还通过读取用于实现本专利技术的文档处理方法的文档处理程序并将所述程序加载到非易失性存储器(例如ROM或硬盘)中来实现文档处理方法,所述程序是存储在计算机可读存储介质中的文档处理程序,所述计算机可读存储介质例如是ROM、电可擦可编程只读存储器(EEPPROM)、EPROM、闪存、柔性盘、密制盘只读存储器(CDROM)、可重写密制盘(CD-RW)、数字多用途盘(DVD)、安全数字(SD)卡或磁光盘(MO)。文档处理程序是以传统编程语言或面向对象的编程语言(例如汇编语言、C、C++、C#、JAVA(商标))编写的计算机可执行程序,并且其可以被存储在上文中列示的介质中并被分发。多个纸质文档可以被放置在文档馈送单元11上,并且文档馈送单元11将放置的纸质文档逐个地发送到文档读取单元12。对于文档读取单元12,例如使用图像扫描仪,所述图像扫描仪使用电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)。文档读取单元12对从文档馈送单元11发送的纸质文档执行主扫描和副扫描,以给定的分辨率读取纸质文档上的图像,对图像进行二值化,并将其发送到文档存储单元16和OCR单元13。OCR单元13从由文档读取单元12读取的纸质文档的图像数据读取字符数据,将额外的信息(例如本文档来自技高网
...
文档处理设备、图像处理装置和文档处理方法

【技术保护点】
一种文档处理设备,包括:字符信息提取单元,用于从文档图像数据提取字符信息;特征字符串提取单元,用于从由所述字符信息提取单元提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取单元,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,所述输出条件获取单元获取所述文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成单元,用于从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称,其中,当所述输出条件所对应的输出方法是文件夹传输或电子邮件传输时,则所述文档名称生成单元基于输出目的地来生成与所述字符条件相一致的文档名称,所述字符条件是指考虑在输出目的地设备中能够被使用的字符代码;并且当所述输出条件所对应的输出方法是电子介质写入时,则所述文档名称生成单元基于输出目的地,不考虑所述字符条件而直接使用先前存储的各个字符代码生成文档名称。

【技术特征摘要】
2012.12.07 JP 2012-2678691.一种文档处理设备,包括:字符信息提取单元,用于从文档图像数据提取字符信息;特征字符串提取单元,用于从由所述字符信息提取单元提取的字符信息中,提取指示所述文档图像数据的特征的给定数量的字符串作为文档名称候选字符串;输出条件获取单元,当由涉及所述文档图像数据的文档名称的输出的多个处理方法之一处理所述文档图像数据时,所述输出条件获取单元获取所述文档图像数据的文档名称的输出所需的输出条件;以及文档名称生成单元,用于从所述文档名称候选字符串生成与对应于所述输出条件的字符条件相一致的文档名称,其中,当所述输出条件所对应的输出方法是文件夹传输或电子邮件传输时,则所述文档名称生成单元基于输出目的地来生成与所述字符条件相一致的文档名称,所述字符条件是指考虑在输出目的地设备中能够被使用的字符代码;并且当所述输出条件所对应的输出方法是电子介质写入时,则所述文档名称生成单元基于输出目的地,不考虑所述字符条件而直接使用先前存储的各个字符代码生成文档名称。2.如权利要求1所述的文档处理设备,其中,所述输出条件获取单元获取在所述输出目的地设备中可用的被先前存储作为字符串调节规则的字符代码作为所述输出条件,并且所述文档名称生成单元使用作为所述输出条件的字符代码作为所述字符条件,并且使用所述字符代码生成所述文档名称。3.如权利要求1所述的文档处理设备,其中,当所述输出条件获取单元获取将所述文档名称被输出到的目的地存储在存储介质中的输出条件时,所述文档名称生成单元使用在所述文档图像数据中使用的字符代码作为所述字符条件,并且使用所述字符代码生成所述文档名称。4.如权利要求1所述的文档处理设备,其中,当所述输出条件获取单元获取通过电子邮件发送或数据传输输出所述文档名称到的目的地是不同的设备的输出条件...

【专利技术属性】
技术研发人员:大黑庆久
申请(专利权)人:株式会社理光
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1