文档信息处理方法,文档信息处理装置,通信系统和存储器产品制造方法及图纸

技术编号:2876383 阅读:168 留言:0更新日期:2012-04-11 18:40
一种处理含有字符信息的文档信息的文档信息处理方法,包括下列步骤: 根据文档信息产生含有与文档信息相同的字符信息中间信息; 从文档信息或中间信息抽取代表字的字信息;和 将抽取的字信息加到中间信息上产生归纳信息。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及处理含有字符信息的文档信息处理方法,采用这个方法的文档信息处理装置,以及使用这个装置的通信系统和存储实现这个装置的计算机程序的存储器产品;特别涉及,产生容易理解大量页数或大量数据等的文档信息的内容的文档信息处理方法,文档信息处理装置,通信系统和存储器产品。例如,日本专利申请未决公开No.8-241306(1996)公开了文档信息处理装置,它生成含有诸如生成日期和文档信息的字符信息的属性信息,并通过使用生成的属性信息管理文档信息。在日本专利申请未决公开No.8-241304(1996)中公开的文档信息处理装置生成的属性信息,不具有对文档生成应用程序的依赖性,因为属性信息含有字符信息提供了一种诸如关键字的搜索的处理,因此,它具有提高管理文档信息的效率的效果。但是,因为在上述专利申请No.8-241306(1996)中公开的文档信息处理装置生成的属性信息倾向于保持在原始文档信息中含有的诸如格式的所有的信息,所以问题是,数据量大。在属性信息的数据量大时,因为必须抛弃对应于文档信息后面页数的信息,在抛弃页中的字符信息也将被删除,结果问题是,使用字符信息的搜索处理,如全文搜索,不能实行。本专利技术的简述本专利技术的目标在于解决上述问题,本专利技术的目的在于提供一种文档信息处理方法,它产生含有与原始文档信息中的相同字符信息的中间信息,从文档信息或中间信息抽取字信息,通过将抽取的字信息加到中间信息上产生归纳信息,并且特别是,当中间信息的数据量大于预先设定的预定值时,从中间信息中减少诸如颜色数目、字体和格式等信息,以致通过将字信息加到中间信息获得的归纳信息不仅具有小的数据量,而且含有所有的字信息,并且能够使用字符信息进行搜索处理,诸如全文搜索,从而能够有效地使用和管理文档信息。并且本专利技术提供采用所述方法的文档信息处理装置,和使用所述装置的通信系统以及存储实现所述装置的计算机程序的存储器产品。根据第一方面的文档处理方法是文档信息处理方法,用于处理含有字符信息的文档信息,根据文档信息,产生含有与文档信息相同的字符信息的中间信息,从文档信息或中间信息抽取代表字的字信息,并将抽取的字信息加到中间信息上产生归纳信息。在第一方面的文档信息处理方法中,由于通过将字信息加到数据量小的中间信息上产生归纳信息,产生的归纳信息不仅具有小的数据量,而且含有所有字信息,因此,归纳信息能够用于使用字符信息的搜索处理,如全文搜索。因此,能够有效地使用和管理归纳信息源的文档信息。根据本专利技术第二方面的文档信息处理装置是这样的文档信息处理装置,用于处理含有字符信息的文档信息,并且包括产生中间信息的装置,它根据文档信息,产生含有与文档信息相同的字符信息的中间信息;抽取字信息的装置,它从包含在文档信息,或产生的中间信息中的字符信息中,抽取代表字的字信息;以及产生归纳信息的装置,它通过将抽取的字信息加到中间信息上产生归纳信息。在第二方面的文档信息处理装置中,因为归纳信息是通过将字信息加到中间信息上产生的,产生的归纳信息含有所有的字信息,并因此所述归纳信息能够用于使用字符信息的搜索处理,如全文搜索。因此,能够有效地使用和管理归纳信息源的文档信息。根据第三方面的文档信息处理装置是基于第二方面,并包括测量装置,它测量中间信息量;比较装置,它将测量的中间信息量与预先设定的预定值比较;和减少装置,当判断中间信息量大于预定值时,它将中间数据量减少。因为包含在诸如中间信息的数据量大于预定值时,减少在中间信息中含有的信息,所以能够防止归纳信息数据量的增加。在第四方面的文档信息处理装置中,在第三方面的减少装置包括,删除部分中间信息的减少装置。因为部分中间信息被删除,所以能够减小归纳信息的数据量。在第五方面的文档信息处理装置中,通过留下文档的引导部分的顶部作为中间信息,在第四方面的部分中间信息是关于,中间信息示出的文档的后面页的信息,并且能够从显示中间信息的部分归纳信息有效地确认文档信息的内容。在第六方面的文档信息处理装置中,第三到第五方面任何一个的减少装置包括转换颜色信息的减少方法。通过减少关于颜色的信息,诸如色数和色调,例如,将24位彩色图象转换成灰度级图象,能够减小归纳信息的数据量。在第七方面的文档信息处理装置中,第三到第六方面的任何一个分减少装置包括转换关于字符信息的字体信息的减少方法。通过减少与诸如Mincho和Gothic(黑体)字体的信息,能够减小归纳信息的数据量。在第八方面的文档信息处理装置中,第三到第七方面的任何一个的减少装置包括转换文档的格式信息的减少方法。通过减少例于线数目,图形和边缘数目的格式信息,能够减小归纳信息的数据量。在第九方面的文档信息处理装置中,所述装置基于第三到第八方面的任何一个,其中文档信息含有关于图形的信息,并且所述减少装置包括转换关于图形信息的减少方法。通过减少关于图形的信息,特别是线图的线宽度和线类型,能够减小归纳信息的数据量。在第十方面的文档信息处理装置中,在第三到第九方面任何一个的减少装置包括步骤通过第一减少方法,减少中间信息的数据量;将在减少后的中间信息的量与预定值比较;当通过比较判断中间信息的量大于预定值时,用与第一减少方法不同的第二减少方法进一步减少中间信息的量。在文档信息处理装置包括多个减少方法时,顺序执行各减少方法,因此能够防止归纳信息的数据量的增加。根据第十一方面的文档信息处理装置,还包括接受装置,它接受第十方面的各减少方法的优先级;并且减少装置根据接受的优先级减少中间信息的量。通过设定执行多个减少方法的执行顺序,并根据需要限制执行特定的减少方法,能够根据用户的使用情况产生归纳信息。第十二方面的文档信息处理装置基于第二到第十一方面的任何一个,并包括产生装置,它通过不可逆压缩文档信息产生图象信息;比较装置,它将产生的图象信息量与中间信息量比较;和代替装置,在比较判断图象信息量小于中间信息量时,将图象信息作为新的中间信息。通过基于文档信息,产生显示大小减小的,和如JPEG和GIF等格式中不可逆压缩的诸如缩略图(thumbnail)等的图象信息,并在产生的图象信息数据量小于中间信息的数据量时,用所述图象信息作为中间信息,并能够减少归纳信息。第十三方面的文档信息处理装置是这样的,它处理含有字符信息的文档信息,并包括产生装置,它通过不可逆压缩文档信息产生图象信息;抽取装置,它从在文档信息中含有的字符信息抽取代表字的字信息;和产生装置,它通过将抽取的字信息加到产生的图象信息,产生归纳信息。在第十三方面的文档信息处理装置中,因为基于文档信息产生在显示大小减小的和如JPEG和GIF等格式中不可逆压缩的诸如缩略图等的图象信息,并且通过将字信息加到产生的图象信息产生归纳信息,所以,产生的归纳信息不仅基于小的数据量,而且含有所有的字信息,因此,归纳信息能够用于使用字符信息的搜索处理,如全文搜索。因此,能够有效地使用和管理归纳信息源的文档信息。根据第十四方面的文档信息处理装置,在第二到第十三方面的任何一个的抽取装置通过词态分析抽取的独立的字,作为字符信息的字信息。通过用词态分析抽取的字信息,能够抽取相对于语言中生成的文档信息的有效搜索中使用的字信息。根据第十五方面的文档信息处理装置以第二到第十四任何一个方面为基础,并包括可本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:永田义典
申请(专利权)人:夏普株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利