【技术实现步骤摘要】
本专利技术涉及对多个文档数据文件进行分类的技术。
技术介绍
已知有这样一种技术,其使用扫描仪或图像读取装置读取手写文档、通过应用OCR(光学字符识别)对所读取的文档数据文件处理来识别字符、并提取识别的字符作为文本数据。根据该技术,通过将手写文档中所述的信息转换成文本数据,计算机可使用手写文档中所述的信息用于各种目的。例如,计算机可根据文本数据中包括的字符串对多个文档数据文件进行排序,或根据多个文档数据文件进行统计。然而,根据文档创作者的喜好,可以以不同形式的字符串在不同的文档中表现相同的含义,所有形式的这些字符串都具有共同的属性。例如,当考虑在一篇文档中写入具有“日期”属性的字符串这样一种情况时,例如表示“2004年5月15日”的字符串,用户可以“2004.05.15”的格式书写字符串,或者以“May 15,2004”的格式书写字符串。这也就是说,虽然字符串表达相同的含义,但由于它们是以不同的格式书写的,所以计算机不能将所述字符串识别为相同的文本数据。因此,如果在“日期”这样的共同属性的基础上对文本数据“2004.05.15”和“May 15,2004”进行排 ...
【技术保护点】
一种文档处理装置,包括:指定单元,用于从包括在由多个相应的文档数据表示的多个文档中的字符串中指定对于这些文档具有公共属性的字符串;和重写单元,用于将所述指定单元指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限 定格式表示的字符串。
【技术特征摘要】
JP 2004-6-15 JP2004-1774471.一种文档处理装置,包括指定单元,用于从包括在由多个相应的文档数据表示的多个文档中的字符串中指定对于这些文档具有公共属性的字符串;和重写单元,用于将所述指定单元指定的字符串中的以不同于限定格式的格式表示的字符串重写为以所述限定格式表示的字符串。2.根据权利要求1所述的文档处理装置,还包括分类单元,用于对由所述指定单元指定的字符串的格式进行分类;和限定单元,用于根据所述分类单元提供的分类结果限定基准格式;其中,所述重写单元将所述指定单元指定的字符串中的以不同于由所述限定单元限定的基准格式的格式表示的字符串重写为以所述基准格式表示的字符串。3.根据权利要求2所述的文档处理装置,其中所述限定单元将所述分类单元分类的格式中的具有最高出现频率的格式限定为基准格式。4.根据权利要求2所述的文档处理装置,还包括显示器,用于显示作为所述分类单元的分类结果的多种格式的列表;和选择单元,用于依据操作者的操作从由所述显示器显示的多种格式的列表中选择一种格式;其中,所述重写单元将所述指定单元指定的字符串中的以与所述选择单元所选择的格式不同的格式表示的字符串重写为以所述所选择的格式表示的字符串。5.根据权利要求1所述的文档处理装置,还包括文件名重写单元,用于将其字符串已经被所述重写单元重写过的文档数据的文件名重写为至少包括所述重写过的字符串的一部分的文件名。6.根据权利要求1所述的文档处理装置,还包括文件名重写单元,用于将其字符串已经被所述重写单元重写过的文档数据的文件名重写为至少包括一个名称的一部分的文件名,所述名称表示所述重写过的字符串的属性。7.根据权利要求5所述的文档处理装置,还包括重写选择单元,用于使操作者选择是否重写文件名,其中,当重写选择单元接收到来自操作者的重写文件名的指令时,所述文件名重写单元对其字符串已经被所述重写单元重写过的文档数据的文件名进行重写。8.根据权利要求6所述的文档处理装置,还包括重写选择单元,用于使操作者选择是否重写文件名,其中,当重写选择单元接收到来自操作者的重写文件名的指令时,所述文件名重写单元对其字符串已经被所述重写单元重写过的文档数据的文件名进行重写。9.根据权利要求1所述的文档处理装置,其中所述文档数据是通过对光学读取的文档进行光学字符识别处理而获得的。10.一种由文档处理装置执行的文档处理方法,其包括从包...
【专利技术属性】
技术研发人员:伊藤笃,田宗道弘,田川昌俊,佐藤直子,刘绍明,增市博,田代洁,石川恭辅,
申请(专利权)人:富士施乐株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。