用于对文本进行处理的方法和系统技术方案

技术编号:3899618 阅读:166 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种对文本进行处理的方法和系统。所述方法包括确定一文本中的至少部分字符;利用所述至少部分字符作为分隔符,将所述文本划分为多个文本片段;以及对所述多个文本片段分别进行译码。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,尤其涉及用于对文本进行处理的方法和系统
技术介绍
在过去的二十多年的时间里,随着电子技术的迅猛发展,计算机网络,尤其是互联 网的性能和容量发生了爆炸性的增长。用户每天利用计算机处理各种信息,编辑形成大量 的电子文本。这些电子文本(下文简称为文本)包括以文档方式存储的文本以及以记录和 表格等方式存储在数据库中的文本。这些文本中的信息是个人或企业的重要资产。以文档 或记录等电子化的方式存储和处理这些文本,为用户重复利用其中的信息提供了便利并提 高了工作效率。但是,在一些情况下,文本可能会被损坏(例如,文本文档被损坏),从而影响对文 本中信息的重复利用。这浪费了为形成文本而投入的时间等资源。造成文本被损坏的原因 有多种,例如通信故障、存储介质故障等。操作系统故障、处理文档的应用程序中的缺陷,也 会损坏文档。文档损坏是一种可以尽量减少,但是却很难完全避免的问题。当文档被损坏后,用户经常希望可以从该文档中找回未被损坏的部分,而不必重 新编辑全部文档内容。对于文字处理类型的文档,文本往往是其中比较重要的内容,而格式 和其它非文本信息往往相对不重要。因此,恢复文档中的文本比较重要。文本在文档中,一 般根据预定的字符集以字符编码的方式存储。字符集指特定字符的集合,分为单字符集(即单字节编码字符集)和多字符集 (双字节或多字节编码字符集)。单字符集主要包括ASCII,Latin-l等编码字符集,主要用 于英文等字母语言。多字符集主要包括GB2312,GBK, GB18030, Shit-JIS,IS02022等编码 字符集,主要用于中文、日文和韩国文等。微软的视窗操作系统,其核心用UTF-16编码,为 双字节编码,外层应用可以随着使用语言设置(locale)的不同而不同。比如中文Windows, 就可以用GB2312编码或者GB18030编码。用于存储信息的数据库也可以使用不同的编码。数据库系统软件安装时可以设定 一个默认编码,但是在建不同的数据库时可以指定成用户需要的编码。安装数据库系统软 件后,如建了两个数据库,一个用于处理员工信息,一个用于处理机器设备信息。员工信息 可以用GB2312编码或UTF-16编码以便支持中文,或者使用Shit-JIS编码以便支持日文。 机器设备信息可以使用ASCII编码,因为机器设备名称、IP地址等信息都是ASCII编码的。文本损坏的一个重要原因是字节丢失。放在硬盘、优盘等存储设备上的文档。受 到震动、复杂环境等不可预知的因素的影响,可能会导致文档的某些字节损坏而造成丢失 字节。数据库之间的文档复制,尤其是采用不同编码的数据库之间进行文档复制,也可 能造成字节丢失。例如,如果复制的缓存发生数据溢出,就会发生字节丢失。一个跨国公司 的多个协作服务器,由于需要支持不同国家中的英文、中文、日文和韩国文用户,其中的文 本采用单字节编码和双字节或多字节编码。在这种协作服务器系统之间同步或备份时,如果方法不当,发生溢出,可能会丢失字节。例如,一种使用多字节编码的数据库,每个字符的 编码字节数为1至3个。在拷贝一串字符时,使用了一个512个字节的缓冲区。当存满这 个缓冲区时,由于程序设计问题或内存分配问题,最后一个字符可能没有复制完整,即丢失 了字节。比如“ABC中国”这几个字,如果ABC各使用单字节编码,占用3个字节,中国两个 字采用三字节编码,分别需要占用三个字节。如果将上述编码的“ABC中国”存到一个最后 的8字节空间里,会导致最后一个字的最后一个字节丢失。不同文档格式或数据格式进行格式转换,尤其是不同编码的系统或应用之间对包 括文本的内容进行格式转换,也可能发生丢失字节。由于软硬件技术的发展,以及多年使用计算机处理各种信息,一些企业用户可能 积累了多种不同的文档,这些文档基于不同的软硬件系统。由于需要处理的情况复杂,在重 复利用这些积累的文档的过程中,文本中丢失字节的现象时有发生。因此,有必要针对上述不同的情况,采取必要的技术处理措施,以便尽可能恢复受 到损坏的文本。并且,需要一种机制,来检测涉及文本的处理,对该文本是否安全。
技术实现思路
鉴于已有技术的不足,本专利技术提供了一种对文本进行处理的方法,包括确定一文 本中的至少部分字符;利用所述至少部分字符作为分隔符,将所述文本划分为多个文本片 段;以及对所述多个文本片段分别进行译码。本专利技术还提供了一种对文本进行处理的系统,包括字符确定模块,用于确定一文 本中的至少部分字符;文本片段划分模块,用于利用所述至少部分字符作为分隔符,将所述 文本划分为多个文本片段;以及译码模块,用于对所述多个文本片段分别进行译码。上述对文本进行处理的方法和系统,可以将文本划分为多个片段,然后对每个片 段分别进行译码。这样,如果文本中存在乱码,可以进行有效的隔离。附图说明图1示出了根据本专利技术一实施例对文本进行处理的流程图。图2a、图2b示出了一文本发生乱码前后的示意图。图3示出了根据本专利技术另一实施例的对文本片段进行译码的流程图。图4示出了根据本专利技术另一实施例的用于对文本进行处理的流程图。图5示出了根据本专利技术另一实施例的用于确定文本受损坏程度的流程图。图6示出了根据本专利技术另一实施例的对文本进行处理的系统方框图。具体实施例方式以下参照按照本专利技术实施例的方法、装置描述本专利技术。其中,流程图和/或框图的 每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计 算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器, 从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生 实现流程图和/或框图中的方框中规定的功能/操作的装置(means)。也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置6以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包 括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means) 的制造品。还可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计 算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而 在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定 的功能/操作的过程。在本专利技术实施例的描述中,字符可以是字母、文字或标点符号中的一种或多种。对 于使用日文的情况,文本中的字符还可以是字母、平假名、片假名和汉字中的一种或多种。图1示出了根据本专利技术一实施例对文本进行处理的流程图。其中,示出了一种对 文本进行译码的方法100。在步骤S110,首先确定需要译码的文本中的至少部分字符。可 以通过字符的编码来确定文本中的字符。例如,可以通过字符的编码来识别文本中的字符, 并记录这些字符在所述文本中的位置。例如,“的”的GB2312编码为0xB50xC4,根据该编码 可以识别出文本中多个“的”,并记录每个“的”在文本中的存储位置。其中,所述至少部分 字符可以为至少部分标点符号。可以通过标点符号的编码来确定文本中的至少部分标点符 号。例如,可以通过标点符号的编码来识别文本中的至少部分标点符号,并记录每个标点符 号在所述文本中本文档来自技高网
...

【技术保护点】
一种对文本进行处理的方法,包括:确定一文本中的至少部分字符;利用所述至少部分字符作为分隔符,将所述文本划分为多个文本片段;以及对所述多个文本片段分别进行译码。

【技术特征摘要】

【专利技术属性】
技术研发人员:左志波李彬沙志强庞丽群
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1