字符串处理方法以及设备技术

技术编号:2841180 阅读:185 留言:0更新日期:2012-04-11 18:40
公开了字符串处理方法以及设备,以提供对文档进行掩码的有效的方法。为了解决上述问题,作为第一个方面,说明了一种方法,包括下列步骤:将文档中的一个字符串解析为多个部分字符串;对于每一个部分字符串,计算包含部分字符串的出现频率的分数;向用户呈现部分字符串和分数;确定用户选择了哪些部分字符串;将所选择的部分字符串存储为安全的部分字符串列表;以及用预先确定的替换字符串替换部分字符串,但安全的部分字符串列表中存在的部分字符串除外。

【技术实现步骤摘要】

本专利技术涉及用不同的信息替换文档中的应该保密的信息的方法、设备和程序。
技术介绍
近年来,从个人信息保护的观点来看,需要加强用于对文档中的字符串进行掩码(替换)的技术。有一种公知的技术能够满足该需要。利用该技术,通过使用其中存储了应该进行掩码的字符串的词典,将被掩码的单词不会显示出来。例如,专利文件1采用了下列掩码技术。首先,基于词典,从输入的文档检测待掩码的部分。然后,将检测到的部分作为掩码结果的列表呈现给用户,以便让用户纠正该列表,经过纠正的列表的内容充当掩码主体部分。利用所描述的方法,存在这样的可能性有不能被检测到的掩码候选字符,因为呈现的单词只限于根据词典或规则检测到的字符串。换句话说,该方法是这样的一种技术根据该技术,获得最后的掩码候选字符,因为用户纠正由基于词典或规则进行的检测所引起的检测错误。此外,要想没有遗漏地对大量的文档执行掩码,随着文档的量增大,词典也会相应地变得更大。因此,工作效率会降低,因为用户需要纠正大量的检测错误。换句话说,在常规方法中,没有考虑到在没有遗漏地对大量文档执行掩码的情况下,能够在短时间内进行有效的掩码的文档掩码技术。日本专利申请出版物N本文档来自技高网...

【技术保护点】
一种处理文档中的字符串的方法,包括下列步骤:将文档中的一个字符串解析为多个部分字符串;对于每一个部分字符串,计算包含部分字符串的出现频率的分数;向用户呈现部分字符串和分数;确定用户选择了哪些部分字符串;将所选择的部分字符串存储为安全的部分字符串列表;以及用预先确定的替换字符串替换排除安全部分字符串列表中存在的部分字符串的部分字符串。

【技术特征摘要】
JP 2005-12-22 2005-3709701.一种处理文档中的字符串的方法,包括下列步骤将文档中的一个字符串解析为多个部分字符串;对于每一个部分字符串,计算包含部分字符串的出现频率的分数;向用户呈现部分字符串和分数;确定用户选择了哪些部分字符串;将所选择的部分字符串存储为安全的部分字符串列表;以及用预先确定的替换字符串替换排除安全部分字符串列表中存在的部分字符串的部分字符串。2.根据权利要求1所述的方法,其中,每一个部分字符串都是词素。3.根据权利要求1所述的方法,呈现步骤是根据分数的降序向用户呈现部分字符串和分数的步骤。4.根据权利要求1所述的方法,其中,计算步骤是通过在计算中包含部分字符串的出现频率和字符串长度,对于每一个部分字符串,计算分数的步骤。5.根据权利要求1所述的方法,其中,计算步骤是通过在计算中使用出现频率和字符串长度,以及数值形式的词类和数值形式的类别名称二者中的任何一个,对于每一个部分字符串计算分数,其中所述词类和类别名称都是字符串的,类别名称是字符串所属的组。6.根据权利要求1所述的方法,进一步包括,对于每一个部分字符串,计算部分字符串被视为有风险的字符串的...

【专利技术属性】
技术研发人员:伊川洋平金山博宅间大介
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1