内容处理装置、内容处理方法以及内容处理程序制造方法及图纸

技术编号:4569104 阅读:226 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种经隐藏的事实和被隐藏的信息不易被阅读者推测出、并且能够获得具有与隐藏前的原内容的信息相近的自然的信息的内容的内容处理技术。内容处理装置包括:检索单元13,检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;计算单元14,计算表示由检索单元13所获得的内容中的每一个内容和内容中要隐藏的部分之间不相似的程度的非相似度;以及选择单元15,基于由计算单元14算出的非相似度从由检索单元13检索到的内容中选择与要隐藏的部分最不相似的内容。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及隐藏内容(content)的特定部分的内容处理技术,特别是 涉及经隐藏的事实以及被隐藏的信息不易被阅读者推测出、并且能够获得 具有与隐藏前的原信息相近的自然的信息的内容。
技术介绍
从提高业务效率和生产能力的观点来看,企业有时将业务委托给交易 户或相关公司等外部公司,即进行所谓的外包。在这种情况下,当在向交 易户委托开发业务等时,很多时候向承包方提供需求规范(requirements difmition documents)或说明书(specifications)等机密文件并请求合作开 发。在这种情况下,就委托方的企业来说, 一方面可确保人力资源以縮短 开发交货时间,但另一方面由于向公司外部提供文档和照片等机密性高的 信息(下面,也称为机密内容)而存在信息外泄的风险。因此,每当向公 司外部提供包含重要的开发信息的机密内容时,企业将采取以签保密协议 为主的各种措施。例如,作为向公司外部提供作为机密内容的机密文档时的通常的案 例,有将不想向公司外部公开的关键词替换成其它的字符串(或文字串) 以进行隐藏的方法。或者,有时采取如下方法代替向承包方提供包含企业秘密的信息的 说明书,而是获得与该说明书的数据相近的相似文档,并公开所获得的相 似文档和原来的说明书之间的差异。作为在这种情况下检索与某文档具有 相同信息或相似信息的文档的相似文档检索技术,例如有专利文件1中公 开的技术。专利文件1的专利技术公开了着眼于文本信息的相似性的相似检索技术。具体来说,专利文件1公开了以下技术当作为检索条件例示了内容的文 档时,分别对包含在例示的文档中的文本信息等的特征信息和包含在所存 储的文档中的文本信息等的特征信息进行比较,向比较结果乘以权重算出 综合评价值来作为文档级别的相似度,然后作为检索结果,按照相似度从 高到低的顺序输出文档。专利文件1:日本专利文件特开2000-148793号公报。
技术实现思路
然而,例如每当将作为机密内容的机密文档向公司外部公开时,上述 传统的方法存在以下的问题。第一个问题是,由于字符串的替换导致文档整体的意思不清楚,有时 无法向阅读者很好地传达开发的要点。第二个问题是,对机密文档进行了隐藏处理的事情本身容易被猜到。 这样的事情虽然不至于影响委托方和受委托方之间的相互信赖关系,但如 果考虑完成开发业务的过程中的顺畅的沟通则不能说是优选的。第三个问题是,可能从前后文的连贯性推测出被隐藏的关键词。然而,专利文档1的技术只检索相似的文档,无法应对隐藏文档中的 特定部分的问题。因此未能解决上述的问题。并且,在其他传统的技术中,也没有找到能够隐藏特定部分、并能够 提供对于阅读者来说自然的文档的技术,未能克服上述的问题。其结果 是,每当向承包方提供机密文档时,大多数情况下不得不通过人工操作重 新制作文档,需要很多精力和时间。因此,本专利技术所要解决的问题是,提供一种经隐藏的事实以及被隐藏 的信息不易被阅读者推测出、并且能够获得具有与隐藏前的原内容的信息 相近的自然的信息的内容的内容处理技术。解决上述问题的本专利技术是一种内容处理装置,其特征在于,包括检索单元,所述检索单元检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;以及计算单元,所述计算单元计算非相似度,所述非相似度表示由所述检索单元获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度。另外,解决上述问题的本专利技术是一种内容处理方法,其特征在于,包 括检索步骤,检索具有与原内容中除要隐藏的部分之外的部分的信息相 似的信息的内容;计算步骤,计算非相似度,所述非相似度表示通过所述 检索步骤所获得的内容中的每一个内容与所述原内容的要隐藏的部分之间 不相似的程度;以及选择步骤,基于通过所述计算步骤算出的非相似度,从通过所述检索步骤检索到的内容中选择与所述要隐藏的部分不相似的程度大的内容。另外,解决上述问题的本专利技术是一种信息处理装置的程序,其特征在于,所述程序使信息处理装置执行检索处理,检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;计算处理,计算非相似度,所述非相似度表示通过所述检索处理所获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度;以及选择处理,基于通过 所述计算处理算出的非相似度,从通过所述检索处理检索到的内容中选择 与所述要隐藏的部分不相似的程度大的内容。 专利技术效果根据本专利技术,能够提供经隐藏的事实以及被隐藏的信息不易被阅读者 推测出、并且能够获得具有与隐藏前的原内容的信息相近的自然的信息的 文档。这是因为本专利技术如下构成的缘故,即检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容,计算表示通过所述检索所获 得的内容与内容的要隐藏的部分之间不相似的程度的非相似度,并基于该计算结果,能够选择用于代替包含有要隐藏的部分的内容的内容。 附图说明图1是示出本专利技术第一实施方式的结构的框图2是示出本专利技术第一实施方式中的处理的流程图3是示出本专利技术第二实施方式的结构的框图4是示出本专利技术第一实施方式中的文档处理例的9图5是示出本专利技术第二实施方式中的文档处理例的图。标号说明00211文档处理装置IO文档数据库ll输入部12指定部13检索部14非相似度计算部15选择部16输出部20计算距离用的数据库 24非相似度计算部具体实施例方式说明本专利技术的第一实施方式。下面,在以文档作为内容的例子、并假定本专利技术的内容处理装置是文 档处理装置的情况下进行说明。图1是示出第一实施方式涉及的文档处理装置的整体结构的图。 附图标号1为文档处理装置,其与存储有文档的文档数据库10连接。文档处理装置1具有输入部11、指定部12、检索部13、非相似度计 算部14、选择部15、输出部16。输入部11是输入文档的部分,例如是扫描仪等。指定部12是用于指定在所输入的文档中想要隐藏的部分的指示设 备,例如是鼠标等。检索部13用于检索具有与作为原内容的文档中除要隐藏的部分(想 要隐藏的部分)之外的部分的信息相似的信息的文档。具体来说,从数据库10中检索一个或多个相似文档,该一个或多个相似文档具有与所输入 的文档中除要隐藏的部分之外的部分的信息相似的信息。具有与文档中除 要隐藏的部分之外的部分的信息相似的信息的文档是指具有与要隐藏的部 分之外的部分的信息实质上相同的信息的文档。具体来说,预先确定容许 的相似度,并只检索超过该相似度的文档。非相似度计算部14计算非相似度,该非相似度表示通过检索部13进 行检索的结果而得的相似文档与由指定部12指定的部分(要隐藏的部 分)的文档之间不相似的程度。具体来说,非相似度计算部14计算文档 之间的欧几里德(Euclidean)距离来作为非相似度。选择部15基于由非相似度计算部14算出的非相似度,选择与要隐藏 的部分最不相似的文档作为输出对象文档。具体来说,从检索到的多个相 似文档中选择非相似度最大的文档。输出部16输出由选择部15选中的文档。文档数据库IO是由检索部13作为检索对象的文档数据库。其中存储 有作为输出对象的文档。该文档数据库10是预先备好的公司内部的数据 库,但也可以被构成为检索因特网上公开的WEB上的文档的数据库。接下来,参考图1的框图以及图2的流程图,对如上构成的文档处理本文档来自技高网
...

【技术保护点】
一种内容处理装置,其特征在于,包括: 检索单元,所述检索单元检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;以及 计算单元,所述计算单元计算非相似度,所述非相似度表示由所述检索单元获得的内容中的每一个内容与所述 原内容的要隐藏的部分之间不相似的程度。

【技术特征摘要】
【国外来华专利技术】JP 2007-4-27 119393/20071.一种内容处理装置,其特征在于,包括检索单元,所述检索单元检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;以及计算单元,所述计算单元计算非相似度,所述非相似度表示由所述检索单元获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度。2. 如权利要求1所述的内容处理装置,其特征在于,所述检索单元基于预先设定的容许的相似度来检索超过所述相似度的 内容,由此检索具有与除要隐藏的部分之外的部分的信息实质上相同的信息的内容。3. 如权利要求1或2所述的内容处理装置,其特征在于, 还包括选择单元,所述选择单元基于由所述计算单元算出的非相似度从由所述检索单元检索到的内容中选择与所述要隐藏的部分最不相似的内 容。4. 如权利要求1至3中任一项所述的内容处理装置,其特征在于, 所述内容为文档,所述计算单元计算由所述检索单元进行检索的结果而得的文档与包含 在所述要隐藏的部分中的文档之间的欧几里德距离,作为所述非相似度。5. 如权利要求1至3中任一项所述的内容处理装置,其特征在于, 所述内容处理装置具有包含单词的统计信息的计算距离用的数据库, 所述计算单元参考所述计算距离用的数据库,计算包含在由所述检索单元进行检索的结果而得的文档中的单词与包含在所述要隐藏的部分的文 档中的单词之间的各个共现频率的总和或者互信息量的总和,作为非相似 度。6. 如权利要求1至3中任一项所述的内容处理装置,其特征在于, 具有词库,该词库作为所述计算距离用的数据库,所述计算单元参考所述词库,计算包含在由所述检索单元进行检索的结果而得的相似文档中的单词与包含在所述被输入的文档中的被指定的范 围内的单词在词库上的距离的总和,作为非相似度。7. 如权利要求1至3中任一项所述的内容处理装置,其特征在于, 所述计算单元被构成为计算包含在由所述检索单元进行检索的结果而得的文档中的单词或字符串的出现频率和进行所述检索的结果而得的文档 的出现时刻中的至少一个,并基于所述计算的结果对所述非相似度进行修 正。8. 如权利要求7所述的内容处理装置,其特征在于, 在所述计算单元中对非相似度进行的修正是将算出的出现频率加到所述非相似度上的修正。9. 如权利要求7或8所述的内容处理装置,其特征在于, 在所述计算单元中对非相似度进行的修正是计算所算出的出现时刻和当前时刻的差值、并将与该差值相应的权重值加到所述非相似度上的修 正。10. 如权利要求1至9中任一项所述的内容处理装置,其特征在于, 具有用于指定被输入的文档中的要隐藏的部分的指定单元。11. 如权利要求IO所述的内容处理装置,其特征在于, 所述指定单元被构成为,在文档格式已预先定义的情况下,指定被输入到所述文档格式的预定位置的文档、单词或者词串。12. 如权利要求1至3中任一项所述的内容处理装置,其特征在于, 所述内容为图像,所述计算单元计算由所述检索单元进行检索的结果而得的图像的数据 与包含在所述要隐藏的部分中的图像数据之间的差量,作为所述非相似 度。13. —种内容处理方法,其特征在于,包括检索步骤,检索具有与原内容中除要隐藏的部分之外的部分的信息相 似的信息的内容;计算步骤,计算非相似度,所述非相似度表示通过所述检索步骤所获 得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度;以及选择步骤,基于通过所述计算步骤算出的非相似度,从通过所述检索 步骤检索到的内容中选择与所述要隐藏的部分不相似的程度大的内容。14. 如权利要求13所述的内容处理方法...

【专利技术属性】
技术研发人员:花泽健岩垂正宏平田恭二
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1