表述不一致检测装置及表述不一致检测程序制造方法及图纸

技术编号：8659706 阅读：214 留言：0更新日期：2013-05-02 06:47

本发明专利技术提供表述不一致检测装置及表述不一致检测程序。实施方式的表述不一致检测装置具备：用语提取部，从文件数据中提取用语；类似度计算部，计算所提取的用语的任意的对的类似度；表述不一致候补判定部，基于类似度来判定用语的对是否是表述不一致候补；以及组分类部，基于作为表述不一致候补的用语的对所共通包含的文字列，对表述不一致候补进行分组。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的实施方式涉及表述不一致检测装置及表述不一致检测程序。
技术介绍
一般，将相对于相同概念而存在多个表述(单词)的情况称为表述不一致。当在文件中存在该表述不一致时，在用户检索文件时、从文件中提取特定用语时等，即便是相同概念的用语，有时也无法适当地提取。此处，关于表述不一致，到目前为止存在各种技术。例如，存在如下方法从作为对象的文件中预先挑选认为是表述不一致候补的文字列而制作词典，基于该词典对表述不一致的候补的文字列进行检测。但是，在该方法中，需要预先通过人工来挑选表述不一致的候补等而制作词典，因此存在效率差这样的缺点。现有技术文献专利文献专利文献1:日本特开2005-35288号公报专利文件2 日本特开2006-53866号公报
技术实现思路
专利技术要解决的课题本专利技术要解决的课题在于，提供一种高精度地检测表述不一致候补的表述不一致检测装置。用于解决课题的手段实施方式的表述不一致检测装置具备用语提取部，从文件数据中提取用语；类似度计算部，计算所提取的用语的任意的对的类似度；表述不一致候补判定部，基于类似度来判定用语的对是否是表述不一致候补；以及组分类部，基于作为表述不一致候补的用语的对所共通包含的文字列，对表述不一致候补进行分组。附图说明图1是表示实施方式的表述不一致检测装置的整体结构的框图。图2是表示实施方式的表述不一致检测装置的表述不一致检测处理的一例的流程图。图3是表示实施方式的表述不一致检测装置的文件数据存储部所存储的文件数据的一例的模式图。图4是表示实施方式的表述不一致检测装置的用语提取部所提取的用语的一例的模式图。图5是表示实施方式的...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2011.06.08 JP 2011-1287311.一种表述不一致检测装置，具备: 用语提取部，从文件数据中提取用语；类似度计算部，计算所述提取的用语的任意的对的类似度；候补判定部，基于所述类似度来判定所述用语的对是否是表述不一致候补；以及组分类部，基于作为所述表述不一致候补的所述用语的对所共通包含的文字列，对所述表述不一致候补进行分组。2.一种表述不一致检测装置，具备: 用语提取部，从文件数据中提取用语；类似度计算部，对所述提取的用语的任意的对进行包含文字种类置换的操作，基于所述操作的次数来计算编辑距离，并基于所述编辑距离来计算类似度；以及表述不一致候补判定部，基于所述类似度来判定所述用语的对是否是表述不一致候补。3.如权利要求1所述的表述不一致检测装置，其中，所述类似度计算部为，通过对所述提取的用语的对的一方的用语反复应用置换、删除、插入或者文字种类置换的操作，由此求出编辑距离，并计算类似度。4.如权利要求2所述的表述不一致检测装置，其中，还具备组分类部，该组分类部基于作为所述表述不一致候补的所述用语的对所共通包含的文字列，对所述表述不一致候补进行分组。5.一种表述不一致检测程序，用于表述不一致检测装置，该表述不一致检测装置具备:用语提取部，从文件数据中提取用语；类似度计算部，使用所述提取的用语的任意的对来计算类似度；表...

【专利技术属性】
技术研发人员：小林干门，篠崎政久，加纳敏行，斋藤佳美，
申请(专利权)人：株式会社东芝，东芝解决方案株式会社，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人