表述不一致检测装置及表述不一致检测程序制造方法及图纸

技术编号:8659706 阅读:214 留言:0更新日期:2013-05-02 06:47
本发明专利技术提供表述不一致检测装置及表述不一致检测程序。实施方式的表述不一致检测装置具备:用语提取部,从文件数据中提取用语;类似度计算部,计算所提取的用语的任意的对的类似度;表述不一致候补判定部,基于类似度来判定用语的对是否是表述不一致候补;以及组分类部,基于作为表述不一致候补的用语的对所共通包含的文字列,对表述不一致候补进行分组。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的实施方式涉及表述不一致检测装置及表述不一致检测程序
技术介绍
一般,将相对于相同概念而存在多个表述(单词)的情况称为表述不一致。当在文件中存在该表述不一致时,在用户检索文件时、从文件中提取特定用语时等,即便是相同概念的用语,有时也无法适当地提取。此处,关于表述不一致,到目前为止存在各种技术。例如,存在如下方法从作为对象的文件中预先挑选认为是表述不一致候补的文字列而制作词典,基于该词典对表述不一致的候补的文字列进行检测。但是,在该方法中,需要预先通过人工来挑选表述不一致的候补等而制作词典,因此存在效率差这样的缺点。现有技术文献专利文献专利文献1:日本特开2005-35288号公报专利文件2 日本特开2006-53866号公报
技术实现思路
专利技术要解决的课题本专利技术要解决的课题在于,提供一种高精度地检测表述不一致候补的表述不一致检测装置。用于解决课题的手段实施方式的表述不一致检测装置具备用语提取部,从文件数据中提取用语;类似度计算部,计算所提取的用语的任意的对的类似度;表述不一致候补判定部,基于类似度来判定用语的对是否是表述不一致候补;以及组分类部,基于作为表述不一致候补的用语的对所共通包含的文字列,对表述不一致候补进行分组。附图说明图1是表示实施方式的表述不一致检测装置的整体结构的框图。图2是表示实施方式的表述不一致检测装置的表述不一致检测处理的一例的流程图。图3是表示实施方式的表述不一致检测装置的文件数据存储部所存储的文件数据的一例的模式图。图4是表示实施方式的表述不一致检测装置的用语提取部所提取的用语的一例的模式图。图5是表示实施方式的表述不一致检测装置的类似度计算部进行的类似度计算处理的一例的流程图。图6是表示由实施方式的表述不一致检测装置的类似度计算部计算出的类似度的一例的模式图。图7是表示由实施方式的表述不一致检测装置的类似度计算部计算出的类似度的一例的模式图。图8是实施方式的表述不一致检测装置的类似度加权部的加权信息的一例的模式图。图9是表示实施方式的表述不一致检测装置的表述不一致候补的一例的模式图。图10是表示实施方式的表述不一致检测装置的组解析部的组解析处理的一例的模式图。图11是表不实施方式的表述不一致检测装置的表述不一致候补的一例的模式图。图12是表示实施方式的表述不一致检测装置的输出部的一例的模式图。具体实施例方式以下,参照附图对本专利技术的实施方式进行说明。图1是表示本实施方式的表述不一致检测装置100的整体结构的框图。如图1所示,表述不一致检测装置100具备文件输入部1、用语提取部2、类似度计算部3、加权部4、表述不一致候补判定部5、组解析部6、表述不一致种类判定部7、输出数据生成部8、文件数据存储部10以及加权信息存储部11。通过文件输入部I来输入作为检测表述不一致的对象的文件数据。文件输入部I例如是键盘、鼠标,从存储于文件数据存储部10的文件数据中选择检测对象的文件数据。存储于文件数据存储部10的文件数据与该文件数据的种类建立对应地存储。文件数据的种类例如是“合同书”、“规章”、“法令文书”、“新闻报道”等。S卩,从文件输入部I输入表述不一致检测对象的文件数据和该文件数据的种类。另外,也可以从文件输入部I直接地输入文件数据和该文件数据的种类。用语提取部2从所输入的文件数据中提取用语(此处意味着单词、复合词)。本实施方式的用语提取部2通过多种提取方法来提取用语。类似度计算部3计算所提取的用语组中的两个用语的类似度。另外,基于编辑距离来进行类似度的计算。编辑距离是表示两个文字列多大程度不同的数值。此外,关于编辑距离以及类似度的计算将在后面加以叙述。加权部4基于存储于加权信息存储部11的加权信息来进行加权处理,该加权处理为,对由类似度计算部3计算出的类似度进行按照每个文件数据的种类的加权。另外,关于加权处理的详细情况将在后面加以叙述。表述不一致候补判定部5基于加权后的类似度,来判定所提取的用语组中的两个用语是否是表述不一致候补。组解析部6基于所判定的表述不一致候补组的共通的文字列和类似度,对表述不一致候补的组进行解析并分类。表述不一致种类判定部7对各表述不一致的候补的表述不一致的种类进行判定,并进行表述不一致判定处理。表述不一致检测部检测出的表述不一致候补被从输出部8输出。该输出部8例如是液晶显示器等显示装置。此处,参照图2至图12对表述不一致检测装置100的表述不一致检测处理进行说明。图2是表示表述不一致检测装置100的表述不一致检测处理的一例的流程图。首先,用户使用表述不一致检测装置100的文件数据输入部1,从文件数据存储部10输入表述不一致检测对象的文件数据(步骤S10)。图3表示作为所输入的文件数据的一例的文件数据101。如图3所示,文件数据101包含文件种类102和文件数据主体103。文件数据101的文件种类102在此处的说明中作为一例而举出“规章”。当输入了文件数据101时,用语提取部2从文件数据101中进行用语的提取(步骤S20)。用语提取部2的用语提取例如通过语态素分析、字面分析等方法来进行。此处,用语提取部2通过两种提取方法“提取方法A”以及“提取方法B”来分别进行用语提取。图4表示用语提取部2的用语提取结果,如图4所示那样,用语提取部2通过规定的提取方法将用语和表示该用语的提取位置的文件数据的行编号建立对应地提取。图4(a)是表不通过提取方法(A)提取的用语的提取用语表201,图4(b)是表不通过提取方法(B)提取的用语的提取用语表202。提取用语表201以及202包含用语ID栏、用语栏204、行编号栏205以及提取方法栏206。在用语ID栏203中存储有提取用语的识别符。在用语栏204中存储有由用语提取部2提取的用语。在行编号栏205中存储有用语栏204的用语被提取的行编号。在提取方法栏206中存储有由用语提取部2提取用语时的提取方法。另外,在用语提取时,也可以对每个提取的用语赋予提取源的文件名、词类的信息等。接着,类似度计算部3从所提取的用语中选择任意两个用语,并计算所选择的两个用语的类似度(步骤S30)。此处,参照图5对类似度计算部3的类似度计算处理的一例进行说明。首先,在类似度计算部3中根据用语提取部2的提取结果来选择两个用语(步骤S31)。另外,在用语提取部2通过多种提取方法提取了用语的情况下,从通过相同的用语提取方法来提取的用语中选择两个用语。类似度计算部3计算所选择的两个用语的编辑距离(步骤S32)。编辑距离是表示两个文字列多大程度不同的数值,例如基于为了对两个用语中的一方进行编辑而使其与另一方的用语一致而进行的操作的次数来计算。作为操作例如能够举出删除、置换、插入等。将这些操作的每一次操作的成本预先设定为“1”,对一方的用语进行操作,将对到其与另一方的用语成为相同的用语为止的成本进行了合计的值设为编辑距离。另外,在本实施方式中,对每个操作的种类的成本进行设定而计算编辑距离。例如,将置换的操作中的、表述不一致的可能性较高的“全角/半角”、“平假名/片假名”、“大写字母/小写字母”等文字种类置换的成本设为“O.1”。这样,通过预先设定每个操作的成本,能够提高表述不一致检测的精度。类似度计算部3使用所计算出的编辑距离来计算两个用语的类本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2011.06.08 JP 2011-1287311.一种表述不一致检测装置,具备: 用语提取部,从文件数据中提取用语; 类似度计算部,计算所述提取的用语的任意的对的类似度; 候补判定部,基于所述类似度来判定所述用语的对是否是表述不一致候补;以及组分类部,基于作为所述表述不一致候补的所述用语的对所共通包含的文字列,对所述表述不一致候补进行分组。2.一种表述不一致检测装置,具备: 用语提取部,从文件数据中提取用语; 类似度计算部,对所述提取的用语的任意的对进行包含文字种类置换的操作,基于所述操作的次数来计算编辑距离,并基于所述编辑距离来计算类似度;以及 表述不一致候补判定部,基于所述类似度来判定所述用语的对是否是表述不一致候补。3.如权利要求1所述的表述不一致检测装置,其中, 所述类似度计算部为,通过对所述提取的用语的对的一方的用语反复应用置换、删除、插入或者文字种类置换的操作,由此求出编辑距离,并计算类似度。4.如权利要求2所述的表 述不一致检测装置,其中, 还具备组分类部,该组分类部基于作为所述表述不一致候补的所述用语的对所共通包含的文字列,对所述表述不一致候补进行分组。5.一种表述不一致检测程序,用于表述不一致检测装置,该表述不一致检测装置具备:用语提取部,从文件数据中提取用语;类似度计算部,使用所述提取的用语的任意的对来计算类似度;表...

【专利技术属性】
技术研发人员:小林干门篠崎政久加纳敏行斋藤佳美
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1