相似度计算装置、记录介质以及相似度计算方法制造方法及图纸

技术编号:29873812 阅读:21 留言:0更新日期:2021-08-31 23:48
本发明专利技术提供一种相似度计算装置,即使在创建多个同义词组的情况下,也能够有效地实现术语的统一。相似度计算装置包括:名称获取部,获取属于第一同义词组的各个单词所属的第一组名称和属于第二同义词组的各个单词所属的第二组名称;名称集合生成部,生成第一组名称集合和第二组名称集合;以及相似度计算部,计算第一组名称集合与第二组名称集合之间的相似度。

【技术实现步骤摘要】
相似度计算装置、记录介质以及相似度计算方法
本申请说明书所公开的技术涉及相似度计算装置、相似度计算程序以及相似度计算方法。
技术介绍
以往,使用如下技术:例如以吸收文件内的表述偏差为目的,创建由多个同义词组成的同义词组(例如,参照专利文献1)。专利文献1:日本特开2016-224482号公报。然而,当使用专利文献1中所示的技术等创建同义词组时,有时会创建有相互相似的多个同义词组。在该情况下,由于存在多个可使用的同义词组,因而,难以统一术语。另一方面,用人工汇总这些同义词组的作业非常耗时。
技术实现思路
本申请说明书所公开的技术鉴于上述情况而提出,其是即使在创建有多个同义词组的情况下,也有效地实现术语的统一的技术。本申请说明书所公开的技术的第一方式的相似度计算装置,计算多个同义词组之间的相似度,其中,各个所述同义词组由相互为同义词的多个单词组成,所述相似度计算装置包括:名称获取部,获取至少一个第一组名称和至少一个第二组名称,所述第一组名称是属于多个所述同义词组中的第一同义词组的各个所述单词所属的所述同义词组的名称,所述第二组名称是属于多个所述同义词组中的第二同义词组的各个所述单词所属的所述同义词组的名称;名称集合生成部,生成以至少一个所述第一组名称为元素的第一组名称集合和以至少一个所述第二组名称为元素的第二组名称集合;以及相似度计算部,计算所述第一组名称集合与所述第二组名称集合之间的相似度。本申请说明书所公开的技术的第二方式的相似度计算装置与第一方式相关联,所述相似度计算装置还包括结合部,当所述相似度在阈值以上时,所述结合部将所述第一同义词组与所述第二同义词组结合。本申请说明书所公开的技术的第三方式的相似度计算装置与第一或第二方式相关联,所述相似度计算部使用Dice系数来计算所述相似度。本申请说明书所公开的技术的第四方式的相似度计算装置与第一至第三方式中的任一方式相关联,所述相似度计算部根据所述第一组名称集合中的能够获取的所述第一组名称只有一个的所述单词的个数,使所述第一组名称集合的元素个数增加,并且根据所述第二组名称集合中的能够获取的所述第二组名称只有一个的所述单词的个数,使所述第二组名称集合的元素个数增加。本申请说明书所公开的技术的第五方式的记录介质,存储有相似度计算程序是计算多个同义词组之间的相似度的相似度计算程序,各个所述同义词组由相互为同义词的多个单词组成,通过在计算机中安装所述相似度计算程序并执行,使所述计算机获取至少一个第一组名称和至少一个第二组名称,所述第一组名称是属于多个所述同义词组中的第一同义词组的各个所述单词所属的所述同义词组的名称,所述第二组名称是属于多个所述同义词组中的第二同义词组的各个所述单词所属的所述同义词组的名称,使所述计算机生成以至少一个所述第一组名称为元素的第一组名称集合和以至少一个所述第二组名称为元素的第二组名称集合,使所述计算机计算所述第一组名称集合与所述第二组名称集合之间的相似度。本申请说明书所公开的技术的第六方式的相似度计算方法,计算多个同义词组之间的相似度,其中,各个所述同义词组由相互为同义词的多个单词组成,所述相似度计算方法包括以下工序:获取至少一个第一组名称和至少一个第二组名称的工序,所述第一组名称是属于多个所述同义词组中的第一同义词组的各个所述单词所属的所述同义词组的名称,所述第二组名称是属于多个所述同义词组中的第二同义词组的各个所述单词所属的所述同义词组的名称;生成以至少一个所述第一组名称为元素的第一组名称集合和以至少一个所述第二组名称为元素的第二组名称集合的工序;以及计算所述第一组名称集合与所述第二组名称集合之间的相似度的工序。根据本申请说明书所公开的技术的第一方式至第六方式,即使在创建多个同义词组的情况下,也能够通过计算与同义词组对应的组名称集合之间的相似度,从而有效地实现术语的统一。另外,根据以下所示的详细说明和附图,进一步明确与本申请说明书所公开的技术相关的目的、特征、技术方案和优点。附图说明图1是表示与实施方式相关的相似度计算装置的硬件结构的例子的图。图2是表示与实施方式相关的相似度计算装置的功能结构的例子的图。图3是表示计算相似度的动作的例子的流程图。图4是表示某个单词所属的同义词组和属于该同义词组的单词的例子的图。附图标记的说明:10:名称获取部12:名称集合生成部14:相似度计算部16:结合部18:输入部20:输出部22:存储部100:相似度计算装置101:显示器102:CPU103:存储器104:HDD105:程序106:外部存储介质107:网络具体实施方式以下,参照附图来说明实施方式。在以下的实施方式中,虽然为了说明技术而示出了详细的特征等,但这些是示例性的,这些所有的特征并不都是为了能够实施实施方式的必要的特征。需要说明的是,附图是概略表示的图,为了便于说明,在附图中适当省略结构或者简化结构。另外,在不同的附图中分别示出的结构等的大小以及位置的相互关系未必被准确地记载,能够适当地进行变更。另外,即使在不是剖视图的俯视图等的附图中,为了容易理解实施方式的内容,有时也标注阴影线。另外,在以下的说明中,对相同的结构构件赋予相同的附图标记,这些构件的名称以及功能也相同。因此,为避免重复有时省略对这些构件的详细说明。另外,在以下记载的说明中,在记载为“具备”、“包括”或“具有”某结构构件等的情况下,只要没有特别说明,就不是将其他的结构构件的存在除外的排他性的表现。另外,在以下记载的说明中,即使在使用“第一”、“第二”等序数的情况下,这些术语也是为了容易理解实施方式的内容而使用的术语,并不限定于由这些序数产生的顺序等。<实施方式>以下,对与本实施方式相关的相似度计算装置、相似度计算程序以及相似度计算方法进行说明。<关于相似度计算装置的结构>图1是表示与本实施方式相关的相似度计算装置100的硬件结构的例子的图。如图1的例子所示,相似度计算装置100至少是安装有用于同义词组之间的相似度的计算动作的程序105的计算机,并且该相似度计算装置100具有:中央运算处理装置(centralprocessingunit,即CPU)102、存储器103、硬盘驱动器(Harddiskdrive,即HDD)104以及显示器101。在相似度计算装置100中,对应的程序105被安装在HDD104中。程序105的安装可以通过将从光盘(compactdisc,即CD)、数字多功能光盘(digitalversatiledisc,即DVD)、通用串行总线(universalserialbus,即USB)存储器等的外部存储介质106读取的数据写入HDD104来执行,或者通过将经由网络107接收到的数据写入HDD104来执行。<本文档来自技高网...

【技术保护点】
1.一种相似度计算装置,计算多个同义词组之间的相似度,其中,/n各个所述同义词组由相互为同义词的多个单词组成,/n所述相似度计算装置包括:/n名称获取部,获取至少一个第一组名称和至少一个第二组名称,所述第一组名称是属于多个所述同义词组中的第一同义词组的各个所述单词所属的所述同义词组的名称,所述第二组名称是属于多个所述同义词组中的第二同义词组的各个所述单词所属的所述同义词组的名称;/n名称集合生成部,生成以至少一个所述第一组名称为元素的第一组名称集合和以至少一个所述第二组名称为元素的第二组名称集合;以及/n相似度计算部,计算所述第一组名称集合与所述第二组名称集合之间的相似度。/n

【技术特征摘要】
20200228 JP 2020-0331911.一种相似度计算装置,计算多个同义词组之间的相似度,其中,
各个所述同义词组由相互为同义词的多个单词组成,
所述相似度计算装置包括:
名称获取部,获取至少一个第一组名称和至少一个第二组名称,所述第一组名称是属于多个所述同义词组中的第一同义词组的各个所述单词所属的所述同义词组的名称,所述第二组名称是属于多个所述同义词组中的第二同义词组的各个所述单词所属的所述同义词组的名称;
名称集合生成部,生成以至少一个所述第一组名称为元素的第一组名称集合和以至少一个所述第二组名称为元素的第二组名称集合;以及
相似度计算部,计算所述第一组名称集合与所述第二组名称集合之间的相似度。


2.如权利要求1所述的相似度计算装置,其中,
所述相似度计算装置还包括结合部,当所述相似度在阈值以上时,所述结合部将所述第一同义词组与所述第二同义词组结合。


3.如权利要求1或2所述的相似度计算装置,其中,
所述相似度计算部使用Dice系数来计算所述相似度。


4.如权利要求1或2所述的相似度计算装置,其中,
所述相似度计算部根据所述第一组名称集合中的能够获取的所述第一组名称只有一个的所述单词的个数,使所述第一组名称集合的元素个数增加,并且根据所述第二组名称集合中的能够获取的所述第二组名称只有一个的所述单词的个数,使所述第二组名称集合...

【专利技术属性】
技术研发人员:梅原光规粕渊清孝宫井清孝吉田明子北村一博寺田万理
申请(专利权)人:株式会社斯库林集团
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1