含义关系学习装置、含义关系学习方法及含义关系学习程序制造方法及图纸

技术编号:29802253 阅读:17 留言:0更新日期:2021-08-24 18:24
含义关系学习装置(1)具备:负例数据生成部(12),其通过将构成多个正例数据对的语言数据组合而生成多个负例数据对;特征量提取部(13),其从分别构成负例数据对的语言数据中提取特征量;相似度计算部(14),其计算各个负例数据对的特征量之间的相似度;学习用负例数据生成部(15),其基于相似度,将多个负例数据对分类为预先决定的多个相似度范围,由此生成与多个相似度范围对应的多个学习用负例数据集;学习数据集选择部(17),其以按照基于多个相似度范围而预先决定的选择计划的顺序,选择多个学习用负例数据集中的任意的学习用负例数据集;以及学习处理部(18),其使用选择出的学习用负例数据集和多个正例数据对来进行机器学习处理。

【技术实现步骤摘要】
【国外来华专利技术】含义关系学习装置、含义关系学习方法及含义关系学习程序
本专利技术涉及进行机器学习的含义关系学习装置、以及为了进行机器学习而使用的含义关系学习方法及含义关系学习程序。
技术介绍
由于个人电脑及因特网的普及,用户能够访问的电子化数据的量增大。因此,谋求一种用于从大规模的电子化数据中有效地发现所希望的数据的技术。在自然语言处理的领域中,为了检索替换句(即,含义上等效的句子),使用如下的学习装置:预先通过手动而生成处于同义关系的文本对即正例和不处于同义关系的文本对即负例来作为示教数据,使用生成的示教数据,统计性地对文本间的含义关系进行机器学习。如果使用该机器学习的结果,则能够检索和估计与所输入的文本处于同义关系的文本。例如,专利文献1提出了一种进行文中包含的谓语的同义判定处理的装置。该装置将相互具有相同含义的谓语(即,相互处于同义关系的文本例)的对作为正例,将相互具有不同含义的谓语(即,相互不处于同义关系的文本例)的对作为负例,将正例和负例作为示教数据进行机器学习处理,其结果是,取得用于同义判定处理的判定用模型。现有技术文献专利文献专利文献1:日本特开2014-119988号公报
技术实现思路
专利技术要解决的问题但是,在上述装置进行的机器学习处理所使用的负例中,未区分具有非常接近正例的含义的负例和具有非常远离正例的含义的负例。即,在负例的整体中,认为混合有具有非常接近正例的含义的负例和具有非常远离正例的含义的负例。因此,通过将这样的负例作为示教数据的机器学习处理,难以得到可实现良好的含义关系的判别的判别用模型。本专利技术是为了解决上述现有技术的问题而完成的,其目的在于,提供一种能够进行可实现良好的含义关系的判别的机器学习处理的含义关系学习装置、以及为了进行可实现良好的含义关系的判别的机器学习处理而使用的含义关系学习方法及含义关系学习程序。用于解决问题的手段本专利技术的一方案的含义关系学习装置的特征在于,具备:负例数据生成部,其从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,所述负例数据生成部通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;特征量提取部,其从分别构成所述多个负例数据对的所述语言数据中提取特征量;相似度计算部,其计算所述多个负例数据对各自的所述特征量之间的相似度;学习用负例数据生成部,其基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;学习数据集选择部,其以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及学习处理部,其使用由所述学习数据集选择部选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。本专利技术的一方案的含义关系学习方法的特征在于,具有:负例数据生成步骤,从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;提取步骤,从分别构成所述多个负例数据对的所述语言数据中提取特征量;计算步骤,计算所述多个负例数据对各自的所述特征量之间的相似度;学习用负例数据生成步骤,基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;选择步骤,以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及学习步骤,使用选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。专利技术的效果根据本专利技术,能够进行可实现良好的含义关系的判别的机器学习处理。附图说明图1是概要地示出本专利技术的实施方式1的含义关系学习装置的结构的功能框图。图2是示出实施方式1的含义关系学习装置的硬件结构的例子的图。图3是示出实施方式1的含义关系学习装置的动作的流程图。图4是示出实施方式1中的负例数据生成部的动作的流程图。图5是示出实施方式1中的特征量提取部的动作的流程图。图6是示出实施方式1中的相似度计算部的动作的流程图。图7是示出实施方式1中的学习用负例数据生成部的动作的流程图。图8是示出实施方式1中的学习数据选择部的动作的流程图。图9是示出实施方式1中的学习处理部的动作的流程图。图10是概要地示出本专利技术的实施方式2的含义关系学习装置的结构的功能框图。图11是示出实施方式2的含义关系学习装置的动作的流程图。图12是示出实施方式2中的负例数据生成部的动作的流程图。图13是示出实施方式2中的特征量提取部的动作的流程图。图14是示出实施方式2中的相似度计算部的动作的流程图。图15是示出实施方式2中的学习用负例数据生成部的动作的流程图。具体实施方式以下,参照附图对本专利技术的实施方式的含义关系学习装置、含义关系学习方法及含义关系学习程序进行说明。另外,以下的实施方式只不过是例子,在本专利技术的范围内能够进行各种变更。实施方式的含义关系学习装置是能够设置于含义关系判别装置的学习装置,该含义关系判别装置具备进行含义关系的判别处理的含义关系判别部。实施方式的含义关系学习方法是用于取得在含义关系的判别处理中使用的含义关系判别用模型的学习方法。实施方式的含义关系学习程序是用于取得在含义关系的判别处理中使用的含义关系判别用模型的软件程序。《1》实施方式1.《1-1》实施方式1的结构.图1是概要地示出本专利技术的实施方式1的含义关系学习装置1的结构的功能框图。如图1所示,含义关系学习装置1是能够实施实施方式1的含义关系学习方法的装置。如图1所示,含义关系学习装置1具备负例数据生成部12、特征量提取部13、相似度计算部14、学习用负例数据生成部15、学习数据集选择部17、以及学习处理部18。此外,含义关系学习装置1也可以具备正例数据存储部11和学习用负例数据存储部16。正例数据存储部11存储有多个正例数据对(以下也称为“正例”。)A11。多个正例数据对分别由与相互处于预先决定的含义关系的语言相关的数据(以下也称为“语言数据”。)构成。在实施本文档来自技高网...

【技术保护点】
1.一种含义关系学习装置,其特征在于,/n所述含义关系学习装置具备:/n负例数据生成部,其从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,所述负例数据生成部通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;/n特征量提取部,其从分别构成所述多个负例数据对的所述语言数据中提取特征量;/n相似度计算部,其计算所述多个负例数据对各自的所述特征量之间的相似度;/n学习用负例数据生成部,其基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;/n学习数据集选择部,其以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及/n学习处理部,其使用由所述学习数据集选择部选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。/n...

【技术特征摘要】
【国外来华专利技术】1.一种含义关系学习装置,其特征在于,
所述含义关系学习装置具备:
负例数据生成部,其从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,所述负例数据生成部通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;
特征量提取部,其从分别构成所述多个负例数据对的所述语言数据中提取特征量;
相似度计算部,其计算所述多个负例数据对各自的所述特征量之间的相似度;
学习用负例数据生成部,其基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;
学习数据集选择部,其以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及
学习处理部,其使用由所述学习数据集选择部选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。


2.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是相互处于同义关系的语言数据,
不处于所述预先决定的含义关系的所述语言数据是相互不处于同义关系的语言数据,
所述学习用负例数据生成部基于所述相似度,将所述多个负例数据对分类为预先决定的多个相似度范围,由此生成所述多个学习用负例数据集。


3.根据权利要求2所述的含义关系学习装置,其特征在于,
所述学习数据集选择部将所述选择计划决定为,当设n为1以上的整数时,将与所述多个相似度范围中的第n低的值的相似度范围对应的学习用负例数据集选择为第n个。


4.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是表示提问句的语言数据和表示回答句的语言数据,
不处于所述预先决定的含义关系的所述语言数据是表示提问句的第1语言数据和表示提问句的第2语言数据、或者表示回答句的第3语言数据和表示回答句的第4语言数据,
所述学习用负例数据生成部基于所述相似度,将根据所述多个负例数据对和所述多个正例数据对生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此,生成所述多个学习用负例数据集。


5.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是表示提问句的语言数据和表示回答句的语言数据,
不处于所述预先决定的含义关系的所述语言数据是表示提问句的第1语言数据和表示提问句的第2语言数据、或者表示回答句的第3语言数据和表示回答句的第4语言数据,
所述学习用负例数据生成部通过利用所述多个负例数据对中的任意的负例数据对的所述第1语言数据或所述第2语言数据来置换所述多个正例数据对各自的提问句数据,或者利用所述多个负例数据对中的任意的负例数据对的所述第3语言数据或所述第4语言数据来置换所述多个正例数据对各自的回答句数据,从而将生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此,生成所述多个学习用负例数据集。


6.根据权...

【专利技术属性】
技术研发人员:内出隼人
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1