【技术实现步骤摘要】
【国外来华专利技术】含义关系学习装置、含义关系学习方法及含义关系学习程序
本专利技术涉及进行机器学习的含义关系学习装置、以及为了进行机器学习而使用的含义关系学习方法及含义关系学习程序。
技术介绍
由于个人电脑及因特网的普及,用户能够访问的电子化数据的量增大。因此,谋求一种用于从大规模的电子化数据中有效地发现所希望的数据的技术。在自然语言处理的领域中,为了检索替换句(即,含义上等效的句子),使用如下的学习装置:预先通过手动而生成处于同义关系的文本对即正例和不处于同义关系的文本对即负例来作为示教数据,使用生成的示教数据,统计性地对文本间的含义关系进行机器学习。如果使用该机器学习的结果,则能够检索和估计与所输入的文本处于同义关系的文本。例如,专利文献1提出了一种进行文中包含的谓语的同义判定处理的装置。该装置将相互具有相同含义的谓语(即,相互处于同义关系的文本例)的对作为正例,将相互具有不同含义的谓语(即,相互不处于同义关系的文本例)的对作为负例,将正例和负例作为示教数据进行机器学习处理,其结果是,取得用于同义判定处理的判定用模型。现有技术文献专利文献专利文献1:日本特开2014-119988号公报
技术实现思路
专利技术要解决的问题但是,在上述装置进行的机器学习处理所使用的负例中,未区分具有非常接近正例的含义的负例和具有非常远离正例的含义的负例。即,在负例的整体中,认为混合有具有非常接近正例的含义的负例和具有非常远离正例的含义的负例。因此,通过将这样的负例作为示教数据的机器学习处理, ...
【技术保护点】
1.一种含义关系学习装置,其特征在于,/n所述含义关系学习装置具备:/n负例数据生成部,其从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,所述负例数据生成部通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;/n特征量提取部,其从分别构成所述多个负例数据对的所述语言数据中提取特征量;/n相似度计算部,其计算所述多个负例数据对各自的所述特征量之间的相似度;/n学习用负例数据生成部,其基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;/n学习数据集选择部,其以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及/n学习处理 ...
【技术特征摘要】
【国外来华专利技术】1.一种含义关系学习装置,其特征在于,
所述含义关系学习装置具备:
负例数据生成部,其从存储有多个正例数据对的正例数据存储部取得所述多个正例数据对,所述多个正例数据对分别由相互处于预先决定的含义关系的语言数据构成,所述负例数据生成部通过将所述语言数据组合而生成多个负例数据对,所述多个负例数据对分别由相互不处于所述预先决定的含义关系的语言数据构成;
特征量提取部,其从分别构成所述多个负例数据对的所述语言数据中提取特征量;
相似度计算部,其计算所述多个负例数据对各自的所述特征量之间的相似度;
学习用负例数据生成部,其基于所述相似度将所述多个负例数据对分类为预先决定的多个相似度范围,或者基于所述相似度将根据所述多个负例数据对和所述多个正例数据对而生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此生成与所述多个相似度范围对应的多个学习用负例数据集,所述多个学习用负例数据集分别包含所述多个负例数据对中的1个以上的负例数据对;
学习数据集选择部,其以按照基于所述多个相似度范围而预先决定的选择计划的顺序,选择所述多个学习用负例数据集中的任意的学习用负例数据集;以及
学习处理部,其使用由所述学习数据集选择部选择出的所述学习用负例数据集和所述多个正例数据对来进行机器学习处理。
2.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是相互处于同义关系的语言数据,
不处于所述预先决定的含义关系的所述语言数据是相互不处于同义关系的语言数据,
所述学习用负例数据生成部基于所述相似度,将所述多个负例数据对分类为预先决定的多个相似度范围,由此生成所述多个学习用负例数据集。
3.根据权利要求2所述的含义关系学习装置,其特征在于,
所述学习数据集选择部将所述选择计划决定为,当设n为1以上的整数时,将与所述多个相似度范围中的第n低的值的相似度范围对应的学习用负例数据集选择为第n个。
4.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是表示提问句的语言数据和表示回答句的语言数据,
不处于所述预先决定的含义关系的所述语言数据是表示提问句的第1语言数据和表示提问句的第2语言数据、或者表示回答句的第3语言数据和表示回答句的第4语言数据,
所述学习用负例数据生成部基于所述相似度,将根据所述多个负例数据对和所述多个正例数据对生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此,生成所述多个学习用负例数据集。
5.根据权利要求1所述的含义关系学习装置,其特征在于,
处于所述预先决定的含义关系的所述语言数据是表示提问句的语言数据和表示回答句的语言数据,
不处于所述预先决定的含义关系的所述语言数据是表示提问句的第1语言数据和表示提问句的第2语言数据、或者表示回答句的第3语言数据和表示回答句的第4语言数据,
所述学习用负例数据生成部通过利用所述多个负例数据对中的任意的负例数据对的所述第1语言数据或所述第2语言数据来置换所述多个正例数据对各自的提问句数据,或者利用所述多个负例数据对中的任意的负例数据对的所述第3语言数据或所述第4语言数据来置换所述多个正例数据对各自的回答句数据,从而将生成的多个学习用负例数据对分类为预先决定的多个相似度范围,由此,生成所述多个学习用负例数据集。
6.根据权...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。