矛盾表现收集装置以及记录介质制造方法及图纸

技术编号:15115674 阅读:49 留言:0更新日期:2017-04-09 12:03
提供能以比句小的单位效率良好地收集矛盾表现的装置。矛盾表现收集装置包括:第1阶段矛盾型式分类部,其通过将以「XがYを○○する(X对Y进行○○)」这样形式的型式所构成的型式对作为学习数据的机器学习来提取相互矛盾的型式所构成的型式对;追加矛盾型式对导出部(130),其对提取的各个型式对,运用包含关系来改写一方的型式,导出新的型式对;学习数据扩展部(136),其通过将在导出的新的型式对中由相互矛盾的型式构成的可能性高的型式对追加到学习数据中,来扩展学习数据;和SVM(142),其通过利用了扩展的学习数据的机器学习,来进行第2阶段分类,将被赋予的型式对分类为相互矛盾的型式所构成的型式对和这以外。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及从大量的文本中提取矛盾的表现的装置,特别涉及从大量的文本中可靠性高地提取相互矛盾的表现的配对的装置。
技术介绍
若能在文本中检测矛盾的表现,就能将其结果使用在众多的目的中。例如,若能在庞大的文本中检测相互矛盾的表现,就能通过对它们做记号来唤起文本的作成者的注意。在对他人作成的文本进行审查的情况下,能验证其逻辑的一贯性。在比较不同的作者作成的文本的情况下,能确认其主张的异同。例如在日语记载的Web页经常能看到「アガリクスがガンを防ぐ(落叶松蕈防癌)」这样主旨的记载。这样的主张也被众多日本人所接受。但若用例如「アガリクスガン促進する(落叶松蕈癌症促进)」这样的关键词检索Web,则能找到「アガリクスによリラツトのガンが促進する(因落叶松蕈而促进小白鼠癌症)」这样的报告。该报告参考了销售的一部分落叶松蕈制品促进小白鼠的癌这样由厚生劳动省承认报告。根据这样的报导可知,存在与落叶松蕈防止癌症这样的主张矛盾的报告,其结果,对落叶松蕈怀有兴趣的人会进一步展开调查。另外,在灾害的发生时,在网络上的所谓的博客、微博客、社交媒体等涌来大量信息。这些信息在进行合适的避难、适时进行支援上非常有用。但在它们当中,包括较多没有根据的信息、以及所谓的捏造信息。这些信息看上去难以与真实的信息区别。为此,不仅在进行正确的判断上无益,还会妨碍正常的信息流通,有增大灾害引起的损失、或使推迟恢复的危险性。若能分析网络上的信息,提取出矛盾的信息提示给用户,用户就能整理能信赖的信息和不能信赖的信息,结果能尽早平息非常时的混乱。若考虑这样的示例,着眼于关于某事态相互矛盾的主张的读者会对该事态展开进一步的调查,结局能获知真相的可能性较高。这不仅适用于与事实相关的知识,还适用于日常生活发现的与关于事实的事态不同的知识。例如取被称作TPP(TransPacificPartnership,跨太平洋伙伴协议)的经济合作协定为例。关于TPP,关于日本是否加盟TPP有各种主张。在这当中找出非常重大且相互矛盾的主张。即,“由于TPP会使日本的农业毁灭”这样的主张、“由于TPP会强化日本的农业”这样的主张混合存在。这些主张或预想即日本是否会加盟TPP,只有做出决定才能验证其成否。进而,有时,在阅读含有相互矛盾的主张的不同的文本时,有在成为它们的根据的逻辑中认为看上去没有错误的情况。例如有「TPPによリ、日本からの農産物の輸出が増加する(由于TPP,来自日本的农产品的出口会增加)」这样的主张、「安価な農産物が大量に日本に輸入されるだろう(廉价的农产品会大量进口到日本)」这样的主张等。例如出于遵循日元的汇率的变动这样的预想的理由,还会有这些主张的仅一者在结果上正确的情况。但不得不对成为这些相互矛盾的主张的根据的理论进行调查,充分研讨来自在多个视点的意見,做出取得平衡的决定,合适地应对预测到的问题。矛盾表现的认识,会非常有助于在选择要在这样的情况下进行研讨的文书。现有技术文献非专利文献非专利文献1:M.Ohki,S.Matsuyoshi,J.Mizuno,K.Inui,E.Nichols,K.Murakami,S.Masuda,andY.Matsumoto.2011.Recognizingconfinementinwebtexts.IntheProceedingsoftheNinthInternationalConferenceinComputationalSemantics,page215-224.非专利文献2:C.Hashimoto,K.Torisawa,S.DeSaeger,J.-H.Oh,andJ.Kazama.2012.Excitatoryorinhibitory:Anewsemanticorientationextractscontradictionandcausalityfromtheweb.InProceedingsofEMNLP2012.
技术实现思路
专利技术要解决的课题在关于这样的矛盾表现的认识的研究中,有前述的非专利文献1记载的技术。非专利文献1所记载的研究用于认识句之间的矛盾或文书整体之间的矛盾。但为了更加效率良好地判断矛盾表现,需要认识更细微的单位下的矛盾表现的技术。若能得到这样的技术,就有能更有效率且精度良好地认识句整体之间的矛盾或文书整体之间的矛盾。另外,前述的示例仅是日语中的示例,但这样的问题并不限于日语,在全部语言中都是共通的。因此,本专利技术的目的在于,提供能以比句整体更小的单位效率良好地收集矛盾表现的矛盾表现收集装置。本专利技术的其他目的在意,提供能以比句整体更小的单位效率良好地收集矛盾表现的语言独立的矛盾表现收集装置。用于解决课题的手段本专利技术的第1局面所涉及的矛盾表现收集装置与存储单词的包含关系的包含关系存储单元、和存储多个二元型式(pattern)对的第1存储装置连接来使用。二元型式对含有2个二元型式,各二元型式含有一元型式作为副型式。矛盾表现收集装置包括:第1分类单元,其通过以从存储于第1存储装置的二元型式对选择的二元型式对作为学习数据的机器学习,来从存储于第1存储装置的多个二元型式对提取相互矛盾的二元型式对;导出单元,其对由第1分类单元提取的各个二元型式对运用存储于包含关系存储单元的包含关系,来改写一方的二元型式,从而导出新的二元型式对;学习数据扩展单元,其提取在由导出单元导出的新的二元型式对中由相互矛盾的二元型式构成的可能性高的二元型式对,通过追加到学习数据中来扩展学习数据;和第2分类单元,其通过利用了由学习数据扩展单元扩展过的学习数据的机器学习,将被赋予的二元型式对分类为相互矛盾的二元型式对和这以外。优选地,矛盾表现收集装置还与存储一元型式的极性的极性存储单元连接而使用,第1分类单元包括:第1型式对提取单元,其使用存储于极性存储单元的一元型式的极性,从第1存储装置提取含有极性相互相反的一元型式对的二元型式对;和机器学习单元,其将附加了表示是否由相互矛盾的二元型式构成的签注的多个二元型式对作为学习数据,通过机器学习来学习选择由相互矛盾的二元型式构成的二元型式对的功能,从存储于第1存储装置的多个二元型式对选择由相互矛盾的二元型式构成的二元型式对,并输出。更优选地,第1分类单元对所输出的二元型式对附加表示该二元型式对是否由相互矛盾的二元型式构成的可能性的分数,并输出,学习数据扩展单元包括:分数算出单元,本文档来自技高网
...

【技术保护点】
一种矛盾表现收集装置,与存储单词的包含关系的包含关系存储单元、和存储多个二元型式对的第1存储装置连接来使用,二元型式对含有2个二元型式,各二元型式含有一元型式作为副型式,所述矛盾表现收集装置包括:第1分类单元,其通过以从存储于所述第1存储装置的二元型式对选出的二元型式对作为学习数据的机器学习,来从存储于所述第1存储装置的多个所述二元型式对提取相互矛盾的二元型式对;导出单元,其对由所述第1分类单元提取的各个二元型式对,运用存储于所述包含关系存储单元的包含关系来改写一方的二元型式,从而导出新的二元型式对;学习数据扩展单元,其提取在由所述导出单元导出的新的二元型式对中由相互矛盾的二元型式构成的可能性高的二元型式对,通过追加到所述学习数据中来扩展所述学习数据;和第2分类单元,其通过利用了由所述学习数据扩展单元扩展过的学习数据的机器学习,将被赋予的二元型式对分类为相互矛盾的二元型式对和其他的二元型式对。

【技术特征摘要】
【国外来华专利技术】2013.10.08 JP 2013-2107931.一种矛盾表现收集装置,与存储单词的包含关系的包含关系存储
单元、和存储多个二元型式对的第1存储装置连接来使用,
二元型式对含有2个二元型式,各二元型式含有一元型式作为副型式,
所述矛盾表现收集装置包括:
第1分类单元,其通过以从存储于所述第1存储装置的二元型式对选
出的二元型式对作为学习数据的机器学习,来从存储于所述第1存储装置
的多个所述二元型式对提取相互矛盾的二元型式对;
导出单元,其对由所述第1分类单元提取的各个二元型式对,运用存
储于所述包含关系存储单元的包含关系来改写一方的二元型式,从而导出
新的二元型式对;
学习数据扩展单元,其提取在由所述导出单元导出的新的二元型式对
中由相互矛盾的二元型式构成的可能性高的二元型式对,通过追加到所述
学习数据中来扩展所述学习数据;和
第2分类单元,其通过利用了由所述学习数据扩展单元扩展过的学习
数据的机器学习,将被赋予的二元型式对分类为相互矛盾的二元型式对和
其他的二元型式对。
2.根据权利要求1所述的矛盾表现收集装置,其中,
所述矛盾表现收集装置还与存储一元型式的极性的极性存储单元连
接而使用,
所述第1分类单元包括:
第1型式对提取单元,其使用存储于所述极性存储单元的一元型式的
极性,来从所述第1存储装置提取含有极性相互相反的一元型式对的二元
型式对;和
机器学习单元,其将附加了表示是否由相互矛盾的二元型式构成的签
注的多个二元型式对作为学习数据,通过机器学习来学习选择由相互矛盾
的二元型式构成的二元型式对的功能,从存储于所述第1存储装置的所述
多个二元型式对选择由相互矛盾的二元型式构成的二元型式对,并输出。
3.根据权利要求2所述的矛盾表现收集装置,其中,
所述第1分类单元对输出的二元型式对附加表示该二元型式对是否由
相互矛盾的二元型式构成的可能性的分数,并输出,
所述学习数据扩展单元包括:
分数算出单元,其关于由所述第1分类单...

【专利技术属性】
技术研发人员:朱利安·克洛埃特泽鸟泽健太郎桥本力佐野大树吴钟勋大竹清敬
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1