数据处理装置及故事模型构建方法制造方法及图纸

技术编号:12738441 阅读:116 留言:0更新日期:2016-01-20 23:15
实施方式的数据处理装置(100)具备:事件空位序列提取器(2)、机器学习用事例生成器(3)、后续事件空位推测训练器(7)。事件空位序列提取器(2)从带有训练用标记的文章与共用项一起提取事件空位序列而生成事件空位序列数据。机器学习用事例生成器(3)从事件空位序列数据生成用包含事件空位履历特征和共用项履历特征的至少某一个特征量的特征矢量表现的训练用事例数据。后续事件空位推测训练器(7)使用训练用事例数据进行基于识别模型的机器学习,从而构建作为用于推测后续于在先文脉的事件空位的故事模型的后续事件空位推测模型(D10)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的实施方式涉及。
技术介绍
照应解析(Anaphora Resolution)、共参照解析(Coreference Resolution)、对话 处理(Dialog Processing)等文脉解析(Contextual Analysis),在自然语言处理中在正确 地理解文章方面是重要的任务。在文脉解析中,已知使用香克脚本或菲尔摩尔帧那样的程 序性知识(Procedural Knowledge)是有效D程序性知识指的是,与"一序列程序之后接续 的程序是什么"这样的问题有关的知识。将该程序性知识通过计算机再现的模型是故事模 型。 以往,提出了以下的技术:从任意的文章群获得相互关联的谓语和格的对(以下 称为"事件空位(event slot)")的序列,从该事件空位序列生成事例数据,通过机器学习 的训练来构建故事模型。 事件空位序列将事件空位作为要素,该事件空位是共用项的谓语和共用项的格种 类的组合,将该事件空位按照出现顺序排列。作为事件空位序列的要素的事件空位的种类 有多种多样,所以为了进行充分的学习而构件高精度的故事模型,需要与其相应的庞大的 学习数据。但是,获得可靠性高的学习数据非常花费成本。因此,如果不能收集充分的学习 数据,就会产生学习数据不足,其结果,构建的故事模型的精度可能会变低。 现有技术文献 非专利文献 非专利文献 I :V. Pekar. 2006. Acquisition of verb entailment from text. In ^Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics'', pages 49.56. Association for Computational Linguistic. 非专利文献 2 :I. Szpektor and I. Dagan. 2008. Learning entailment rules for unary templates. In ^Proceedings of the 22nd International Conferenceon Computational Linguistics-Volumel",pages 849. 856. Association for Computational Linguistics. 非专利文献 3 :N. Chambers and D. Jurafsky. 2009. Unsupervised learning of narrative schemas and their participants. In"Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP :Volume 2-Volume 2",pages 602.610. Association for Computational Linguistics. 非专利文献 4 :R. Kneser and H. Ney. Improved backing-off for m-gram language modeling. In Proceedings of ICASSP,Vol. 1,pp. 18L 184,1995. 非专利文献 5 :R. Rosenfeld :"Adaptive Statistical Language Modeling :A Maximum Entropy Approach'',PL D. Thesis,Technical Report CMU-CS-94-138, School of Computer Science,Carnegie-Mellon University,Pittsburgh,PA,114pages,1994. 非专利文献 6 :Goodman and Joshua T :"A bit of progressin language modeling'', Computer Speech&Language, volumel5, number4, pages 403-434,2001. Elsevier. 非专利文南犬 7 :Sven Martin, Christoph Hamacher, Jorg Liermann, Frank Wessel,and Hermann Ney. 1999. Assessment of smoothing methods and complex stochastic language modeling. In 6th European Conference on Speech Communication and Technology,volume5, pagesl939. 1942, Budapest,Hungary,September.
技术实现思路
专利技术所要解决的课题 本专利技术所要解决的课题是,提供一种能够构件高精度的故事模型的数据处理装置 及故事模型构建方法。 解决课题所采用的技术手段 实施方式的数据处理装置具备:提取部、事例生成部、模型构建部。提取部从被进 行谓语项构造解析及共参照解析的文章中,将具有共用项的谓语和表示所述共用项的格的 种类的格种类信息的组合作为要素,与所述共用项一起提取将多个所述要素按照所述文章 中的所述谓语的出现顺序排列的要素序列。事例生成部,在将构成所述要素序列的所述要 素中的1个作为关注要素时,对于各个所述关注要素,生成用特征矢量表现的事例数据,该 特征矢量包含与将所述关注要素作为末尾的要素的所述要素序列内的部分序列有关的1 个以上的特征量和与对应于所述部分序列的所述共用项的序列有关的1个以上的特征量 的至少某一个特征量。模型构建部使用所述事例数据进行基于识别模型的机器学习,从而 构建用于推测后续于在先文脉的所述要素的故事模型。【附图说明】 图1是使用以"犯罪者"为共用项的事件空位序列的概率模型的示意图。 图2是说明非专利文献3所记载的方法的示意图。 图3是表示第1实施方式的数据处理装置的构成例的框图。 图4是表示带有训练用标记的文章的具体例的图。 图5是表示训练用事件空位序列数据的具体例的图。 图6是说明由事件空位序列提取器实施的处理的流程图。 图7是表示训练用事例数据的具体例的图。 图8是说明由机器学习用事例生成器实施的处理的流程图。 图9是说明事件空位履历特征生成器的处理的流程图。 图10是说明共用项履历特征生成器的处理的流程图。 图11是表示由共用项表现生成器生成的共用项表现群的一例的图。 图12是说明共用项表现生成器的处理的流程图。 图13是表示后续事件空位推测模型的一例的图。 图14本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/CN105264518.html" title="数据处理装置及故事模型构建方法原文来自X技术">数据处理装置及故事模型构建方法</a>

【技术保护点】
一种数据处理装置,具备:提取部,从被进行谓语项构造解析及共参照解析的文章,与共用项一起提取要素序列,该要素序列将具有所述共用项的谓语和表示所述共用项的格的种类的格种类信息的组合作为要素,将多个所述要素按照所述文章中的所述谓语的出现顺序排列;事例生成部,将构成所述要素序列的所述要素中的1个作为关注要素时,对于所述关注要素的每一个,生成用特征矢量表现的事例数据,该特征矢量包含与将所述关注要素作为末尾的要素的所述要素序列内的部分序列有关的1个以上的特征量、以及与对应于所述部分序列的所述共用项的序列有关的1个以上的特征量的至少某一个特征量;以及模型构建部,使用所述事例数据进行基于识别模型的机器学习,从而构建用于推测后续于在先文脉的所述要素的故事模型。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:浜田伸一郎
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1