上下文解析装置及上下文解析方法制造方法及图纸

技术编号:10676084 阅读:180 留言:0更新日期:2014-11-26 11:29
实施方式的上下文解析装置(100)具备机器学习用事例生成器(3)和照应解析预测器(5)。机器学习用事例生成器(3)具备预测序列生成部(32)和概率预测部(33)。预测序列生成部(32)以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象文书(D6)生成预测序列,该预测序列通过预测求出将该要素排列有多个的序列的一部分要素。概率预测部(33)基于从任意的文书群(D1)事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率。照应解析预测器(5)使用预测出的上述预测序列的发生概率,进行对解析对象文书(D6)的上下文解析。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】实施方式的上下文解析装置(100)具备机器学习用事例生成器(3)和照应解析预测器(5)。机器学习用事例生成器(3)具备预测序列生成部(32)和概率预测部(33)。预测序列生成部(32)以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象文书(D6)生成预测序列,该预测序列通过预测求出将该要素排列有多个的序列的一部分要素。概率预测部(33)基于从任意的文书群(D1)事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率。照应解析预测器(5)使用预测出的上述预测序列的发生概率,进行对解析对象文书(D6)的上下文解析。【专利说明】
本专利技术涉及进行上下文解析的。
技术介绍
照应解析(AnaphoraResolut1n)、首尾一贯性的解决(CoreferenceResolut1n)、对话处理(Dialog Processing)等上下文解析(Contextual Analysis)在自然语言处理中在正确地理解文书方面是重要的任务。在上下文解析中,已知使用香克(Schank)的脚本(script)或菲尔莫尔(Fillmore)的框架(frame)那样的程序性知识(procedural knowledge)是有效的。但是,在由人工制作的程序性知识方面有覆盖度(coverage)的极限。所以,尝试自动从文书获得这样的程序性知识的途径(approach)。 例如,提出了将相互关联的谓语的序列(以下称作“事件序列(eventsequence) ”)看作程序性知识、从任意的文书群获得这样的事件序列而作为程序性知识加以利用的方法。 但是,用以往的方法获得的事件序列缺少作为程序性知识的正确性,所以有如果利用它进行上下文解析则不能得到充分的精度的情况,要求改善。 现有技术文献: 非专利文献: 非专利文献1:V.Pekar.2006.Acquisit1n of verb entailment from text.1n “Proceedings of the main conference on Human Language Technology Conferenceof the North American Chapter of the Associat1n of Computat1nal Linguistics,,,pages49.56.Associat1n for Computat1nal Linguistic. 非专利文献 2:1.Szpektor and 1.Dagan.2008.Learning entai lment rulesfor unary templates.1n “Proceedings of the 22nd Internat1nal Conferenceon Computat1nal Linguistics-Volume I”,pages 849.856.Associat1n forComputat1nal Linguistics. 非专利文献3:Ν.Chambers and D.Jurafsky.2009.Unsupervised learningof narrative schemas and their participants.1n “Proceedings of the JointConference of the 47th Annual Meeting of the ACL and the 4th Internat1nalJoint Conference on Natural Language Processing of the AFNLP:Volume2_Volume2,,,pages 602.610.Associat1n for Computat1nal Linguistics.
技术实现思路
本专利技术要解决的课题是,提供一种能够进行精度较高的上下文解析的。 技术方案的上下文解析装置具备预测序列生成部、概率预测部和解析处理部。预测序列生成部以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象的文书生成预测序列,该预测序列是通过预测而求出了排列有多个该要素的序列的一部分要素的序列;概率预测部基于从任意的文书群事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率;解析处理部使用预测到的上述预测序列的发生概率,进行对解析对象的文书的上下文解析。 【专利附图】【附图说明】 图1是说明英语的句间照应(inter-sentential anaphora)的一例的图。 图2是说明通过以往的方法获得的事件序列的具体例的图。 图3是说明通过以往的方法获得的事件序列的问题的图。 图4是将京都大学格框架的一部分摘录表不的图。 图5是表示实施方式的上下文解析装置的结构例的框图。 图6是说明带有照应标记的文书群的一例的图。 图7是表示格框架推定器的结构例的框图。 图8是表示格框架推定后文书的一例的图。 图9是表示事件序列模型构建器的结构例的框图。 图10是表示带有共参照标记的文书的一例的图。 图11是表示从图10所例示的带有共参照标记的文书获得的事件序列的例子的图。 图12是表示从图11所例示的事件序列求出的频度列表的一部分的图。 图13是表示使用图12所例示的频度列表构建的概率模型的输出即概率列表的图。 图14是表示机器学习用事例生成器的结构例的框图。 图15是表不被赋予了照应标记的句子的一例的图。 图16是表示作为表示照应词候选和先行词候选的对的特征向量的要素而使用的标准性特点群的图。 图17是训练用事例数据的一例的图。 图18是概念性地说明通过使用2值分类器的机器学习(machine learning)来判定事例的正确度的处理的示意图。 图19是表示上下文解析装置的硬件结构的一例的图。 【具体实施方式】 以下,参照【专利附图】【附图说明】实施方式的。以下所示的实施方式是对进行上下文解析中的特别是照应解析的装置的应用例。 某个语言表现指示与在文书内先行的表现相同的内容或实体(entity)的现象被称作照应。为了表示照应关系,代替将相同的词重复而使用代词或将后续的词省略。将前者称作代词照应,将后者称作零照应。通过代词照应推定代词指示的对象、或补充由零照应省略的名词短语(零代词(zero pronoun))的处理是照应解析。在照应中,有代词或零代词等照应词指示同一句内的对象的句内照应、及照应词指示的对象处于别的句中的句间照应,一般而言,句间照应的照应解析是比句内照应的照应解析困难的任务。照应在文书之中频繁地发生,成为用来理解文意及上下文的重要的线索。因此,照应解析在自然语言处理中成为重要的技术。 图1 是英语的句间照应的例子(D.Bean and E.Riloff.2004.Unsupervisedlearning of contextual role knowledge for coreference resolut1n.1n 本文档来自技高网
...

【技术保护点】
一种上下文解析装置,具备:预测序列生成部,以具有共有项的谓语、确定该谓语的语义的语义确定信息、和表示上述共有项的格的种类的格种类信息的组合为要素,从解析对象的文书生成预测序列,该预测序列是通过预测而求出了排列有多个上述要素的序列中的一部分要素的序列;概率预测部,基于从任意的文书群事先获得的与上述预测序列一致的上述序列的出现概率,预测上述预测序列的发生概率;以及解析处理部,使用预测到的上述预测序列的发生概率,进行对于解析对象的文书的上下文解析。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:浜田伸一郎
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1