数据处理装置及故事模型构建方法制造方法及图纸

技术编号：12738441 阅读：116 留言：0更新日期：2016-01-20 23:15

实施方式的数据处理装置(100)具备：事件空位序列提取器(2)、机器学习用事例生成器(3)、后续事件空位推测训练器(7)。事件空位序列提取器(2)从带有训练用标记的文章与共用项一起提取事件空位序列而生成事件空位序列数据。机器学习用事例生成器(3)从事件空位序列数据生成用包含事件空位履历特征和共用项履历特征的至少某一个特征量的特征矢量表现的训练用事例数据。后续事件空位推测训练器(7)使用训练用事例数据进行基于识别模型的机器学习，从而构建作为用于推测后续于在先文脉的事件空位的故事模型的后续事件空位推测模型(D10)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的实施方式涉及。
技术介绍
照应解析（Anaphora Resolution)、共参照解析（Coreference Resolution)、对话处理（Dialog Processing)等文脉解析（Contextual Analysis)，在自然语言处理中在正确地理解文章方面是重要的任务。在文脉解析中，已知使用香克脚本或菲尔摩尔帧那样的程序性知识（Procedural Knowledge)是有效D程序性知识指的是，与"一序列程序之后接续的程序是什么"这样的问题有关的知识。将该程序性知识通过计算机再现的模型是故事模型。以往，提出了以下的技术：从任意的文章群获得相互关联的谓语和格的对（以下称为"事件空位（event slot)"）的序列，从该事件空位序列生成事例数据，通过机器学习的训练来构建故事模型。事件空位序列将事件空位作为要素，该事件空位是共用项的谓语和共用项的格种类的组合，将该事件空位按照出现顺序排列。作为事件空位序列的要素的事件空位的种类有多种多样，所以为了进行充分的学习而构件高精度的故事模型，需要与其相应的庞大的学习数据。但是，获得可靠性高的学习数据非常花费成本。因此，如果不能收集充分的学习数据，就会产生学习数据不足，其结果，构建的故事模型的精度可能会变低。现有技术文献非专利文献非专利文献 I :V. Pekar. 2006. Acquisition of verb entailment from text. In ^Proceedings of the main conference on H...
<a href="http://www.xjishu.com/zhuanli/55/CN105264518.html" title="数据处理装置及故事模型构建方法原文来自X技术">数据处理装置及故事模型构建方法</a>

【技术保护点】
一种数据处理装置，具备：提取部，从被进行谓语项构造解析及共参照解析的文章，与共用项一起提取要素序列，该要素序列将具有所述共用项的谓语和表示所述共用项的格的种类的格种类信息的组合作为要素，将多个所述要素按照所述文章中的所述谓语的出现顺序排列；事例生成部，将构成所述要素序列的所述要素中的1个作为关注要素时，对于所述关注要素的每一个，生成用特征矢量表现的事例数据，该特征矢量包含与将所述关注要素作为末尾的要素的所述要素序列内的部分序列有关的1个以上的特征量、以及与对应于所述部分序列的所述共用项的序列有关的1个以上的特征量的至少某一个特征量；以及模型构建部，使用所述事例数据进行基于识别模型的机器学习，从而构建用于推测后续于在先文脉的所述要素的故事模型。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员：浜田伸一郎，
申请(专利权)人：株式会社东芝，东芝解决方案株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人