信息提取系统技术方案

技术编号:2843851 阅读:198 留言:0更新日期:2012-04-11 18:40
将与文本中表现的事物有关的事实和意见等记述内容,使事实和意见的观点和记述附带对应地进行提取。为此,设为具有以下结构:输入单元,输入文本;观点/记述提取规则存储单元,存储用于特定被记述在文本中的表现的观点和与该观点有关的记述的组的观点/记述提取规则;观点/记述提取单元,从文本中的字符串的句法的属性或者含义的属性的至少一个属性中,利用所述观点/记述提取规则,将观点及其记述的组附带对应,提取作为赋予了用于识别它们的识别信息的要素元数据;以及元数据存储单元,存储所述观点/记述提取单元提取的要素元数据,将与文本中表现的事物有关的事实和意见等记述内容构成作为观点和记述的组,并且整理为事实和意见附带对应的形式来提取。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及从文本提取与事务有关而被书写的事实和意见等记述内容的信息提取系统
技术介绍
作为以往的信息提取系统,已知从文本提取关键词(keyword)的系统、提取固有名和数值表现等的系统、提取与5W1H等事实有关的信息的系统、以及提取意见和评判等的系统。狭义的信息提取如非专利文献1中被介绍的那样,在提取文本的中心的信息的系统中,典型的是以特定的领域的文本为对象来准备应提取的信息的模板(template)(或者构架(frame)),提取该信息。另一方面,近年来进行着要提取文本中的意见和评判的研究。例如,专利文献1是从文件集合中提取与利用者指定的事物有关的意见的文献。专利文献1特开2003-203136号公报非专利文献1长尾他著“自然语言处理”岩波书店(pp.438-441,1996)但是,虽然在专利文献1那样以往的意见信息提取系统中可以提取与事物有关的意见,但是存在不能将与事物有关而被书写的事实或意见的观点与记述对应而提取的课题。
技术实现思路
本专利技术是鉴于上述问题而完成的,其第1目的是提供一种信息提取系统,将事实和意见的观点与记述附带对应地提取与在文本中表现的事物有关的事实和意见等记述内容。本专利技术的第2目的是提供一种信息提取系统,在提取所述事实和意见等记述内容时,能将其整理为容易进行事实和意见的对应和关联性的比较的形式来进行提取。为了解决上述课题,本专利技术的信息提取系统设为以下结构即包括输入单元,输入文本;观点/记述提取规则存储单元,存储用于特定被记述在文本中的表现的观点和与该观点有关的记述的组的观点/记述提取规则;观点/记述提取单元,从对被输入所述输入单元中的文本中的字符串赋予的句法的属性或者含义的属性的至少一个属性中,利用所述观点/记述提取规则,将观点及其记述的组提取作为附带对应的要素元数据;以及元数据存储单元,存储所述观点/记述提取单元提取的要素元数据。按照该结构,将与文本中表现的事物有关的事实和意见等记述内容作为观点和记述的组来构成,并且可以将事实和意见附带对应来提取。进而,可以整理为对于在之后的处理中提取的事实和意见,容易进行关联性的比较的形式。如以上说明的那样,本专利技术的信息提取系统具有以下效果通过利用被记述在文本中的表现的观点和与该观点有关的记述的组的观点/记述提取规则来将观点及其记述的组附带对应地提取,可以将与在文本中表现的事物有关的事实和意见的记述内容作为观点和记述的组来对应提取。本专利技术的上述目的和优点可以通过参照附图进行说明的以下的实施方式来进一步明白。附图说明图1是表示本专利技术的实施方式1的信息提取系统的结构的方框图。图2(a)~图2(c)是表示实施方式1的信息提取系统中的到从文本提取要素元数据为止的一连串的处理的流程的说明图。图3(a)~图3(b)是表示实施方式1的信息提取系统中的观点/记述提取规则和规则的结构要素定义的例子的图。图4是表示实施方式1的信息提取系统中的综合元数据的例子的图。图5是表示本专利技术的实施方式2的信息提取系统的结构的方框图。图6(a)~图6(b)是表示实施方式2的信息提取系统中的、被输入的文本和被赋予了含义属性的文本的例子的图。图7(a)~图7(b)是表示实施方式2的信息提取系统中的、含义属性赋予规则的例子和含义属性赋予规则构成要素定义的例子的图。图8(a)~图8(b)是表示实施方式2的信息提取系统中的、附带含义属性文本的例子和观点/记述认定例的图。图9(a)~图9(b)是表示实施方式2的信息提取系统中的、观点/记述提取规则和规则的构成要素定义的例子的图。图10是表示实施方式2的信息提取系统中的、要素元数据提取结果的例子的图。图11是表示实施方式2的信息提取系统中的、综合元数据的例子的图。图12是本专利技术的实施方式3的信息提取系统的结构的方框图。图13(a)~图13(b)是表示实施方式3的信息提取系统中的观点/记述的认定结果和要素元数据的提取结果的图。图14(a)~图14(b)是表示实施方式3的信息提取系统中的话题事物推定规则和话题事物推定规则结构要素定义的例子的图。图15是表示实施方式3的信息提取系统中的推定的话题事物的例子的图。图16是表示实施方式3的信息提取系统中的综合元数据的例子的图。图17是表示实施方式3的信息提取系统中的元数据输出形式的例子的图。图18是表示本专利技术的实施方式4的信息提取系统的结构的方框图。图19(a)~图19(d)是表示实施方式4的信息提取系统的、表示文本的来源信息、用户信息的例子和附带含义属性的来源消息、附带含义属性的用户信息的例子的图。图20(a)~图20(b)是表示实施方式4的信息提取系统的来源信息含义属性赋予规则、用户含义属性赋予规则的例子的图。图21(a)~图21(b)是表示实施方式4的信息提取系统的来源观点/记述提取规则、用户观点/记述提取规则的例子的图。图22(a)~图22(b)是表示实施方式4的信息提取系统的来源元数据提取结果、用户元数据提取结果的例子的图。图23是表示实施方式4的信息提取系统的客观性/可靠性判定规则和可靠性/可靠性判定规则结构要素定义的例子的图。图24(a)~图24(b)是表示实施方式4的信息提取系统的文本的例子和附带含义属性文本的例子的图。图25(a)~图25(b)是表示实施方式4的信息提取系统的观点/记述提取规则例和观点/记述结构要素定义例的图。图26是表示实施方式4的信息提取系统的要素元数据提取结果的例子的图。图27是表示实施方式4的信息提取系统的客观性/可靠性判定结果的例子的图。图28是表示实施方式4的信息提取系统的元数据综合结果的例子的图。图29是表示实施方式4的信息提取系统的元数据输出形式的例子的图。标号说明100、200、300、400信息提取系统102输入单元106元数据核对单元108元数据综合单元110元数据存储单元120观点/记述提取单元122观点/记述提取规则存储单元202属性赋予单元204含义属性赋予规则存储单元206附带含义属性文本存储单元302用户请求处理单元304元数据输出形式生成单元306元数据输出单元310话题事物推定单元312话题事物推定规则存储单元412客观性/可靠性判定单元414客观性/可靠性判定规则存储单元具体实施方式以下,参照附图详细地说明本专利技术的实施方式。(实施方式1)图1是表示本专利技术的实施方式1的信息提取系统的结构的方框图。本实施方式的信息提取系统100是用于将与被输入的文本中表现的事物有关的事实和意见等记述内容构成为观点和记述的组,并将其整理为容易进行事实和意见的附带对应和关联性的比较的形式来提取的系统。信息提取系统100包括输入文本的输入单元102;对用于特定文本中记述的表现的观点和与该观点有关的记述的组的观点/记述规则进行存储的观点/记述提取规则存储单元122;根据前述文本中的字符串的句法的属性,利用前述观点/记述提取规则将观点及其记述附带对应,作为赋予了用于识别它们的识别信息的要素元数据来提取的观点/记述提取单元120;分别核对观点/记述提取单元120提取的要素元数据的观点之间、记述之间,并且推定要素元数据的关联性的元数据核对单元106;根据前述被推定出的关联性来综合具有关联性的要素元数据的元数据综合单元108;存储作为由元数据综合单本文档来自技高网...

【技术保护点】
一种信息提取系统,包括:输入单元,输入文本;观点/记述提取规则存储单元,存储用于特定被记述在文本中的表现的观点和与该观点有关的记述的组的观点/记述提取规则;观点/记述提取单元,从对被输入所述输入单元中的文本中的字符串 赋予的句法的属性或者含义的属性的至少一个属性中,利用所述观点/记述提取规则,将观点及其记述的组提取作为附带对应的要素元数据;以及元数据存储单元,存储所述观点/记述提取单元提取的要素元数据。

【技术特征摘要】
【国外来华专利技术】JP 2004-3-31 107139/20041.一种信息提取系统,包括输入单元,输入文本;观点/记述提取规则存储单元,存储用于特定被记述在文本中的表现的观点和与该观点有关的记述的组的观点/记述提取规则;观点/记述提取单元,从对被输入所述输入单元中的文本中的字符串赋予的句法的属性或者含义的属性的至少一个属性中,利用所述观点/记述提取规则,将观点及其记述的组提取作为附带对应的要素元数据;以及元数据存储单元,存储所述观点/记述提取单元提取的要素元数据。2.如权利要求1所述的信息提取系统,所述句法的属性至少包括字符串列表或者词类分类的其中一个。3.如权利要求1所述的信息提取系统,所述含义的属性至少包含含义分类。4.如权利要求1所述的信息提取系统,所述观点/记述提取单元在将附带对应的观点和记述的组作为要素元数据提取时,赋予用于识别附带对应的观点和记述的组的识别信息(要素元数据ID)来提取。5.如权利要求1所述的信息提取系统,还包括属性赋予单元,从文本提取任意的字符串,并至少利用用于特定字符串的含义分类的含义属性赋予规则,输出对每个字符串赋予了含义属性的附带含义的属性文本。6.如权利要求1所述的信息提取系统,所述观点/记述提取单元在文本中不表现观点,仅表现记述的情况下,将记述的含义的属性作为观点,提取观点和记述的组。7.如权利要求1所述的信息提取系统,还包括元数据核对单元,分别核对所述观点/记述提取单元提取的要素元数据的观点之间和记述之间,并且推定关联性;以及元数据综合单元,根据所述被推定的关联性,综合具有关联性的要素元数据,并且输出综合元数据。8.如权利要求6所述的信息提取系统,所述元数据核对单元在核对所述观点/记述提取单元提取的要素元数据的观点和记述时,至少利用构成观点、记述的字符串的含义的属性来进行核对。9.如权利要求7所述的信息提取系统,还包括话题事物推定单元,对于由所述观点/记述提取单元提取的要素元数据,利用用于推定话题的事物的话题事物推定规则,推定被作为话题的事物,所述元数据存储单元将要素元数据与由所述话题事物推定单元推定的话题的事物一起对应存储。10.如权利要求9所述的信息提取系统,所述话题事物推定单元在...

【专利技术属性】
技术研发人员:野本昌子
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1