自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法技术方案

技术编号:9519311 阅读:145 留言:0更新日期:2014-01-01 16:57
提供了一种用于由处理装置从多个数据源自动提取和组织信息的方法。把包括自动实体检测的自然语言处理信息提取流水线施加到数据源。通过分析自然语言处理流水线的产物来识别有关检测的实体的信息。把识别的信息分组到包含等价信息的等价类。创建等价类的至少一个可显示表示。计算至少一个可显示表示被显示的顺序。生成考虑了可显示表示被显示的顺序的等价类组合显示。

【技术实现步骤摘要】
【专利摘要】提供了一种用于由处理装置从多个数据源自动提取和组织信息的方法。把包括自动实体检测的自然语言处理信息提取流水线施加到数据源。通过分析自然语言处理流水线的产物来识别有关检测的实体的信息。把识别的信息分组到包含等价信息的等价类。创建等价类的至少一个可显示表示。计算至少一个可显示表示被显示的顺序。生成考虑了可显示表示被显示的顺序的等价类组合显示。【专利说明】 关于联邦赞助研发的声明利用政府资助做出了本专利技术,其受到(由国防部高级研究计划局(DARPA)授予的)第HR0011-08-C-0110号合同的约束。政府在此专利技术中有一定权利。
本公开涉及信息技术,尤其涉及自然语言处理(NLP)系统。
技术介绍
新闻机构、博客、twitter、科学期刊和会议全都产生文本、音频和视频形式的极大量的非结构化数据。可以从多种语言的多种模态(例如互联网文本、音频和视频源)收集大量的这种非结构化数据和信息。需要分析信息并生成以下各项的简洁表示:1)诸如特定实体(比如人,组织,国家)的行动的信息;2)活动(例如总统选举运动);以及3)事件(例如名人的去世)。目前,可以手动生成这些表示,但是此解决方法不经济,并且尤其是从多种语言收集信息时它需要有技能的工作人员。这些手动生成的表示一般也不是可伸缩的。
技术实现思路
本公开的示范性实施例提供了自动提取和组织数据的方法,使用户能够交互查看有关实体、活动和事件的信息。根据示范性实施例,信息可以从多种模态和多种语言实时地自动提取,并显示为检索到的信息的可导航且简洁的表示形式。示范性实施例可采用自然语言处理技术来自动分析来自多种模态和多种语言的多个源的信息,这些源包括但不限于网页、博客、新闻组、无线电馈送、视频和电视。示范性实施例可使用把外语源翻译成用户的语言的自动机器翻译系统的输出,以及可使用来自把视频和音频馈送转换成文本的自动语音转录系统的输出。示范性实施例可采用包括信息提取工具、问答工具和提炼(distillation)工具的自然语言处理技术来自动分析如上所述生成的文本,并提取可搜索且可概括的信息。系统可执行名称实体检测、跨文档共指消解(co-reference resolution)、关系检测以及事件检测和跟踪。示范性实施例可采用自动相关性检测技术和冗余减少方法来向用户提供相关且非冗余的信息。示范性实施例可通过为用户提供用来指定感兴趣的实体、活动或事件(例如:通过键入自然语言查询,通过从自动生成的满足用户指定要求的实体(例如,用户指定的时间段内在数据源中突出记载的实体)的列表中选择实体,通过浏览文章来选择文本段,或者通过从在指定的时间段内自动检测的事件/话题的表示来选择事件或话题)的装置来把期望的信息显示为简洁且可导航的表示形式。示范性实施例可通过适应性地构建与推断的用户意图最佳匹配的模板来响应于用户查询而自动生成页面(例如,如果用户选择作为政治家的人,则系统会检测此事实,搜索关于该人的选举运动、公开露面、声明和公共服务历史的信息;如果用户选择公司,则系统会搜索有关该公司的近期新闻,有关该公司的高级官员的信息,新闻发布稿,等等)。根据示范性实施例,如果用户选择事件,则系统可以搜索有关该事件的新闻项目、对事件的反应、事件的结果以及相关事件。系统可自动检测事件中牵涉的实体,例如人、国家、地方政府、公司和组织,并检索与这些实体有关的相关信息。示范性实施例可允许用户跟踪在生成的页面上出现的实体,包括根据可获得的数据自动生成人的简历,以及列出从可获得的数据自动提取的组织的近期行动。示范性实施例可允许使用户查看出现在页面上的事件或活动,包括自动建立正在进行的事件中的重要时刻的时间表。示范性实施例可允许用户查看实体和事件之间的联系(例如,提供关于公司在事件中的角色的信息,列出个人关于话题的语录,描述两个公司间的关系,总结两人之间的会面或接触以及可选地检索所需实体的图像)。根据示范性实施例,提供了一种用于由处理装置从多个数据源自动提取和组织信息的方法。包括实体的自动检测的自然语言处理信息提取流水线被施加到数据源。通过分析自然语言处理流水线的产物来识别关于所检测的实体的信息。识别的信息分组成包含等价信息的等价类。创建等价类的至少一种可显示表示。计算至少一种可显示表示被显示的顺序。生成考虑了可显示表示被显示的顺序的等价类组合表示。每个等价类都可包括项的集合。每项都可包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范(specification)。计算可显示表示被显示的顺序可以包括随机计算顺序。把识别的信息分组成等价类可以包括把各识别的信息分配到单独的等价类。把识别的信息分组成等价类可以包括计算每个等价类的代表性实例,确保不同类的代表性实例相互不是冗余的,以及确保每个等价类的实例相对于该等价类的代表性实例是冗余的。根据示范性实施例,提供了一种用于由处理装置处理信息的方法。接收到用户查询。根据用户查询推断出用户查询意图,以形成推断的用户意图。通过利用包括文本、音频和视频中的至少一个的多种模态的自然处理适应性地构建与推断的用户意图对应的模板,响应于用户查询而自动生成页面。当用户查询选择具有政治身份的人时,可搜索该政治身份,可搜索关于选举运动、公开露面、声明和公共服务历史中的至少一个的信息,以及可自动生成响应于用户查询的页面。当用户查询选择公司时,可搜索有关该公司的近期新闻、该公司的高级官员的信息和公司的新闻发布稿中的至少一个的信息,以及可自动生成响应于用户查询的页面。当用户查询选择事件时,可以搜索有关该事件的新闻项目和对事件的反应中至少一个的信息,以及可自动生成响应于用户查询的页面。可识别和搜索事件中的实体和关于这些实体的检索的相关信息。根据示范性实施例,提供了一种由处理装置从具有多个语言的多种信息模态的文档语料库自动提取和组织信息以供显示给用户的方法。浏览文档语料库,以识别和增量地(incrementally)检索包含音频/视频文件的文档。来自音频/视频文件的文本被转录,以提供文本表示。外语的文本表示的文本被翻译。关于实体、活动和事件中的至少一个的所需信息被增量地提取。组织提取的信息。组织好的提取信息被转换成可展示给用户的可导航显示。增量地提取所需信息可包括:把自然语言处理流水线施加到各文档,以遍历语料库中检测的所有实体,以及识别牵涉到选择的实体的关系表述(mention)和事件表述,其中实体是下面各项的至少一个:物理生命体、物理无生命体、具有专有名称的事物、具有可度量的物理属性的事物、法人实体和抽象概念,表述是提到实体的一段文字,关系是两个实体间的联系,关系表述是描述关系的一段文字,以及事件是牵涉一个或多个行动的两个或更多个实体之间的关系集合。组织提取的信息可包括:遍历语料库中识别的所有实体,把提取的关于实体的信息分成包含等价信息的所选等价类,遍历所有等价类,选择每个等价类中的一项来代表该等价类中的所有项,以及记录有关该等价类和有关选择用来生成可导航显示的代表的信息,其中每个等价类都可包括项的集合,每项都具有从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。把组织好的提取信息转换成可展示给用户的可导航显示可以包括:通过向等价类分配该类中各条信息的最本文档来自技高网...

【技术保护点】
一种用于由处理装置从多个数据源自动提取和组织信息的方法,包括:把包括自动实体检测的自然语言处理信息提取流水线施加到数据源;通过分析自然语言处理流水线的产物来识别有关所检测的实体的信息;把识别的信息分组到包含等价信息的等价类;创建等价类的至少一个可显示表示;计算至少一个可显示表示被显示的顺序;以及生成考虑了可显示表示被显示的顺序的等价类组合显示。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:V·卡斯泰利R·弗洛利安罗小强H·拉格哈万
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1