基于静态和时间知识图消除词语歧义的系统和方法技术方案

技术编号:21958985 阅读:31 留言:0更新日期:2019-08-24 22:17
本文提供的系统和方法用于基于上下文词语、静态知识图和时间知识图来确定文本段中的有歧义词语的含义。这些系统和方法访问与上下文词语相关联的第一知识图,以确定作为未知词语的含义的潜在词语。在确定第一知识图中存在可能是未知词语的含义的多个潜在词语时,该系统和方法考虑实体之间的关系的时间维度以消除未知词语的含义的歧义。该系统和方法通过确定文本段的时间戳并访问与第一上下文词语相关联并且与时间戳相关的第二知识图以确定作为第一未知词语的含义的潜在词语来实现这一点。

A System and Method for Eliminating Word Ambiguity Based on Static and Time Knowledge Graph

【技术实现步骤摘要】
【国外来华专利技术】基于静态和时间知识图消除词语歧义的系统和方法
技术介绍
自然语言文本的数量正在快速增加。为了使系统从自然语言文本中提取、编目和利用信息,系统必须正确地识别与文本中呈现的词语相关联的含义。这是一项艰巨的任务,因为许多词语共享相同的共同组成部分,因此,自然语言文本中的许多词语都是有歧义(ambiguous)的。在自然语言文本中对有歧义词语错误地指定含义会降低自然语言处理的效率,并对用户体验产生不利影响。例如,在自然语言文本中对有歧义词语错误地指定含义会降低严重依赖于自然语言处理的自然语言查询的准确性。
技术实现思路
本文提供了用于基于上下文词语、静态知识图和时间知识图来确定文本段中的有歧义词语的含义的系统和方法。在识别文本段中的未知词语时,这些系统和方法针对上下文词语分析文本段。该系统和方法访问与上下文词语相关联的第一知识图(即,静态知识图)以确定作为未知词语的含义的潜在词语。该系统和方法在确定第一知识图中存在多于一个可能是未知词语的含义的潜在词语时,确定未知词语是有歧义词语。在这种情况下,该系统和方法考虑实体之间关系的时间维度,以消除未知词语的含义的歧义。该系统和方法通过确定文本段的时间戳并访问与第一上下文词语相关联并且与时间戳相关的第二知识图(即,时间知识图)来确定作为第一未知词语的含义的潜在词语来实现这一点。在一些方面,交互式媒体指南应用识别文本段中的第一未知词语。例如,交互式媒体指南应用可以生成用于向用户显示的文本段“BernSandhascalledoutClineforsolicitingdonationsfrombanksandcorporations(伯恩萨德呼吁克莱因从银行和公司募集捐款)”。交互式媒体指南应用可以确定词语“Cline”没有与其相关联的提供其含义的元数据或标识符标签。在这种情况下,交互式媒体指南应用确定词语“Cline”是未知词语。交互式媒体指南应用针对第一上下文词语分析文本段。交互式媒体指南应用可以使用文本挖掘技术(例如,命名实体识别、共参考、情感分析、语义分析等)来确定第一上下文词语。例如,交互式媒体指南应用将“BernSand”识别为第一上下文词语。交互式媒体指南应用通过访问与第一上下文词语相关联的第一知识图以识别作为第一未知词语的含义的潜在词语来确定第一未知词语的含义。知识库包含有关数百万个实体及其与其它实体的关系的信息。知识库包含来自各种各样的来源(例如,百科全书、维基百科、新闻文章、社交媒体和其它类似来源)的实体的信息,并且可以提供与实体相关联的综合知识图。这些知识图通常包括实体与其它实体之间在所有时间段内累积的所有关系。在一些实施例中,交互式媒体指南应用可以基于潜在词语和未知词语之间的相似性来识别可能是未知词语的含义的潜在词语。例如,与第一上下文词语“BernSand”相关联的第一知识图可以从诸如维基百科的一般知识语料库中导出。由于词语“BillyCline”、“HileyCline”和“RyeCline”与未知词语“Cline”的相似性,交互式媒体指南应用可以将词语“BillyCline”、“HileyCline”和“RyeCline”识别为潜在词语。在一些实施例中,交互式媒体指南应用可以使用第一知识图中的词语的元数据描述符来确定该词语是否是潜在词语。例如,第一知识图可以包括词语“参议院”,并且相关联元数据的一部分可以是“HileyCline”。在这种情况下,交互式媒体指南应用可以将“参议院”确定为潜在词语。在一些实施例中,交互式媒体指南应用可以使用词语与第一上下文词语之间的关联强度作为过滤出最可能的潜在词语的第二步骤。关联强度可以是知识图中两个词语之间的归一化距离的倒数。例如,“BernSand”与“BillyCline”、“HileyCline”、“RyeCline”和“参议员(Senator)”各自之间的归一化关联强度分别为0.7、0.7、0.2和0.2。如果所需的阈值关联强度为0.5,那么交互式媒体指南应用可以基于第一知识图确定词语“BillyCline”和“HileyCline”是可能为第一个未知词语的含义的潜在词语。交互式媒体指南应用确定第一知识图是否包括多于一个可能是第一未知词语的含义的潜在词语。例如,交互式媒体指南应用可以使用布尔比较函数来确定与潜在词语的数量对应的计数器的值是否大于1。在确定第一知识图包括多于一个可能是第一未知词语的含义的潜在词语时,交互式媒体指南应用确定与文本段相关联的时间戳。时间戳可以是任何时间段,具体取决于文本段的起源和内容。例如,如果文本段是详细说明2010年至2016年期间竞选捐款政策的变化的报告,那么时间戳可以是2010年至2016年。对于社交媒体状态更新(例如,Twitter帖子)或自然语言查询,时间戳可以是更新或查询的确切日期和时间。时间戳用于导出关于文本段的内容与之相关的时间的信息。交互式媒体指南应用可以使用与文本段相关联的元数据来确定时间戳。例如,在线文章可以具有与它们相关联的起源日期。替代地,交互式媒体指南应用可以使用文本挖掘技术从文本段自身中提取时间指示符。例如,文本段可以包含在文本段中详细说明的事件的日期(例如,“OnJanuary11,2016(2016年1月11日),BernSandcalledoutCline...(伯恩萨德呼吁克莱因...)”)或可以用于推断时间戳的其它上下文信息(例如,“Speakingtohissupportersonthecoldestwinterdayrecordedin30years,BernSandcalledoutCline...(在30年来所记录的最寒冷的冬日向他的支持者们的讲话中,伯恩萨德呼吁克莱因...)”。例如,交互式媒体指南应用可以确定与该文本段相关联的时间戳是2016年1月11日。交互式媒体指南应用通过访问与第一上下文词语相关联并且与时间戳相关的第二知识图以确定作为第一未知词语的含义的潜在词语来确定第一未知词语的含义。实体之间的关联随时间而变化。因为第二知识图与和时间戳而不是所有时间段相关的特定时间相关联,所以第二知识图捕获实体之间的关联的时间维度。例如,如果学校男孩“RyeCline”向BernSand竞选捐赠他的午餐钱的新闻在一个特定的星期期间是趋势(trending),那么词语“BernSand”和“RyeCline”之间的关联在仅从与该星期相关联的语料库导出的知识图中是强的。但是,在从所有时间段内的语料库导出的知识图(例如,第一知识图)中,同样的这两个词语之间的关联将是弱的。通过访问与时间戳相关的第二知识图,交互式媒体指南应用能够确定在与文本段相关的时间段期间最重要的关联。例如,与第一上下文词语“BernSand”相关联并且与时间戳2016年1月11日相关的第二知识图可以是在2016年1月11日之前的这周期间从新闻文章、社交媒体和其它语料库捕获信息的知识图。先前讨论的交互式媒体指南应用可以从第二知识图中确定作为第一未知词语的含义的潜在词语的技术在此适用。在一些实施例中,第二知识图与特定时间间隔相关联,该特定时间间隔的位置是基于文本段的时间戳确定的。例如,特定时间间隔可以是一周。特定时间间隔可以是默认的时间间隔。通过使用特定时间间隔,交互本文档来自技高网...

【技术保护点】
1.一种用于基于时间知识图识别文本段中的有歧义词语的含义的方法,所述方法包括:确定与文本段相关联的时间戳;以及通过访问与文本段中的上下文词语相关联并且与时间戳相关的时间知识图以确定作为有歧义词语的含义的潜在词语来确定有歧义词语的含义。

【技术特征摘要】
【国外来华专利技术】2016.07.29 US 15/223,6981.一种用于基于时间知识图识别文本段中的有歧义词语的含义的方法,所述方法包括:确定与文本段相关联的时间戳;以及通过访问与文本段中的上下文词语相关联并且与时间戳相关的时间知识图以确定作为有歧义词语的含义的潜在词语来确定有歧义词语的含义。2.一种用于识别文本段中的有歧义词语的含义的方法,所述方法包括:识别文本段中的第一未知词语;针对第一上下文词语分析文本段;通过访问与第一上下文词语相关联的第一知识图以识别作为第一未知词语的含义的潜在词语来确定第一未知词语的含义;响应于确定第一知识图包括多于一个可能是第一未知词语的含义的潜在词语:确定与文本段相关联的时间戳;以及通过访问与第一上下文词语相关联并且与时间戳相关的第二知识图以确定作为第一未知词语的含义的潜在词语来确定第一未知词语的含义。3.如权利要求2所述的方法,其中,第二知识图与特定时间间隔相关联,并且其中,特定时间间隔的位置基于文本段的时间戳来确定。4.如权利要求3所述的方法,其中,与第二知识图相关联的特定时间间隔的持续时间短于与第一知识图相关联的时间间隔的持续时间。5.如权利要求3所述的方法,其中,与第二知识图相关联的特定时间间隔的位置使得与第二知识图相关联的特定时间间隔与时间戳重叠。6.如权利要求3所述的方法,其中,与第二知识图相关联的特定时间间隔的位置是以下之一:与第二知识图相关联的特定时间间隔在文本段的时间戳之前;以及与第二知识图相关联的特定时间间隔在文本段的时间戳之后。7.如权利要求3所述的方法,其中,特定时间间隔的持续时间部分地基于通过分析文本段而识别出的时间指示符。8.如权利要求3所述的方法,其中,特定时间间隔的持续时间部分地基于文本段的来源。9.如权利要求2所述的方法,还包括:确定第一知识图不包括任何可能是第一未知词语的含义的潜在词语;识别文本段中的第二上下文词语;基于第二上下文词语确定第一未知词语的含义。10.如权利要求3所述的方法,还包括:确定第二知识图包括多于一个可能是第一未知词语的含义的潜在词语;调整特定时间间隔的持续时间和特定时间间隔的位置中的至少一个;通过访问与第一上下文词语和特定时间间隔相关联的第三知识图以确定作为第一未知词语的含义的潜在词语来确定第一未知词语的含义。11.如权利要求3所述的方法,还包括:确定第二知识图不包括任何可能是第一未知词语的含义的潜在词语;调整特定时间间隔的持续时间和特定时间间隔的位置中的至少一个;通过访问与第一上下文词语和特定时间间隔相关联的第四知识图以确定作为第一未知词语的含义的潜在词语来确定第一未知词语的含义。12.一种用于识别文本段中的有歧义词语的含义的系统,所述系统包括:控制电路系统,被配置为:识别文本段中的第一未知词语;针对第一上下文词语分析文本段;通过访问与第一上下文词语相关联的第一知识图以识别作为第一未知词语的含义的潜在词语来确定第一未知词语的含义;响应于确定第一知识图包括多于一个可能是第一未知词语的含义的潜在词语:确定与文本段相关联的时间戳;以及通过访问与第一上下文词语相关联并且与时间戳相关的第二知识图以确定作为第一未知词语的含义的潜在词语来确定第一未知词语的含义。13.如权利要求12所述的系统,其中,第二知识图与特定时间间隔相关联,并且其中,特定时间间隔的位置基于文本段的时间戳来确定。14.如权利要求13所述的系统,其中,与第二知识图相关联的特定时间间隔的持续时间短于与第一知识图相关联的时间间隔的持续时间。15.如权利要求13所述的系统,其中,与第二知识图相关联的特定时间间隔的位置使得与第二知识图相关联的特定时间间隔与时间戳重叠。16.如权利要求13所述的系统,其中,与第二知识图相关联的特定时间间隔的位置是以下之一:与第二知识图相关联的特定时间间隔在文本段的时间戳之前;以及与第二知识图相关联的特定时间间隔在文本段的时间戳之后。17.如权利要求13所述的系统,其中,特定时间间隔的持续时间部分地基于通过分析文本段而识别出的时间指示符。18.如权利要求13所述的系统,其中,特定时间间隔的持续时间部分地基于文本段的来源。19.如权利要求12所述的系统,还包括:控制电路系统,被配置为:确定第一知识图不包括任何可能是第一未知词语的含义的潜在词语;识别文本段中的第二上下文词语;基于第二上下文词语确定第一未知词语的含义。20.如权利要求13所述的系统,还包括:控制电路系统,被配置为:确定第二知识图包括多于一个可能是第一未知词语的含义的潜在词语;调整特定时间间隔的持续时间和特定时间间隔的位置中的至少一个;通过访问与第一上下文词语和特定时间间隔相关联的第三知识图以确定作为第一未知词语的含义的潜在词语来确定第一未知词语的含义。21.如权利要求13所述的系统,还包括:控制电路系统,被配置为:确定第二知识图不包括任何可能是第一未知词语的含义的潜在词语;调整特定时间间隔的持续时间和特定时间间隔的位置中的至少一个;通过访问与第一上下文词语和特定时间间隔相关联的第四知识图以确定作为第一未知词语的含义的潜在词语来确定第一未知词语的含义。22.一种用于识别文本段中的有歧义词语的含义的系统,所述系统包括:用于识别文本段中的第一未知词语的部件;用于针对第一上下文词语分析文本段的部件;用于通过访问与第一上下文词语相关联的第一知识图以识别作为第一未知词语的含义的潜在词语来确定第一未知词语的含义的部件;响应于确定第一知识图包括多于一个可能是第一未知词语的含义的潜在词语:用于确定与文本段相关联的时间戳的部件;以及用于通过访问与第一上下文词语相关联并且与时间戳相关的第二知识图以确定作为第一未知词语的含义的潜在词语来确定第一未知词语的含义的部件。23.如权利要求22所述的系统,其中,第二知识图与特定时间间隔相关联,并且其中,特定时间间隔的位置基于文本段的时间戳来确定。24.如权利要求23所述的系统,其中,与第二知识图相关联的特定时间间隔的持续时间短于与第一知识图相关联的时间间隔的持续时间。25.如权利要求23所述的系统,其中,与第二知识图相关联的特定时间间隔的位置使得与第二知识图相关联的特定时间间隔与时间戳重叠。26.如权利要求23所述的系统,其中,与第二知识图相关联的特定时间间隔的位置是以下之一:与第二知识图相关联的特定时间间隔在文本段的时间戳之前;以及与第二知识...

【专利技术属性】
技术研发人员:M·马尔霍特拉S·万卡塔拉曼A·N·莫海迪恩匹
申请(专利权)人:乐威指南公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1