用于多层单词表示的语言特征生成的系统和方法技术方案

技术编号:19075825 阅读:33 留言:0更新日期:2018-09-29 17:51
提供了一种计算机实现的方法,用于输出一个或多个跨层模式以识别文本中的目标语义现象,该方法包括:对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词,提取由各个层定义的多个特征值;统计分析为多个训练文本片段识别的多个特征值,以识别包括表示共同模式的多个层的一个或多个跨层模式,共同跨层模式定义一个或多个单词的相应层的一个或多个特征值和另一个单词的另一个相应层的至少另一个特征值;并输出所识别的跨层图案以识别表示目标语义现象的文本片段。

【技术实现步骤摘要】
【国外来华专利技术】用于多层单词表示的语言特征生成的系统和方法
技术介绍
本专利技术在其一些实施例中涉及机器学习,并且更具体地但非排他地,涉及用于识别人类可读文本中的目标的自动机器学习的系统和方法。已经开发了不同的方法来识别人类可读文本中的模式。例如,已经开发了一些方法来识别文本中的一对单词(主要是名词),这些单词在特定的、明确定义的语义关系中彼此相关。例如,作者标题,人物生日,上位词和缩写词。
技术实现思路
根据本专利技术的一些实施例的一方面,提供了一种用于输出一个或多个跨层模式以识别文本中的目标语义现象的计算机实现的方法,该方法包括:对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词,提取由各个层定义的多个特征值;统计分析为多个训练文本片段识别的多个特征值,以识别包括表示多个训练文本片段的共同模式的多个层的一个或多个跨层模式,共同跨层模式定义至少一个单词的相应层的一个或多个特征值和另一个单词的另一个相应层的至少另一个特征值;和输出所识别的跨层模式,用于识别表示目标语义现象的文本片段。可选地,该方法还包括训练统计分类器,以通过将从新文本片段提取的特征值与至少一个跨层模式匹配或相关来识别目标语义现象;存储或传输经过训练的统计分类器,用于分析新文本以识别代表该文本的新文本片段目标语义现象。可选地,对训练指定为不表示目标语义现象的文本片段执行识别,并且基于从被指定为不表示目标语义现象的训练文本片段中提取的特征值来训练分类器。可选地,跨层模式包括至少一个负特征值,其不出现在包括目标语义现象的文本片段中。可选地,跨层模式的每层是选自由以下各项组成的组的成员:语义,句法,领域知识,和通过任务专家的知识注入。可选地或另外地,跨层模式的每一层是选自由以下各项组成的组的成员:单词的词性(POS)标签,单词的上位词,由单词表示的命名实体,单词表示的情感,在预定词典中出现的单词。可选地,跨层模式包括与多个不同层相关联的文本片段中的一个或多个单词。可选地,针对一个或多个单词组合多个不同的层。可选地,跨层模式包括文本片段中的两个或更多个不同的单词,每个单词与不同的层相关联。可选地,与两个或更多个不同单词相关联的不同层由跨层模式内的顺序定义。可选地,目标语义现象是由以下各项组成的组的成员:定义,提供支持或反对主题的证据的陈述,由实体在没有证据情况下做出的关于某个主题的事情就是这样的陈述,以及一个实体就某个主题表达的情感。可选地,跨层模式包括在两个或更多个层之间的至少一个限定的间隙,每个层来自不同的单词。可选地,通过迭代地组合特征来创建跨层模式以生成更长的跨层模式。可选地,该方法还包括在每次迭代结束时应用贪婪分析以识别根据准确预测的概率排序的顶部预定义数量的跨层模式。可选地,基于与其他先前选择的较高等级特征的相关性要求来选择顶部预定义数量的跨层模式。可选地或另外地,通过组合和按顺序添加另一个单词的另一个特征来执行组合特征。可选地或另外地,通过组合地添加相同单词的另一特征来执行组合特征。根据本专利技术的一些实施例的一方面,提供了一种计算机实现的方法,用于将至少一个跨层模式应用于至少一个文本片段以识别目标语义现象,该方法包括:提取来自人类可读文本的每个文本片段中的至少一些单词的多个特征值,每个特征值由相应的层定义;将多个特征值与至少一个跨层模式匹配或相关;当找到匹配或相关时,在每个相应的文本片段中输出目标语义现象的指示。可选地,通过将训练的统计分类器应用于多个特征值来执行与至少一个跨层模式的匹配或关联。根据本专利技术的一些实施例的一方面,提供了一种识别文本中的目标语义现象的系统,包括:数据接口,用于接收表示目标语义现象的多个训练文本片段;存储代码的程序存储器;处理器,耦合到数据接口和程序存储器,用于实现存储的代码,该代码包括:用于为多个训练文本片段中的至少一些单词的每个单词提取由各层定义的多个特征值的代码;用于统计分析多个特征值以识别至少一个跨层模式的代码,所述跨层模式包括表示多个训练文本片段的共同模式的多个层,所述共同跨层模式定义至少一个特征值至少一个单词的相应层和另一个单词的另一个相应层的至少另一个特征值;和用于输出所识别的至少一个跨层模式,用于识别表示目标语义现象的文本片段。除非另外定义,否则本文使用的所有技术和/或科学术语具有与本专利技术所属领域的普通技术人员通常理解的含义相同的含义。尽管与本文描述的那些类似或等同的方法和材料可用于实践或测试本专利技术的实施方案,但下文描述了示例性方法和/或材料。如有冲突,本专利说明书将控制,包括定义。另外,材料,方法和实施例仅是说明性的,并非旨在限制。附图说明仅通过举例的方式,本文中参考附图描述了本专利技术的一些实施例。现在详细地具体参考附图,要强调的是,所示的细节是作为示例并且出于说明性讨论本专利技术的实施例的目的。在这方面,通过附图进行的描述使得本领域技术人员清楚如何实施本专利技术的实施例。在图中图1是根据本专利技术的一些实施例的用于输出识别文本中的目标语义现象的至少一个跨层模式的计算机实现的方法的流程图;图2是根据本专利技术的一些实施例的应用至少一个跨层模式以识别文本中的目标语义现象的系统的框图;图3是根据本专利技术的一些实施例的示例性计算机实现的方法的流程图,该方法组合特征以创建指示表示目标语义现象的文本片段的统计上显著的跨层模式;图4是根据本专利技术的一些实施例的用于将至少一个跨层模式应用于文本以识别目标语义现象的存在的计算机实现的方法的流程图;和图5是根据本专利技术的一些实施例的用于识别在句子中进行的声明的存在的示例性跨层模式的列表。具体实施方式在本专利技术的一些实施例中,本专利技术涉及机器学习,并且更具体地但非排他地,涉及用于识别人类可读文本中的目标的自动机器学习的系统和方法。本专利技术的一些实施例的一方面涉及输出至少一个跨层模式的系统和/或方法(例如,执行实现该方法的指令的代码的处理器),该跨层模式识别人类可读的目标语义现象。文本片段内的文本(例如,存储为文件,可选地文本文件),例如,短语,预定数量的单词(例如,窗口),句子,预定数量的句子或文本的段落。系统和/或方法可以训练统计分类器以使用所识别的跨层模式来识别目标语义现象。目标语义现象可以是抽象的或难以使用一组人类输入的指令来定义,但是可以通过阅读例如其中实体(例如,个人,组织)提出声明的句子来识别人类。(即,关于特定主题的断言,某些事情是真实的而不一定提供证据)。本文描述的系统和/或方法可以输出一个或多个跨层模式,其指示实体对句子中的主题做出声明。训练的统计分类器可以通过将从文本片段的单词提取的特征值与一个或多个跨层模式相关联和/或匹配来应用跨层模式来识别新文本中的目标语义现象。跨层模式可以被认为是通用或通用指纹或模板,其基于从文本提取的特征值来识别多单词文本中的目标语义现象,诸如文本片段,短语,预定义的窗口定义了被分析的多个单词(例如,3个,5个,10个单词),单个句子,多个句子和/或段落。跨层模式表示对于表示目标语义现象的多个句子(或其他文本片段)共同的一组层。跨层模式概括了从多个短语,文本片段或句子中的多个单词提取的多个特征值,其可以包括来自相同单词的多个特征值,和/或来自不同单词的不同特征值。跨层模式可以定义特征值的顺序和/或特征值的组合。特征值可以与处理本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,用于输出至少一个跨层模式以识别文本中的目标语义现象,该方法包括:对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词,提取由各个层定义的多个特征值;统计分析为多个训练文本片段识别的多个特征值,以识别包括表示多个训练文本片段的共同模式的多个层的至少一个跨层模式,共同跨层模式定义至少一个单词的相应层的至少一个特征值和另一个单词的另一个相应层的至少另一个特征值;和输出所识别的至少一个跨层模式,用于识别表示目标语义现象的文本片段。

【技术特征摘要】
【国外来华专利技术】2016.02.09 US 15/018,8771.一种计算机实现的方法,用于输出至少一个跨层模式以识别文本中的目标语义现象,该方法包括:对于被指定为表示目标语义现象的多个训练文本片段的每个训练文本片段的至少一些单词的每个单词,提取由各个层定义的多个特征值;统计分析为多个训练文本片段识别的多个特征值,以识别包括表示多个训练文本片段的共同模式的多个层的至少一个跨层模式,共同跨层模式定义至少一个单词的相应层的至少一个特征值和另一个单词的另一个相应层的至少另一个特征值;和输出所识别的至少一个跨层模式,用于识别表示目标语义现象的文本片段。2.如权利要求1所述的方法,还包括:通过将从新文本片段提取的特征值与至少一个跨层模式中的至少一个进行匹配或相关来训练统计分类器以识别目标语义现象;和存储或发送训练的统计分类器以分析新文本以识别表示目标语义现象的至少一个新文本片段。3.如权利要求2所述的方法,其中,执行由各个层定义的多个特征值的提取,用于训练被指定为不表示目标语义现象的文本片段,并且基于从该被指定为不表示目标语义现象的文本片段的训练中提取的特征值来训练所述分类器。4.如权利要求1所述的计算机实现的方法,其中,所述跨层模式包括至少一个负特征值,所述负特征值不出现在包括所述目标语义现象的文本片段中。5.如权利要求1所述的计算机实现的方法,其中,所述至少一个跨层模式的所述多个层中的每个层是从由以下各项组成的组中选择的成员:语义,句法,领域知识,通过任务专家的知识注入,单词的词性(POS)标签,单词的上位词,由单词表示的命名实体,由单词表示的情感,出现在预定义词典中的单词。6.如权利要求1所述的计算机实现的方法,其中,所述跨...

【专利技术属性】
技术研发人员:E施纳奇R莱维N斯洛尼姆
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1