一种实现指代消解的方法及装置制造方法及图纸

技术编号:24170230 阅读:28 留言:0更新日期:2020-05-16 02:42
本文公开了一种实现指代消解的方法及装置。所述方法包括:向语言模型输入句子样本,对语言模型进行无监督预训练:随机掩盖句子样本的一部分原文,训练语言模型通过上下文的信息预测被掩盖的原文部分;所述语言模型是基于神经网络的NLP模型;对经过无监督预训练的语言模型进行针对指代消解任务的有监督训练:向语言模型输入句子样本以及照应语的信息,训练语言模型预测照应语在句子中指代的先行语,为语言模型的输出添加指示先行语信息的输出标签;向经过有监督训练的语言模型输入句子和照应语的信息,利用语言模型预测所述照应语在句子中指代的先行语。本文的技术方案能通过神经网络机器学习代替大量的语言学特征设计以实现指代消解。

A method and device to realize anaphora resolution

【技术实现步骤摘要】
一种实现指代消解的方法及装置
本专利技术涉及计算机
,尤其涉及的是一种实现指代消解的方法及装置。
技术介绍
指代是自然语言中常见的语言现象,它对于简化表述,衔接上下文起着重要的作用。例如:小明的妈妈是一名工程师,她也很喜欢料理。句中代词“她”所指代的是“小明的妈妈”。在自然语言理解任务中,只有计算机清楚地了解这种指代的语言结构才能更好地理解语言所表达的具体信息。在语言学中,指代词称为照应语,所指的对象或内容称为先行语。先行语可以在照应语前面,也可以在照应语后面。指代消解,就是确定照应语与先行语之间的相互关系,从而明确照应语指代的是什么对象。相关技术中,指代消解通常采用基于句法分析的指代消解,这种方法利用句法层面知识,以启发式方法解决指代消解,比如RAP(ResolutionofAnaphoraProcedure,过程消解)等。但是这种方法需要人工构建大量的语言学特征,模型的好坏很大程度上取决于对语言学特征的设计,如果对语言学的了解不够,则会影响模型的预测效果。
技术实现思路
本文提供一种实现指代消解的方法及装置,能够通过神经网络机器学习代替大量的语言学特征设计以实现指代消解。根据本申请的第一方面,本专利技术实施例提供一种实现指代消解的方法,包括:向语言模型输入句子样本,对所述语言模型进行无监督预训练:随机掩盖所述句子样本的一部分原文,训练所述语言模型通过上下文的信息预测被掩盖的原文部分;其中,所述语言模型是基于神经网络的自然语言处理NLP模型;对所述经过无监督预训练的语言模型进行针对指代消解任务的有监督训练:向所述语言模型输入句子样本以及所述句子样本中照应语的信息,训练所述语言模型预测照应语在句子中指代的先行语,为所述语言模型的输出添加指示先行语信息的输出标签;向所述经过有监督训练的语言模型输入句子和照应语的信息,利用所述语言模型预测所述照应语在句子中指代的先行语。根据本申请的第二方面,本专利技术实施例提供一种实现指代消解的装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的实现指代消解的程序,所述实现指代消解的程序被所述处理器执行时实现上述实现指代消解的方法的步骤。根据本申请的第三方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实现指代消解的程序,所述实现指代消解的程序被处理器执行时实现上述实现指代消解的方法的步骤。与相关技术相比,本专利技术实施例提供的一种实现指代消解的方法及装置,在无监督训练阶段,向语言模型输入句子样本,对所述语言模型进行无监督预训练:随机掩盖所述句子样本的一部分原文,训练所述语言模型通过上下文的信息预测被掩盖的原文部分;其中,所述语言模型是基于神经网络的自然语言处理NLP模型;在有监督训练阶段,对所述经过无监督预训练的语言模型进行针对指代消解任务的有监督训练:向所述语言模型输入句子样本以及所述句子样本中照应语的信息,训练所述语言模型预测照应语在句子中指代的先行语,为所述语言模型的输出添加指示先行语信息的输出标签;在模型预测阶段,向所述经过有监督训练的语言模型输入句子和照应语的信息,利用所述语言模型预测所述照应语在句子中指代的先行语。本专利技术实施例的技术方案能够通过神经网络机器学习代替大量的语言学特征设计以实现指代消解。附图说明图1为本专利技术实施例1的一种实现指代消解的方法的流程图;图2为本专利技术实施例1中对语言模型进行无监督训练的示意图;图3为本专利技术实施例1中对语言模型进行有监督训练时的输入信息矩阵的示意图;图4为本专利技术实施例1中对语言模型进行有监督训练时的输出信息以及输出标签的示意图;图5为本专利技术实施例2的一种实现指代消解的装置的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例1如图1所示,本专利技术实施例提供了一种实现指代消解的方法,包括:步骤S110,向语言模型输入句子样本,对所述语言模型进行无监督预训练:随机掩盖所述句子样本的一部分原文,训练所述语言模型通过上下文的信息预测被掩盖的原文部分;其中,所述语言模型是基于神经网络的自然语言处理NLP模型;步骤S120,对所述经过无监督预训练的语言模型进行针对指代消解任务的有监督训练:向所述语言模型输入句子样本以及所述句子样本中照应语的信息,训练所述语言模型预测照应语在句子中指代的先行语,为所述语言模型的输出添加指示先行语信息的输出标签;步骤S130,向所述经过有监督训练的语言模型输入句子和照应语的信息,利用所述语言模型预测所述照应语在句子中指代的先行语。步骤S110中,在一种实施方式中,所述语言模型是采用Transformer作为特征抽取器的自然语言处理NLP模型。在其他的实施方式中,所述语言模型也可以采用其他的神经网络编码器作为特征抽取器,比如采用CNN(ConvolutionalNeuralNetwork,卷积神经网络)或RNN(RecurrentNeuralNetworks,循环神经网络)作为特征抽取器。Transformer是谷歌公司于2017年提出的网络架构。目前,在自然语言处理NLP领域,Transformer与CNN、RNN一起被公认为三大特征提取器。Transformer采用层叠的TransformerEncoder(Transformer编码器)。通常层叠的层数越多,学习效果越好。在一种实施方式中,所述对所述语言模型进行无监督预训练,包括:采用自编码(AutoEncoding)的方式对所述语言模型进行预训练;传统的语言模型训练方法多基于自回归(AutoRegressive)的模式,根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来,就是根据下文预测前面的单词。自回归语言模型有优点也有缺点,缺点是只能利用上文或者下文的信息,不能同时利用上文和下文的信息,优点是天然适应生成类的任务,比如文本摘要,机器翻译等,在实际生成内容的时候,就是从左向右的,自回归语言模型天然匹配这个过程。然而,指代消解任务通常是需要结合上下文去判断代词(照应语)所指的具体事物(先行语)。由于指代消解任务通常是需要结合上下文去判断代词(照应语)所指的具体事物(先行语),因此,本专利技术实施例1的技术方案采用自编码的方式对所述语言模型进行预训练。自编码通过自编码器(Autoencoder)进行机器学习。自编码器是能够在无监督的情况下学习输入数据的有效表示的神经网络,经过训练后能尝试将输入复制到输出。自编码器内部有一个隐藏层h,可以产生编码表本文档来自技高网...

【技术保护点】
1.一种实现指代消解的方法,包括:/n向语言模型输入句子样本,对所述语言模型进行无监督预训练:随机掩盖所述句子样本的一部分原文,训练所述语言模型通过上下文的信息预测被掩盖的原文部分;其中,所述语言模型是基于神经网络的自然语言处理NLP模型;/n对所述经过无监督预训练的语言模型进行针对指代消解任务的有监督训练:向所述语言模型输入句子样本以及所述句子样本中照应语的信息,训练所述语言模型预测照应语在句子中指代的先行语,为所述语言模型的输出添加指示先行语信息的输出标签;/n向所述经过有监督训练的语言模型输入句子和照应语的信息,利用所述语言模型预测所述照应语在句子中指代的先行语。/n

【技术特征摘要】
1.一种实现指代消解的方法,包括:
向语言模型输入句子样本,对所述语言模型进行无监督预训练:随机掩盖所述句子样本的一部分原文,训练所述语言模型通过上下文的信息预测被掩盖的原文部分;其中,所述语言模型是基于神经网络的自然语言处理NLP模型;
对所述经过无监督预训练的语言模型进行针对指代消解任务的有监督训练:向所述语言模型输入句子样本以及所述句子样本中照应语的信息,训练所述语言模型预测照应语在句子中指代的先行语,为所述语言模型的输出添加指示先行语信息的输出标签;
向所述经过有监督训练的语言模型输入句子和照应语的信息,利用所述语言模型预测所述照应语在句子中指代的先行语。


2.如权利要求1所述的方法,其特征在于:
所述对所述语言模型进行无监督预训练,包括:
采用自编码的方式对所述语言模型进行预训练。


3.如权利要求1所述的方法,其特征在于:
所述训练所述语言模型预测照应语在句子中指代的先行语,包括:
对输入所述语言模型的句子以及照应语的信息进行文本数字化以及位置信息编码,生成输入信息矩阵;
利用所述语言模型对所述输入信息矩阵进行模型运算输出输出信息矩阵,所述输出信息矩阵携带所述照应语在句子中指代的先行语的信息;
其中,所述语言模型是经过无监督预训练的语言模型。


4.如权利要求3所述的方法,其特征在于:
所述利用所述语言模型预测所述照应语在句子中指代的先行语,包括:
对输入所述语言模型的句子以及照应语的信息进行文本数字化以及位置信息编码,生成输入信息矩阵;
利用所述语言模型对所述输入信息矩阵进行模型运算输出输出信息矩阵,所述输出信息矩阵携带所述照应语在句子中指代的先行语的信息;
其中,所述语言模型是经过有监督训练的语言模型。


5.如权利要求3或4所述的方法,其特征在于:
所述对输入所述语言模型的句子以及照应语的信息进行文本数字化以及位置信息编码,生成输入信息矩阵,包括:
将句子中的每一个信息单元的文本信息通过文本数字化转化为字向量或词向量,由所述句子的所有信息单元的字向量或词...

【专利技术属性】
技术研发人员:陈栋付骁弈
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1