用于复杂语境的言论抽取模型训练方法、装置和电子设备制造方法及图纸

技术编号:38809087 阅读:17 留言:0更新日期:2023-09-15 19:47
本发明专利技术公开了用于复杂语境的言论抽取模型训练方法、装置和电子设备,属于语言智能处理技术领域。训练方法包括:构建标注有标签的言论内容变长文本为训练数据;利用训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签;利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。训练好的言论抽取模型能够在编码的词表示之上以一种更连续的方式适应具有不同结构的长跨度文本,不仅能够解决言论内容结构复杂和变长带来的抽取召回率和准确率低的问题,而且对于直接言论和间接言论的抽取都具有较高的召回率,模型的性能可以达到工业界可以实际使用的程度。的程度。的程度。

【技术实现步骤摘要】
用于复杂语境的言论抽取模型训练方法、装置和电子设备


[0001]本专利技术涉及语言智能处理
,尤其涉及一种用于复杂语境的言论抽取模型训练方法、装置和电子设备。

技术介绍

[0002]言论抽取的目标是从文本中抽取出言论三元组:言论持有者(source),触发词(cue)和言论内容(content)。比如说,对于给定文本,“Yetforallthesymbolismandfeel

goodvalueofsuchan appointment,somedemocratsprivatelyexpressreservationsabout entrustingaseatthatcoulddecidethebalanceofpowerintheclosely dividedsenatetoacandidatewhohasneverwonstatewide,isconsidered lessthandynamicandhasbeenananemicfundraiser.”,抽取到的言论持有者为“somedemocrats”,触发词为“privatelyexpress”,言论内容为“reservationsaboutentrustingaseatthatcoulddecidethebalanceof powerinthecloselydividedsenatetoacandidatewhohasneverwon statewide,isconsideredlessthandynamicandhasbeenananemic fundraiser.”。在该实例中,由于言论内容结构复杂,且长度是变化的,给言论抽取工作带来了很多挑战。言论内容一般会超过10个单词,甚至经常会超过50个单词,超过100个单词的也有,即言论内容的长度经常会比较长,为变长文本。此外,言论内容的句法形式变化多端,也增加了言论抽取工作的困难。比如,言论内容可以是一个具有完整的主语、谓语和宾语的句子,而主语、谓语很容易与言论持有者、触发词相混淆。以上这些情况都增加了言论三元组抽取的难度。
[0003]目前,言论抽取的方法主要是基于规则的方法。该方法在实施过程中主要有两种方式。一种方式是针对直接言论和间接言论。一般来说,言论包括直接言论和间接言论两种,区别在于直接言论采用引号标识,其边界十分明显。因此直接言论可以很容易被采用规则的方式提取。而间接言论没有明显的边界,不适宜采用规则的方式提取。但是,间接言论在实际文本中的占比却很大,这就导致基于规则的方法覆盖率低。另一种基于规则的实施方式是先识别触发词,再去抽取言论持有者和言论内容。但是,基于规则的方式提取的触发词准确率低。识别触发词后采用搜索的方法查找最接近的名词作为言论持有者。显然,言论持有者的准确率也会很低。因此,基于规则的方法只能覆盖到有限的例子,造成严重的低召回率问题。
[0004]除了基于规则的方法,还有一种方法是将言论抽取任务形式转化为序列标注问题。但是,该方法忽略了言论内容的长度变大(变长)的特性以及言论内容的结构复杂性。因此,目前的序列标注方法在言论内容抽取上的表现也不能满足要求。

技术实现思路

[0005]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
[0006]本专利技术第一方面提供了一种用于复杂语境的言论抽取模型训练方法,包括:
[0007]构建训练数据,所述训练数据为标注有标签的言论内容变长文本;
[0008]利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签;
[0009]利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。
[0010]优选地,所述利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签包括:
[0011]对所述变长文本进行编码,得到所述所述变长文本中各个单词的隐变量表示;
[0012]对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示;
[0013]利用所述变长文本的语义表示计算各个单词的标签概率分布,并基于标签概率分布选择标签。
[0014]优选地,所述对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示包括:
[0015]利用输入加强层对各个单词的隐变量表示进行格式化得到格式化信息,所述格式化信息包括当前单词的隐变量表示、当前单词前文的隐藏层状态、当前单词后文的隐藏层状态以及当前单词前文单词的标签;
[0016]对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示。
[0017]优选地,所述对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示包括:
[0018]利用门控制层使用门机制控制所述格式化信息并将结果输入至注意力控制层;
[0019]利用所述注意力控制层使用注意力机制在向量级别对所述格式化信息进行加权,得到所述变长文本的语义表示。
[0020]优选地,所述利用输出的标签与标注的标签优化所述言论抽取模型的参数包括:采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估。
[0021]优选地,所述采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估包括:
[0022][0023]公式中,表示单词i在标签j上的真实值,表示所述模型的预测值,θ表示模型参数集合,L(θ)表示评估值。
[0024]本专利技术第二方面提供了一种用于复杂语境的言论抽取方法,包括:
[0025]将待抽取言论内容的文本输入到训练好的言论抽取模型中,抽取到言论内容;
[0026]其中,所述训练好的言论抽取模型预先采用如第一方面所述的言论抽取模型训练方法训练得到。
[0027]本专利技术第三方面提供了一种用于复杂语境的言论抽取模型训练装置,包括:
[0028]训练数据构建模块,用于构建训练数据,所述训练数据为标注有标签的言论变长文本;
[0029]训练模块,用于利用所述训练数据对言论抽取模型进行训练,通过学习变长文本
的语义表示以输出所述变长文本中每个单词的标签;
[0030]优化模块,用于利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。
[0031]本专利技术第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的言论抽取模型训练方法,或如第二方面所述的言论抽取方法。
[0032]本专利技术第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如如第一方面所述的言论抽取模型训练方法,或如第二方面所述的言论抽取方法。
[0033]本专利技术的有益效果是:本专利技术提供的训练方法,通过对变长文本进行语义学习,考虑单词的上下文联系,使得训练得到的言论抽取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于复杂语境的言论抽取模型训练方法,其特征在于,包括:构建训练数据,所述训练数据为标注有标签的言论内容变长文本;利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签;利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。2.如权利要求1所述的用于复杂语境的言论抽取模型训练方法,其特征在于,所述利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签包括:对所述变长文本进行编码,得到所述所述变长文本中各个单词的隐变量表示;对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示;利用所述变长文本的语义表示计算各个单词的标签概率分布,并基于标签概率分布选择标签。3.如权利要求2所述的用于复杂语境的言论抽取模型训练方法,其特征在于,所述对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示包括:利用输入加强层对各个单词的隐变量表示进行格式化得到格式化信息,所述格式化信息包括当前单词的隐变量表示、当前单词前文的隐藏层状态、当前单词后文的隐藏层状态以及当前单词前文单词的标签;对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示。4.如权利要求3所述的用于复杂语境的言论抽取模型训练方法,其特征在于,所述对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示包括:利用门控制层使用门机制控制所述格式化信息并将结果输入至注意力控制层;利用所述注意力控制层使用注意力机制在向量级别对所述格式化信息进行加权,得到所述变长文本的语义表示。5.如权利要求1所述的用于复杂语境的...

【专利技术属性】
技术研发人员:王业全李响姜鑫
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1