文本信息的论元抽取方法、装置、设备及存储介质制造方法及图纸

技术编号：38468157 阅读：11 留言：0更新日期：2023-08-11 14:45

本发明专利技术提供一种文本信息的论元抽取方法、装置、设备及存储介质，方法包括：分析待处理的文本信息，得到文本信息对应的句法图；将句法图输入至预先设置的语义图生成模型中，得到语义图生成模型输出的文本信息对应的语义图；其中，语义图生成模型用于基于句法图中的向量特征构建语义图；将语义图和在文本信息中预先设置的触发词输入至预先设置的游走模型中，得到游走模型输出的目标路径和目标路径对应的论元抽取结果；其中，游走模型用于：以触发词对应的节点为起点，基于游走路径确定目标路径，并确定通过目标路径抽取的目标论元及其对应的类型，作为论元抽取结果。本发明专利技术实施例有效提高了模型的可解释性。高了模型的可解释性。高了模型的可解释性。

全部详细技术资料下载

【技术实现步骤摘要】
文本信息的论元抽取方法、装置、设备及存储介质

[0001]本专利技术涉及文本信息抽取
，尤其涉及一种文本信息的论元抽取方法、装置、设备及存储介质。

技术介绍

[0002]主流的事件检测方法，通常分为触发词识别和论元抽取两个部分。其中，论元抽取相较于触发词识别，其结果及内容成分更加复杂多样，通常需要抽取蕴含语义的实体或短语而非单个词汇，因此抽取精度往往较低且更受研究者关注。
[0003]为了提高论元的抽取精度，目前的研究将句法图作为一项十分重要的上下文信息，作为图卷积神经网络(Graph Convolutional Network，GCN)模型的输入，以利用GCN对句法图中的特征进行提取，得到特征向量，再将特征向量输入至另一个神经网络模型中，得到该神经网络模型输出的论元抽取结果。
[0004]但是，上述神经网络模型可以理解为是一个黑盒模型，缺少论元抽取过程，模型的可解释性差。

技术实现思路

[0005]本专利技术提供一种文本信息的论元抽取方法、装置、设备及存储介质，用以解决现有技术中论元抽取方法中模型的可解释性差的问题。
[0006]本专利技术提供一种文本信息的论元抽取方法，包括：
[0007]分析待处理的文本信息，得到所述文本信息对应的句法图；其中，所述句法图包括以下至少一项：词向量、实体类型向量和句法成分向量；
[0008]将所述句法图输入至预先设置的语义图生成模型中，得到所述语义图生成模型输出的所述文本信息对应的语义图；其中，所述语义图生成模型用于基于...

【技术保护点】

【技术特征摘要】
1.一种文本信息的论元抽取方法，其特征在于，包括：分析待处理的文本信息，得到所述文本信息对应的句法图；其中，所述句法图包括以下至少一项：词向量、实体类型向量和句法成分向量；将所述句法图输入至预先设置的语义图生成模型中，得到所述语义图生成模型输出的所述文本信息对应的语义图；其中，所述语义图生成模型用于基于所述句法图中的向量特征构建所述语义图，所述语义图中包括至少两个词对应的节点和至少一条节点间的游走路径；将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果；其中，所述游走模型用于：以所述触发词对应的节点为起点，基于所述游走路径确定目标路径，并确定通过所述目标路径抽取的目标论元及其对应的类型，作为所述论元抽取结果。2.根据权利要求1所述的文本信息的论元抽取方法，其特征在于，所述游走模型包括环境模型和无模型的强化学习模型；所述将所述语义图和在所述文本信息中预先设置的触发词输入至预先设置的游走模型中，得到所述游走模型输出的目标路径和所述目标路径对应的论元抽取结果，包括：将所述语义图和所述触发词输入至所述环境模型中，得到所述环境模型输出的第一路径；其中，所述环境模型用于以所述触发词对应的节点为起点，基于所述游走路径确定所述第一路径；将所述语义图、所述触发词和所述第一路径输入至所述无模型的强化学习模型中，得到所述无模型的强化学习模型输出的所述目标路径和所述论元抽取结果；其中，所述无模型的强化学习模型用于：以所述触发词对应的节点为起点，基于所述第一路径和所述游走路径确定所述目标路径，并确定所述目标论元及其对应的类型，作为所述论元抽取结果。3.根据权利要求2所述的文本信息的论元抽取方法，其特征在于，所述环境模型具体用于：基于概率分布M
θ
(s
′
|s,a)，以所述触发词对应的节点为起点，基于所述游走路径确定所述第一路径；其中，s表征当前的游走状态，s
′
表征所述当前的游走状态的下一个状态，a表征各所述游走路径，θ表征待优化的环境模型参数。4.根据权利要求3所述的文本信息的论元抽取方法，其特征在于，在所述将所述语义图和所述触发词输入至所述环境模型中，得到所述环境模型输出的第一路径之前，所述方法还包括：通过最小化预先设置的候选模型的损失函...

【专利技术属性】
技术研发人员：何赛克，闫硕，张培杰，曾大军，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人