基于类关系词优化的篇章关系识别方法和装置制造方法及图纸

技术编号：36898742 阅读：22 留言：0更新日期：2023-03-18 09:19

本公开提供一种基于类关系词优化的篇章关系识别方法和装置，其中，方法包括：将两段篇章连接成一段文本；将文本输入关系分类模型中获取文本的篇章关系；其中，关系分类模型是通过下述方法进行训练得到：将两段样本篇章连接成一段文本；用噪音字符对文本中的多个类关系词进行替换，得到替换后的文本；获取对文本进行篇章关系判断的第一关系分布，以及文本关系标签预测正确的第一得分；获取对替换后的文本进行篇章关系判断的文本关系标签预测正确的第二得分；根据第一关系分布，第一关系分布对应的标准类别标签、第一得分和第二得分确定最终信息损失；进而判断模型的训练结果。本公开通过面向类关系词的优化目标函数，有助于提升篇章关系识别性能。篇章关系识别性能。篇章关系识别性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于类关系词优化的篇章关系识别方法和装置

[0001]本公开涉及计算机
，尤其涉及一种基于类关系词优化的篇章关系识别方法和装置。

技术介绍

[0002]篇章关系识别方法，是指对给定的两段文本片段，识别其之间的篇章关系的任务。具体来说，输入两段文本，例如(今天天气很好，昨天却很糟)，预测出其之间的篇章关系为：转折。但是，已有方法均把篇章文本中的部分词语作为离散特征加入到篇章关系分类器中，导致篇章关系识别的准确度不高。

技术实现思路

[0003]本公开提供一种基于类关系词优化的篇章关系识别方法和装置，用以解决现有技术中离散化运用类关系词，导致篇章关系分类不准确的缺陷，实现与神经网络模型相结合，准确区分篇章关系分类。
[0004]第一方面，本公开提供一种基于类关系词优化的篇章关系识别方法，包括：
[0005]获取两段篇章关系文本；
[0006]将所述两段篇章关系文本连接成一段待处理文本；
[0007]将所述待处理文本输入关系分类模型中获取所述待处理文本的篇章关系；
[0008]其中，所述关系分类模型是通过对一段文本进行关系词替换得到替换前后的两个文本，并基于对所述两个文本进行篇章关系预测的结果对训练的结果进行判断得到的。
[0009]根据本公开提供的一种基于类关系词优化的篇章关系识别方法，其中，所述关系分类模型是通过一段文本进行关系词替换得到替换前后的两个文本，并基于对所述两个文本进行篇章关系预测的结果对训练的结果进行判断得到的，具体包括：
[0...

【技术保护点】

【技术特征摘要】
1.一种基于类关系词优化的篇章关系识别方法，其特征在于，包括：获取两段篇章关系文本；将所述两段篇章关系文本连接成一段待处理文本；将所述待处理文本输入关系分类模型中获取所述待处理文本的篇章关系；其中，所述关系分类模型是通过对一段文本进行关系词替换得到替换前后的两个文本，并基于对所述两个文本进行篇章关系预测的结果对训练的结果进行判断得到的。2.根据权利要求1所述的基于类关系词优化的篇章关系识别方法，其特征在于，所述关系分类模型是通过对一段文本进行关系词替换得到替换前后的两个文本，并基于对所述两个文本进行篇章关系预测的结果对训练的结果进行判断得到的，具体包括：将两段样本篇章文本连接成一段文本；用噪音字符对所述文本中的多个类关系词进行替换，得到替换后的文本；获取对所述文本进行篇章关系判断的第一关系分布，以及所述文本关系标签预测正确的第一得分；获取对所述替换后的文本进行篇章关系判断的文本关系标签预测正确的第二得分；根据所述第一关系分布，所述第一关系分布对应的标准类别标签、所述第一得分和所述第二得分确定最终信息损失；根据所述最终信息损失对所述关系分类模型进行训练，得到训练完成的所述关系分类模型。3.根据权利要求2所述的基于类关系词优化的篇章关系识别方法，其特征在于，用噪音字符对所述文本中的多个类关系词进行替换，得到替换后的文本，具体包括：获取所述文本中所述两段篇章中的每一段篇章的前m个词和最后n个词作为类关系词；用噪音字符对所述类关系词进行替换，得到替换后的文本。4.根据权利要求2所述的基于类关系词优化的篇章关系识别方法，其特征在于，所述获取对所述文本进行篇章关系判断的第一关系分布，以及所述文本关系标签预测正确的第一得分，具体包括：对所述文本进行编码，得到所述文本的分类向量；根据所述文本的分类向量获取所述文本对应的第一关系分布；将所述第一关系分布中对所述文本关系判断正确的标签作为对所述文本关系标签预测正确的第一得分。5.根据权利要求2所述的基于类关系词优化的篇章关系识别方法，其特征在于，所述对所述替换后的文本进行编码，得到所述替换后的文本的分类向量，具体包括：对所述替换后的文本进行编码，得到所述替换后的文本的分类向量；根据所述替换后的文本的分类向量获取所述替换后的文本对应的第二关系分布；将所述替换的文本对应的第二关系分布中对所述替换的文本关系判断正确的标签作为对所述替换后的文本关系标签预测正确的第二得分。6.根据权利要求2所述的基于类关系词优化的篇章关系识别方法，其特征在于，所述根据所述第一关系分布，所述第一关系分布对应的标准类别标签、所述第一得分和所述第二得分确定最终信息损失，具体包括：将所述文本对应的第一关系分布与对应的标准类别标签进行比较确定交叉熵，将所述交叉熵作为第一信息损失；
根据所述第一得分和所述第二得分确定第二信息损失；根据所述第一信息损失和第二信息损失确定最终信息损失。7.根据权利要求6所述的基于类关系词优化的篇章关系识别方法，其特征在于，根据第一模型确定所述第二信息损失；所述第一模型为：Loss2＝s2+δ
‑
s1其中，Loss2表示第二信息损失，s2表示第二得分，s1表示第一得分，δ表示常数。8.根据权利要求6所述的基于类关系词优化的篇章关系识别方法，其特征在于，根据第二模型确定所述最终信息损失；所述第二模型为：Loss
final
＝Loss1+λ*Loss2其中，Loss
final
表示最终信息损失，Loss1表示第一信息损失，Loss2表示第二信息损失，λ表示权重。9.根据权利要求2所述的基于类关系词优化的篇章关系识别方法，其特征在于，所述根据所述最终信息损失判断所述模型的训练结果，具体包括：将所述最终信息损失与预设阈值进行比较；若所述最终信息损失大于所述预设阈值，则停止模型训练；若所述最终信息损失不大于所述预设阈值，则继续进行模型训练。10.一种基于类关系词优化的篇章关系识别装置，其特...

【专利技术属性】
技术研发人员：徐松，李浩然，
申请(专利权)人：北京京东尚科信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人