文本处理方法及装置、智能设备、存储介质、产品制造方法及图纸

技术编号：39280197 阅读：7 留言：0更新日期：2023-11-07 10:54

本申请提供文本处理方法及装置、智能设备、存储介质、产品，该方法包括：获取待处理文本，待处理文本是由目标实体对构成的语句；提取待处理文本的待处理关系特征向量，将待处理关系特征向量输入目标关系识别模型中进行关系识别处理，得到待处理文本中的目标实体对所属的预测关系类别；其中，目标关系识别模型是根据目标损失参数对初始关系识别模型进行参数调整得到；目标损失参数是根据训练特征向量集包括的各个关系特征向量对应的关系标签和关系概率确定的；训练特征向量集包括伪关系特征向量和样本文本的样本关系特征向量，伪关系特征向量是根据至少两个以上的样本文本的样本关系特征向量构造得到。采用上述方法可提升实体关系识别的准确性。实体关系识别的准确性。实体关系识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法及装置、智能设备、存储介质、产品

[0001]本申请涉及人工智能应用
，尤其涉及一种文本处理方法、一种文本处理装置、一种智能设备、一种计算机可读存储介质、一种计算机程序产品。

技术介绍

[0002]实体关系识别，即实体关系抽取，旨在从大规模非结构或半结构的自然语言语句中抽取结构化信息，以确定自然语言语句中的各实体之间的语义关系，可以解决自然语言语句中实体之间分类的问题，也是构建复杂知识库系统的重要基础，如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。
[0003]现有业务中的实体关系识别方法只能识别出预定义关系集合中的关系类别，然而随着时间的变化，新的关系类别往往会不断出现，例如，“小月隶属于机构1”中的“隶属于”属于一种未包含在预定义关系集合中的新出现的未知关系类别，现有方法往往会将这种新的未知关系类别错误地识别为预定义关系集合中的已知关系类别，导致实体关系识别的准确率较低。

技术实现思路

[0004]本申请实施例提供了一种文本处理方法及装置、智能设备、存储介质、产品，可提升实体关系识别的准确性。
[0005]一方面，本申请实施例提供了一种文本处理方法，所述方法包括：
[0006]获取待处理文本，所述待处理文本是由目标实体对构成的语句；
[0007]提取所述待处理文本的待处理关系特征向量，并将所述待处理关系特征向量输入目标关系识别模型中进行关系识别处理，得到所述待处理文本中的所述目标实体对所属的预测关系类别；
[0008]其中，所述目标...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：获取待处理文本，所述待处理文本是由目标实体对构成的语句；提取所述待处理文本的待处理关系特征向量，并将所述待处理关系特征向量输入目标关系识别模型中进行关系识别处理，得到所述待处理文本中的所述目标实体对所属的预测关系类别；其中，所述目标关系识别模型是根据目标损失参数对初始关系识别模型进行参数调整得到；所述目标损失参数是根据训练特征向量集包括的各个关系特征向量对应的关系标签和关系概率确定的，所述关系概率包括所述关系特征向量在各个关系类别上的预测概率，所述关系概率是所述初始关系识别模型对所述关系特征向量进行关系识别处理得到，所述各个关系类别包括已知关系类别和未知关系类别；所述训练特征向量集包括伪关系特征向量和样本文本的样本关系特征向量，所述样本文本是由样本实体对构成的语句，所述样本实体对所属的关系类别为已知关系类别，所述伪关系特征向量是根据两个或两个以上的样本文本的样本关系特征向量构造得到。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取多个样本文本以及每个样本文本对应的已知关系类别，并提取所述每个样本文本的样本关系特征向量；根据所述每个样本文本对应的已知关系类别，确定所述每个样本文本的样本关系特征向量对应的关系标签；在构造所述训练特征向量集中的任一伪关系特征向量时，从所述多个样本文本的样本关系特征向量中选取两个或两个以上的样本关系特征向量，对选取的两个或两个以上的样本关系特征向量进行构造处理，得到伪关系特征向量；根据未知关系类别确定所述伪关系特征向量对应的关系标签。3.根据权利要求2所述的方法，其特征在于，选取的样本关系特征向量为两个，包括第一样本关系特征向量和第二样本关系特征向量；所述对选取的两个或两个以上的样本关系特征向量进行构造处理，得到伪关系特征向量，包括：从第一数值区间中选取第一系数，并根据设定参数与所述第一系数之间的差值确定第二系数；采用所述第一系数对所述第一样本关系特征向量进行变换处理，以及采用所述第二系数对所述第二样本关系特征向量进行变换处理；将变换处理后的第一样本关系特征向量和变换处理后的第二样本关系特征向量进行融合处理，生成伪关系特征向量。4.根据权利要求2所述的方法，其特征在于，选取的样本关系特征向量为两个，包括第一样本关系特征向量和第二样本关系特征向量，所述第一样本关系特征向量和所述第二样本关系特征向量的维度信息相同；所述对选取的两个或两个以上的样本关系特征向量进行构造处理，得到伪关系特征向量，包括：从第二数值区间中选取第三系数，并根据所述第三系数和所述维度信息确定目标参数，所述目标参数用于指示替换长度或者替换维度数；
根据所述目标参数从所述第一样本关系特征向量中确定替换位置；将所述第一样本关系特征向量中所述替换位置对应的原始向量元素替换为目标向量元素，得到伪关系特征向量，所述目标向量元素为所述第二样本关系特征向量中的向量元素，且所述目标向量元素在所述第二样本关系特征向量中的位置与所述替换位置相匹配。5.根据权利要求4所述的方法，其特征在于...

【专利技术属性】
技术研发人员：刘庆斌，郝彦超，陈曦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人