System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、装置、计算机设备及计算机可读存储介质制造方法及图纸_技高网

数据处理方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:41417818 阅读:5 留言:0更新日期:2024-05-21 20:50
本申请公开了一种数据处理方法、装置、计算机设备及计算机可读存储介质,该方法包括:根据获取的目标文本,确定目标文本的多个初始词片段中每个初始词片段的标签得分;基于多个初始词片段及标签得分,确定目标文本的若干候选实体对;基于若干候选实体对及标签得分,确定若干候选实体对中每个候选实体对的候选实体关系;基于若干候选实体对及候选实体关系,确定目标文本的实体关系三元组。采用本申请可以解决级联错误和信息冗余的问题及实体关系抽取时多个关系之间实体重叠和一个关系中多个实体对重叠的问题。

【技术实现步骤摘要】

本申请涉及文本处理,具体涉及一种数据处理方法、装置、计算机设备及计算机可读存储介质


技术介绍

1、从非结构化文本中提取实体及实体之间的关系是自然语言处理和知识图构建中的一项重要任务。传统的管道方法虽然能够灵活提取实体及关系,但其容易受到错误传播问题的影响。为了解决传统的管道方法的问题,研究者们提出了联合提取方法来提取实体及关系。然而,现有实体关系联合提取方法存在级联错误和信息冗余的问题。

2、因此,现有技术还有待改进和发展。


技术实现思路

1、本申请实施例提供一种数据处理方法、装置、计算机设备及计算机可读存储介质,旨在解决现有实体关系联合提取方法存在级联错误和信息冗余的问题。

2、本专利技术解决问题所采用的技术方案如下:

3、一方面,本申请提供一种数据处理方法,包括:

4、根据获取的目标文本,确定目标文本的多个初始词片段中每个初始词片段的标签得分;

5、基于多个初始词片段及标签得分,确定目标文本的若干候选实体对;

6、基于若干候选实体对及标签得分,确定若干候选实体对中每个候选实体对的候选实体关系;

7、基于若干候选实体对及候选实体关系,确定目标文本的实体关系三元组。

8、在本申请一些实施方案中,根据获取的目标文本,确定目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

9、对获取的目标文本进行预处理,得到预处理文本;

10、根据预处理文本,确定目标文本的序列向量序列;

11、基于序列向量序列,确定目标文本的多个初始词片段中每个初始词片段的标签得分。

12、在本申请一些实施方案中,根据预处理文本,确定目标文本的序列向量序列,包括:

13、对预处理文本进行编码,得到目标文本的词向量序列;

14、对词向量序列进行线性变换,得到目标文本的序列向量序列。

15、在本申请一些实施方案中,基于序列向量序列,确定目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

16、对序列向量序列进行相对位置编码,得到第一位置编码结果;

17、基于第一位置编码结果,确定第二位置编码结果和第三位置编码结果;

18、基于序列向量序列、第二位置编码结果及第三位置编码结果,确定目标文本的多个初始词片段中每个初始词片段的标签得分。

19、在本申请一些实施方案中,基于序列向量序列、第二位置编码结果及第三位置编码结果,确定目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

20、基于序列向量序列,确定第一向量序列和第二向量序列;

21、基于第一向量序列、第二位置编码结果及第三位置编码结果确定第三向量序列,以及基于第二向量序列、第二位置编码结果及第三位置编码结果确定第四向量序列;

22、基于第三向量序列和第四向量序列,确定目标文本的多个初始词片段中每个初始词片段的标签得分。

23、在本申请一些实施方案中,多个标签包括实体标签和关系标签,基于多个初始词片段及标签得分,确定目标文本的若干候选实体对,包括:

24、基于标签得分,从多个初始词片段中确定若干候选词片段,若干候选词片段在实体标签下的标签得分满足预设第一条件;

25、对若干候选词片段进行组合,得到目标文本的若干候选实体对。

26、在本申请一些实施方案中,基于若干候选实体对及标签得分,确定若干候选实体对中每个候选实体对的候选实体关系,包括:

27、获取若干候选实体对中每个候选实体对在目标文本中的位置信息,位置信息包括头实体开始位置、头实体结束位置、尾实体开始位置及尾实体结束位置;

28、基于头实体开始位置和尾实体开始位置确定第一目标词片段,以及基于头实体结束位置和尾实体结束位置确定第二目标词片段;

29、基于第一目标词片段和标签得分确定第一实体关系,以及基于第二目标词片段和标签得分确定第二实体关系;

30、将第一实体关系和第二实体关系,确定为每个候选实体对的候选实体关系。

31、在本申请一些实施方案中,基于若干候选实体对及候选实体关系,确定目标文本的实体关系三元组,包括:

32、基于候选实体关系,从若干候选实体对中确定若干目标实体对,若干目标实体对为若干候选实体对中第一实体关系和第二实体关系相同的实体对;

33、基于若干目标实体对及若干目标实体对中每个目标实体对的候选实体关系,确定目标文本的实体关系三元组。

34、在本申请一些实施方案中,数据处理方法应用于数据处理模型,方法还包括:

35、获取训练样本集,训练样本集包括训练文本及训练文本的多个样本词片段中每个样本词片段的样本标签;

36、将训练样本集中的训练文本输入预设网络模型,通过预设网络模型输出每个样本词片段的预测得分,预测得分用于表征每个样本词片段在多个标签下的概率;

37、基于预测得分、样本标签及预设网络模型的损失函数对预设网络模型进行训练,以得到数据处理模型。

38、第二方面,本专利技术实施例还提供一种数据处理装置,包括:

39、标签确定单元,用于根据获取的目标文本,确定目标文本的多个初始词片段中每个初始词片段的标签得分;

40、实体确定单元,用于基于多个初始词片段及标签得分,确定目标文本的若干候选实体对;

41、关系确定单元,用于基于若干候选实体对及标签得分,确定若干候选实体对中每个候选实体对的候选实体关系;

42、数据处理单元,用于基于若干候选实体对及候选实体关系,确定目标文本的实体关系三元组。

43、第三方面,本申请还提供一种计算机设备,计算机设备包括:

44、一个或多个处理器;

45、存储器;以及

46、一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现第一方面中任一项的数据处理方法。

47、第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行第一方面中任一项的数据处理方法中的步骤。

48、本专利技术的有益效果:基于多个初始词片段及每个初始词片段的标签得分确定实体及实体关系,可以同时捕获头实体、关系及尾实体的信息,解决级联错误和信息冗余的问题,先确定目标文本中的所有候选实体对,再基于候选实体对确定候选实体关系,可以解决实体关系抽取时多个关系之间实体重叠和一个关系中多个实体对重叠的问题。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据获取的目标文本,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述预处理文本,确定所述目标文本的序列向量序列,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述序列向量序列,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述序列向量序列、所述第二位置编码结果及所述第三位置编码结果,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

6.根据权利要求1所述的方法,其特征在于,所述多个标签包括实体标签和关系标签,所述基于所述多个初始词片段及所述标签得分,确定所述目标文本的若干候选实体对,包括:

7.根据权利要求1所述的方法,其特征在于,所述基于所述若干候选实体对及所述标签得分,确定所述若干候选实体对中每个候选实体对的候选实体关系,包括:

8.根据权利要求7所述的方法,其特征在于,所述基于所述若干候选实体对及所述候选实体关系,确定所述目标文本的实体关系三元组,包括:

9.根据权利要求1至8任一项所述的方法,其特征在于,所述数据处理方法应用于数据处理模型,所述方法还包括:

10.一种数据处理装置,其特征在于,包括:

11.一种计算机设备,其特征在于,所述计算机设备包括:

12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至9任一项所述的数据处理方法中的步骤。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据获取的目标文本,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述预处理文本,确定所述目标文本的序列向量序列,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述序列向量序列,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述序列向量序列、所述第二位置编码结果及所述第三位置编码结果,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

6.根据权利要求1所述的方法,其特征在于,所述多个标签包括实体标签和关系标签,所述基于所述多个初始词片段...

【专利技术属性】
技术研发人员:田秀敏
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1