数据处理方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:41417818 阅读:20 留言:0更新日期:2024-05-21 20:50
本申请公开了一种数据处理方法、装置、计算机设备及计算机可读存储介质,该方法包括:根据获取的目标文本,确定目标文本的多个初始词片段中每个初始词片段的标签得分;基于多个初始词片段及标签得分,确定目标文本的若干候选实体对;基于若干候选实体对及标签得分,确定若干候选实体对中每个候选实体对的候选实体关系;基于若干候选实体对及候选实体关系,确定目标文本的实体关系三元组。采用本申请可以解决级联错误和信息冗余的问题及实体关系抽取时多个关系之间实体重叠和一个关系中多个实体对重叠的问题。

【技术实现步骤摘要】

本申请涉及文本处理,具体涉及一种数据处理方法、装置、计算机设备及计算机可读存储介质


技术介绍

1、从非结构化文本中提取实体及实体之间的关系是自然语言处理和知识图构建中的一项重要任务。传统的管道方法虽然能够灵活提取实体及关系,但其容易受到错误传播问题的影响。为了解决传统的管道方法的问题,研究者们提出了联合提取方法来提取实体及关系。然而,现有实体关系联合提取方法存在级联错误和信息冗余的问题。

2、因此,现有技术还有待改进和发展。


技术实现思路

1、本申请实施例提供一种数据处理方法、装置、计算机设备及计算机可读存储介质,旨在解决现有实体关系联合提取方法存在级联错误和信息冗余的问题。

2、本专利技术解决问题所采用的技术方案如下:

3、一方面,本申请提供一种数据处理方法,包括:

4、根据获取的目标文本,确定目标文本的多个初始词片段中每个初始词片段的标签得分;

5、基于多个初始词片段及标签得分,确定目标文本的若干候选实体对;

6、基于若干候选实体对本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据获取的目标文本,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述预处理文本,确定所述目标文本的序列向量序列,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述序列向量序列,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述序列向量序列、所述第二位置编码结果及所述第三位置编码结果,确定所述目标文本...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据获取的目标文本,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述预处理文本,确定所述目标文本的序列向量序列,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述序列向量序列,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述序列向量序列、所述第二位置编码结果及所述第三位置编码结果,确定所述目标文本的多个初始词片段中每个初始词片段的标签得分,包括:

6.根据权利要求1所述的方法,其特征在于,所述多个标签包括实体标签和关系标签,所述基于所述多个初始词片段...

【专利技术属性】
技术研发人员:田秀敏
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1