System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40206360 阅读:4 留言:0更新日期:2024-02-02 22:17
本申请涉及一种文本处理方法、装置、电子设备及存储介质。上述方法包括获取待处理文本以及所述待处理文本对应的至少一个目标历史文本;以所述待处理文本和所述至少一个目标历史文本为输入,利用目标预测模型输出所述待处理文本的目标改写结果。本申请提高了训练获得目标预测模型的便捷性和效率,有利于提高文本改写的效率、适应性和可靠性。本申请实施例可应用于云技术、人工智能、智慧交通、智慧娱乐等各种场景。

【技术实现步骤摘要】

本申请涉及互联网通信,尤其涉及一种文本处理方法、装置、电子设备及存储介质


技术介绍

1、随着互联网通信技术的发展,各类互联网产品层出不穷。相关互联网产品可以提供文本处理服务。所提供的文本处理服务可以关注于文本改写,基于历史文本对输入文本进行改写,旨在使得改写结果呈现的信息更完整。相关技术中,训练改写模型来进行文本改写,依赖于对样本文本进行分词维度的标注,如标注某一分词需要删除、替换等。这样的标注工作量较大,影响着训练获得改写模型的效率,影响着应用改写模型进行文本改写的效率。因此,需要提供更具效率的文本处理方案。


技术实现思路

1、为了解决上述提出的至少一个技术问题,本申请提供了一种文本处理方法、装置、电子设备及存储介质:

2、根据本申请的第一方面,提供了一种文本处理方法,所述方法包括:

3、获取待处理文本以及所述待处理文本对应的至少一个目标历史文本;

4、以所述待处理文本和所述至少一个目标历史文本为输入,利用目标预测模型输出所述待处理文本的目标改写结果,所述目标预测模型是基于多个样本对生成式预训练模型和预设低秩矩阵进行训练得到的,所述训练中基于目标样本文本的预测结果和第一类标注数据间的差异调整所述预设低秩矩阵,所述预设低秩矩阵用于表征所述生成式预训练模型中关键参数的权重,每一所述样本包括一个所述目标样本文本和至少一个历史样本文本,所述第一类标注数据指示第一理想改写结果,所述第一理想改写结果基于所述至少一个历史样本文本和所述目标样本文本确定。p>

5、根据本申请的第二方面,提供了一种文本处理装置,所述装置包括:

6、获取模块:用于获取待处理文本以及所述待处理文本对应的至少一个目标历史文本;

7、预测模块:用于以所述待处理文本和所述至少一个目标历史文本为输入,利用目标预测模型输出所述待处理文本的目标改写结果,所述目标预测模型是基于多个样本对生成式预训练模型和预设低秩矩阵进行训练得到的,所述训练中基于目标样本文本的预测结果和第一类标注数据间的差异调整所述预设低秩矩阵,所述预设低秩矩阵用于表征所述生成式预训练模型中关键参数的权重,每一所述样本包括一个所述目标样本文本和至少一个历史样本文本,所述第一类标注数据指示第一理想改写结果,所述第一理想改写结果基于所述至少一个历史样本文本和所述目标样本文本确定。

8、根据本申请的第三方面,提供了一种电子设备,所述电子设备包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现如第一方面所述的文本处理方法。

9、根据本申请的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的文本处理方法。

10、根据本申请的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的文本处理方法。

11、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。

12、实施本申请,具有以下有益效果:

13、本申请以生成式预训练模型为待训练模型的基础,通过对待训练模型中的预设低秩矩阵进行调整来获得目标预测模型,这样提高了训练获得目标预测模型的便捷性和效率,可以在保证训练效果的同时降低对于样本的标注要求。训练中样本的标注是样本文本维度的,相较于相关技术中分词维度的标注,降低了样本标注工作量和难度,有利于提高模型训练速度。训练获得的目标预测模型可用于文本改写,目标预测模型基于输入的待处理文本和至少一个目标历史文本输出待处理文本的目标改写结果。目标预测模型具有高泛化能力,有利于提高文本改写的效率、适应性和可靠性。

14、根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。

本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标预测模型通过下述步骤训练获得:

3.根据权利要求2所述的方法,其特征在于,所述预设低秩矩阵指示第一矩阵和第二矩阵的相乘结果,所述对所述预设低秩矩阵进行调整之前,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,所述目标样本文本和所述历史样本文本携带有对应的时间戳,所述样本指示按照所述时间戳的先后顺序进行排布的样本文本序列,所述训练还包括学习所述样本文本序列中相邻文本间的改写关联关系,每一所述历史样本文本携带有对应的第二类标注数据,所述第二类标注数据指示第二理想改写结果,所述第二理想改写结果基于目标历史样本文本和所述目标历史样本的在前文本确定,所述目标历史样本文本是所述至少一个历史样本文本中的任一样本文本,所述方法还包括:

6.根据权利要求2所述的方法,其特征在于,所述获取所述多个样本,包括:

7.根据权利要求1所述的方法,其特征在于,所述获取待处理文本以及所述待处理文本对应的至少一个目标历史文本之前,所述方法还包括:接收目标对象发送的文本处理请求;

8.一种文本处理装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现如权利要求1-7任意一项所述的文本处理方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任意一项所述的文本处理方法。

...

【技术特征摘要】

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述目标预测模型通过下述步骤训练获得:

3.根据权利要求2所述的方法,其特征在于,所述预设低秩矩阵指示第一矩阵和第二矩阵的相乘结果,所述对所述预设低秩矩阵进行调整之前,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,所述目标样本文本和所述历史样本文本携带有对应的时间戳,所述样本指示按照所述时间戳的先后顺序进行排布的样本文本序列,所述训练还包括学习所述样本文本序列中相邻文本间的改写关联关系,每一所述历史样本文本携带有对应的第二类标注数据,所述第二类标注数据指示第二理想改写结果,所述第二理想改写结果基于目标历史样本文本和所述目标历史样本的在前文本确定,所述目标历史样本文本是所述至少一个历史样本文本中的任一样本文本...

【专利技术属性】
技术研发人员:童丽霞黄金生雷植程郭超陈述志
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1