System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本转换模型的训练方法、非结构化文本数据的处理方法和装置制造方法及图纸_技高网

文本转换模型的训练方法、非结构化文本数据的处理方法和装置制造方法及图纸

技术编号:41009269 阅读:2 留言:0更新日期:2024-04-18 21:44
本申请提出一种文本转换模型的训练方法、非结构化文本数据的处理方法和装置,其中,具体的实施方案为:获取预训练好的文本转换模型,其中,文本转换模型是基于通用领域下的非结构化文本和对应的结构化文本训练得到的;获取目标业务领域下的非结构化文本样本;对非结构化文本样本进行结构化处理,以得到非结构化文本样本对应的结构化文本样本;根据非结构化文本样本以及对应的结构化文本样本,对文本转换模型进行训练,以得到适配于目标业务领域的目标文本转换模型,由此,基于预训练好的文本转换模型,无需大量的非结构化文本训练数据,即可得到适配于目标业务领域的目标文本转换模型,提高了目标文本转换模型进行文本转换的准确率。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种文本转换模型的训练方法、非结构化文本数据的处理方法和装置


技术介绍

1、目前,通常需要大量的非结构化文本数据来对文本转换模型进行训练,从而根据文本转换模型来对非结构化文本数据进行提取,以得到便于直接理解的结构化文本数据,然而,很多特定业务邻域中通常只有非常有限的样本,并没有适配于该业务邻域的文本转换模型,因此,如何基于有限的文本数据即可得到行之有效的文本转换模型是目前亟需待解决的技术问题。


技术实现思路

1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此,本申请的第一个目的在于提出一种文本转换模型的训练方法,以实现基于有限的文本数据即可得到行之有效的文本转换模型。

3、本申请的第二个目的在于提出一种非结构化文本数据的处理方法。

4、本申请的第三个目的在于提出一种文本转换模型的训练装置。

5、本申请的第四个目的在于提出一种非结构化文本数据的处理装置

6、本申请的第五个目的在于提出一种电子设备。

7、本申请的第六个目的在于提出一种计算机可读存储介质。

8、本申请的第七个目的在于提出一种计算机程序产品。

9、为达上述目的,本申请第一方面实施例提出了一种文本转换模型的训练方法,包括:获取预训练好的文本转换模型,其中,所述文本转换模型是基于通用领域下的非结构化文本和对应的结构化文本训练得到的;获取目标业务领域下的非结构化文本样本;对所述非结构化文本样本进行结构化处理,以得到所述非结构化文本样本对应的结构化文本样本;根据所述非结构化文本样本以及对应的结构化文本样本,对所述文本转换模型进行训练,以得到适配于所述目标业务领域的目标文本转换模型。

10、为达上述目的,本申请第二方面实施例提出了一种非结构化文本数据的处理方法,包括:获取待处理的非结构化文本数据;将所述待处理的非结构化文本数据输入到目标文本转换模型中,以获取所述待处理的非结构化文本数据对应的结构化文本数据,其中,所述目标文本转换模型是根据权利要求1-4中任一项所述的方法所训练得到的。

11、为达上述目的,本申请第三方面实施例提出了一种文本转换模型的训练装置,包括:第一获取模块,用于获取预训练好的文本转换模型,其中,所述文本转换模型是基于通用领域下的非结构化文本和对应的结构化文本训练得到的;第二获取模块,用于获取目标业务领域下的非结构化文本样本;处理模块,用于对所述非结构化文本样本进行结构化处理,以得到所述非结构化文本样本对应的结构化文本样本;训练模块,用于根据所述非结构化文本样本以及对应的结构化文本样本,对所述文本转换模型进行训练,以得到适配于所述目标业务领域的目标文本转换模型。

12、为达上述目的,本申请第四方面实施例提出了一种非结构化文本数据的处理装置,包括:第三获取模块,用于获取待处理的非结构化文本数据;第四获取模块,用于将所述待处理的非结构化文本数据输入到目标文本转换模型中,以获取所述待处理的非结构化文本数据对应的结构化文本数据,其中,所述目标文本转换模型是根据权利要求1-4中任一项所述的方法所训练得到的。

13、为达上述目的,本申请第五方面实施例提出了一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现本申请实施例公开的文本转换模型的训练方法,或者,非结构化文本数据的处理方法。

14、为达上述目的,本申请第六方面实施例提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现本申请实施例公开的文本转换模型的训练方法,或者,非结构化文本数据的处理方法。

15、为达上述目的,本申请第七方面实施例提出了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请实施例公开的文本转换模型的训练方法,或者,非结构化文本数据的处理方法。

16、本申请提供的文本转换模型的训练方法、非结构化文本数据的处理方法和装置,获取预训练好的文本转换模型,其中,文本转换模型是基于通用领域下的非结构化文本和对应的结构化文本训练得到的;获取目标业务领域下的非结构化文本样本;对非结构化文本样本进行结构化处理,以得到非结构化文本样本对应的结构化文本样本;根据非结构化文本样本以及对应的结构化文本样本,对文本转换模型进行训练,以得到适配于目标业务领域的目标文本转换模型,由此,基于预训练好的文本转换模型,无需大量的非结构化文本训练数据,即可得到适配于目标业务领域的目标文本转换模型,提高了目标文本转换模型进行文本转换的准确率。

17、本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种文本转换模型的训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述非结构化文本中包括多段文本,所述对所述非结构化文本样本进行结构化处理,以得到所述非结构化文本样本对应的结构化文本样本,包括::

3.根据权利要求2所述的方法,其特征在于,所述对各段文本对应的分词结果进行命名实体识别,以得到各段文本各自对应的多个命名实体以及所述多个命名实体之间的实体关系,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述非结构化文本样本以及对应的结构化文本样本,对所述文本转换模型进行训练,以得到适配于所述目标业务领域的目标文本转换模型,包括:

5.一种非结构化文本数据的处理方法,包括:

6.一种文本转换模型的训练装置,其特征在于,包括以下步骤:

7.根据权利要求6所述的装置,其特征在于,所述非结构化文本中包括多段文本,所述处理模块,包括:

8.根据权利要求7所述的装置,其特征在于,所述命名实体识别单元,具体用于:

9.根据权利要求6所述的装置,其特征在于,所述训练模块,具体用于:

10.一种非结构化文本数据的处理装置,具体用于:

11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-4,5中任一项所述的方法。

13.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-4,5中任一项所述的方法。

...

【技术特征摘要】

1.一种文本转换模型的训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述非结构化文本中包括多段文本,所述对所述非结构化文本样本进行结构化处理,以得到所述非结构化文本样本对应的结构化文本样本,包括::

3.根据权利要求2所述的方法,其特征在于,所述对各段文本对应的分词结果进行命名实体识别,以得到各段文本各自对应的多个命名实体以及所述多个命名实体之间的实体关系,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述非结构化文本样本以及对应的结构化文本样本,对所述文本转换模型进行训练,以得到适配于所述目标业务领域的目标文本转换模型,包括:

5.一种非结构化文本数据的处理方法,包括:

6.一种文本转换模型的训练装置,其特征在于,包括以下步骤:

【专利技术属性】
技术研发人员:张健枫高文飞江茜杨燕牛星石志国
申请(专利权)人:北京市大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1