文本数据生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号：39971669 阅读：11 留言：0更新日期：2024-01-09 00:50

本发明专利技术提供了一种文本数据生成方法、装置、电子设备和存储介质，涉及电子设备技术领域。文本数据生成方法包括：获取预设文本结构信息；在获取到第一文本集合的情况下，根据预设文本摘要信息、预设文本结构信息和第一文本集合，生成模型输入数据；将模型输入数据输入至预设模型中，以生成目标文本数据，目标文本数据为与预设文本结构信息相匹配的结构化文本数据。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子设备，具体而言，涉及一种文本数据生成方法、装置、电子设备和存储介质。

技术介绍

1、对非结构化文本数据进行加工处理，人工方式耗时耗力，并且容易出错。

2、相关技术中，机器学习处理需要提供大量样本进行学习训练，才能满足特定场景下结构化数据提取工作，存在数据准备和模型训练成本高，适用场景受限的缺陷。

3、因此，如何克服上述技术缺陷，成为了亟待解决的技术问题。

技术实现思路

1、本专利技术旨在至少解决现有技术中存在的技术问题之一。

2、为此，本专利技术的第一方面提出了一种文本数据生成方法。

3、本专利技术的第二方面提出了一种文本数据生成装置。

4、本专利技术的第三方面提出了一种电子设备。

5、本专利技术的第四方面提出了一种可读存储介质。

6、有鉴于此，本专利技术的第一方面提供了一种文本数据生成方法，文本数据生成方法包括：

7、获取预设文本结构信息；

8、在获取到第一文本集合的情况下，根据预设文本摘要信息、预设文本结构信息和第一文本集合，生成模型输入数据；

9、将模型输入数据输入至预设模型中，以生成目标文本数据，目标文本数据为与预设文本结构信息相匹配的结构化文本数据。

10、本申请限定了一种文本数据生成方法，该方法可以基于文本集合生成用户所需的文本数据，以满足用户的文本处理需求，为用户处理文本信息提供便利条件。

11、具体地，在生

12、由此可见，本申请通过将预设文本摘要信息、预设文本结构信息和第一文本集合整合成可直接录入大模型的模型输入数据，使预设模型可以在不经过大批量文本训练的情况下直接对模型输入数据中所包含的第一文本集合进行结构化处理，以直接输出满足用户期望的结构化文本数据，实现大模型的“开箱即用”，省去样本学习训练所耗费的时间成本和金钱成本。同时，采用预设模型的通用语言处理能力处理第一文本集合，可以生成准确且符合预期的结构化数据，避免了机器学习技术抗噪能力不足和训练过拟合的问题。并且，模型输入数据的预处理具有普适性，避免了机器学习技术受限于训练样本特征、使用场景受限的问题。从而解决相关技术中所存在的数据准备和模型训练成本高，适用场景受限的技术缺陷。

13、进而实现了优化非结构化文本数据的处理效率和处理精度，降低结构化文本处理成本，拓宽结构化文本处理场景，提升用户使用体验的技术效果。

14、另外，本专利技术提供的上述文本数据生成方法还可以具有如下附加技术特征：

15、在专利技术的一些技术方案中，可选地，将模型输入数据输入至预设模型中，以生成目标文本数据，包括：

16、通过预设模型，根据预设文本摘要信息提取第一文本集合中的第一文本数据，第一文本数据为非结构化文本数据；

17、通过预设模型，根据预设文本结构信息对第一文本数据进行结构化处理，得到目标文本数据。

18、在该技术方案中，对将模型输入数据输入至预设模型中，以生成目标文本数据这一步骤进行细化。具体地，在将模型输入数据录入预设模型后，预设模型根据预设文本摘要信息在第一文本集合中提取出第一文本数据，其中被提取出来的第一文本数据还不具备结构化属性，属于非结构化文本数据。其后，预设模型根据预设文本结构信息对非结构化的第一文本数据进行结构化处理，以得到满足用户预期结构化需求的目标文本数据。

19、通过限定第一文本数据的提取过程，可以借助大模型自动完成关键文本信息的筛选，省去用户主动辨别待筛选信息的操作，从而提升文本数据的处理效率和处理精度。基于预设文本结构直接通过预设模型对第一文本数据进行结构化处理，可以免去通过大量训练样本训练预设模型的步骤，以直接输出满足用户期望的结构化文本数据，实现大模型的“开箱即用”，省去样本学习训练所耗费的时间成本和金钱成本。从而解决相关技术中所存在的数据准备和模型训练成本高，适用场景受限的技术缺陷。

20、在专利技术的一些技术方案中，可选地，获取预设文本结构信息，包括：

21、提取目标文本模型中的文本信息；

22、基于目标文本模型中的文本信息，生成预设文本结构信息；

23、其中，目标文本模型包括以下任一项：领域文本模型、实体文本模型、数据文本模型。

24、在该技术方案中，对获取预设文本结构这一步骤进行细化。具体地，在获取到目标文本模型的情况下，对目标文本模型中的关键字段或属性进行筛选，以提取出文本信息。其后，根据目标文本模型中提取出的文本信息，生成对应的预设文本结构信息，并最终将其整合至模型输入数据。

25、其中，目标文本模型包括领域文本模型、实体文本模型、数据文本模型中的至少一者，领域文本模型、实体文本模型和数据文本模型可以直接从云端数据库中获取，用户可根据期望选择和下载对应的目标文本模型，从而省去了用户自行构建目标文本模型，或通过大量样本数据训练目标文本模型的步骤，进而实现了预设模型的“开箱即用”，实现优化非结构化文本数据的处理效率，降低结构化文本处理成本的技术效果。

26、在专利技术的一些技术方案中，可选地，目标文本模型中的文本信息中包括以下至少一项：关键字段信息、属性信息、附加约束信息。

27、在该技术方案中，目标文本模型中的文本信息包括关键字段信息、属性信息、附加约束信息中的至少一者。

28、关键字段信息可以保证第一文本数据的提取精度，降低提取出非用户期望数据和遗漏提取用户期望数据的可能性，从而提升结构化数据的处理精度。

29、属性信息对应于用户的结构化期望，通过限定属性数据可以确保最终得到的目标文本数据的结构化属性匹配用户期望。

30、附加约数需求对应于结构化期望以外的附加期望，用户可通过编辑附加约束信息来优化目标文本数据。

31、在专利技术的一些技术方案中，可选地，在获取到第一文本集合的情况下，根据预设文本摘要信息、预设文本结构信息和第一文本集合，生成模型输入数据，包括：

32、根据预设文本摘要信息，生成第一提取指令；

33、根据第一提取指令、预设文本结构信息和第一文本集合，生成模型输入数据。

34、在该技术方案中，对在获取到第一文本集合的情况下，根据预设文本摘要信息、预设文本结构信息和第一文本集合，生成模本文档来自技高网...

【技术保护点】

1.一种文本数据生成方法，其特征在于，包括：

2.根据权利要求1所述的文本数据生成方法，其特征在于，所述将所述模型输入数据输入至预设模型中，以生成目标文本数据，包括：

3.根据权利要求1所述的文本数据生成方法，其特征在于，所述获取预设文本结构信息，包括：

4.根据权利要求3所述的文本数据生成方法，其特征在于，所述目标文本模型中的所述文本信息中包括以下至少一项：关键字段信息、属性信息、附加约束信息。

5.根据权利要求1至4中任一项所述的文本数据生成方法，其特征在于，所述在获取到第一文本集合的情况下，根据预设文本摘要信息、预设文本结构信息和所述第一文本集合，生成模型输入数据，包括：

6.根据权利要求5所述的文本数据生成方法，其特征在于，所述根据所述预设文本摘要信息，生成第一提取指令，包括：

7.根据权利要求1至3中任一项所述的文本数据生成方法，其特征在于，所述在获取到第一文本集合的情况下，根据预设文本摘要信息、预设文本结构信息和所述第一文本集合，生成模型输入数据，包括：

8.一种文本数据生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种文本数据生成方法，其特征在于，包括：

2.根据权利要求1所述的文本数据生成方法，其特征在于，所述将所述模型输入数据输入至预设模型中，以生成目标文本数据，包括：

3.根据权利要求1所述的文本数据生成方法，其特征在于，所述获取预设文本结构信息，包括：

5.根据权利要求1至4中任一项所述的文本数据生成方法，其特征在于，所述在获取到第一文本集合的情况下，根据预设文本摘要信息、预设文本结构信息和所述第一文本...

【专利技术属性】
技术研发人员：赵彦峰，
申请(专利权)人：用友网络科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人