模型训练方法、标准格式文档生成方法及装置制造方法及图纸

技术编号：38320228 阅读：16 留言：0更新日期：2023-07-29 09:02

本公开提供了一种模型训练方法、标准格式文档生成方法、装置、设备及存储介质，可以应用于文档编辑技术领域、人工智能技术领域和金融技术领域。该方法包括：将标准格式训练文本输入初始深度学习模型中输出标准格式训练文本各标准结构部分的结构特征；根据各标准结构部分的结构特征和结构标签调整初始深度学习模型的模型参数，得到第一深度学习模型；将非标准格式训练文本输入第一深度学习模型中输出非标准格式训练文本各非标准结构部分的结构特征；根据各非标准结构部分的结构特征和结构标签调整第一深度学习模型的模型参数，得到第二深度学习模型；在第二深度学习模型的文本识别正确率满足预设条件的情况下，对第二深度学习模型添加格式转换功能得到目标模型。习模型添加格式转换功能得到目标模型。习模型添加格式转换功能得到目标模型。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、标准格式文档生成方法及装置

[0001]本公开涉及文档编辑
、人工智能
和金融
，尤其涉及一种模型训练方法、标准格式文档生成方法、装置、设备、介质和程序产品。

技术介绍

[0002]论文、法律文书、公文等作为比较正式的文档，其行文格式和文字排版具有一定的规范性。这就要求文档编写者不但要熟知本领域的专业知识，同时也需要熟知文档格式要求，并能够熟练使用具有一定的文档编辑能力的文档编辑工具，而直接使用文档编辑工具形成规范格式体例仍需要文档编辑者大量的学习和操作。因此，在文档编辑工具基础上开发一种专门为论文等规范格式文档编辑所使用的快速编辑工具将为论文编辑者提供便利。
[0003]但相关技术中，针对论文等规范格式文档的生成方法，存在不能支持多种格式类型文档的规范化处理，如TXT(textfile，纯文本文件)、DOC(Document，文档)、DOCX(文档)、PDF(Portable Document Format，便携式文档格式)等，以及文档处理依赖于网站服务器的问题。

技术实现思路

[0004]鉴于上述问题，本公开提供了一种模型训练方法、标准格式文档生成方法、装置、设备、介质和程序产品。
[0005]根据本公开的第一个方面，提供了一种模型训练方法，包括：
[0006]将标准格式训练文本输入初始深度学习模型中，输出上述标准格式训练文本各标准结构部分的结构特征，其中，上述标准格式训练文本包括各标准结构部分的结构标签；
[0007]根据上述标准格...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，包括：将标准格式训练文本输入初始深度学习模型中，输出所述标准格式训练文本各标准结构部分的结构特征，其中，所述标准格式训练文本包括各标准结构部分的结构标签；根据所述标准格式训练文本各标准结构部分的结构特征和各标准结构部分的结构标签，调整所述初始深度学习模型的模型参数，得到第一深度学习模型；将非标准格式训练文本输入所述第一深度学习模型中，输出所述非标准格式训练文本各非标准结构部分的结构特征，其中，所述非标准格式训练文本中包括各非标准结构部分的结构标签，所述非标准格式训练文本与所述标准格式训练文本的文本类型是相同的；根据所述非标准格式训练文本各非标准结构部分的结构特征和各非标准结构部分的结构标签，调整所述第一深度学习模型的模型参数，得到第二深度学习模型；在所述第二深度学习模型的文本识别正确率满足预设条件的情况下，对所述第二深度学习模型添加格式转换功能，得到目标模型。2.根据权利要求1所述的方法，还包括：获取测试文本，其中，所述测试文本包括所述非标准格式训练文本；将所述测试文本输入所述第二深度学习模型中，输出所述测试文本各测试结构部分的结构特征；根据所述测试文本各测试结构部分的结构特征和各测试结构部分的结构标签，确定所述第二深度学习模型的文本识别正确率。3.根据权利要求1所述的方法，还包括：在所述第二深度学习模型的文本识别正确率不满足所述预设条件的情况下，将所述标准格式训练文本和所述非标准格式训练文本进行合并处理，得到合并训练文本；将所述合并训练文本输入所述第二深度学习模型中，输出所述合并训练文本各结构部分的结构特征；根据所述合并训练文本各结构部分的结构特征和各结构部分的结构标签，调整所述第二深度学习模型的模型参数，得到第三深度学习模型；对所述第三深度学习模型添加所述格式转换功能，得到第四深度学习模型。4.根据权利要求3所述的方法，还包括：将测试文本输入所述第四深度学习模型中，输出格式转换文本，其中，所述测试文本包括所述非标准格式训练文本；根据所述格式转换文本，确定所述第四深度学习模型的转换正确率；在所述第四深度学习模型的转换正确率满足所述预设条件的情况下，将所述第四深度学习模型确定为所述目标模型。5.根据权利要求4所述的方法，其中，所述将测试文本输入所述第四深度学习模型中，输出格式转换文本，包括：对所述测试文本的文本内容进行识别，得到所述测试文本各段落的段落特征；对所述测试文本的各测试结构部分进行识别，得到所述测试文本各测试结构部分的结构特征；利用所述第四深度学习模型的所述格式转换功能，根据所述测试文本各段落的段落特征和各测试结构部分的结构特征，对所述测试文本进行格式转换，得到所述格式转换文本。
6.根据权利要求4所述的方法，还包括：在所述第四深度学习模型的转换正确率不满足所述预设条件的情况下，根据所述格式转换文本中格式存在错误的文本，对所述第四深度学习模型进行调优操作，得到所述目标模型。7.根据权利要求6所述的方法，其中，所述根据所述格式转换文本中格式存在错误的文本，对所述第四深度学习模型进行调优操作，得到所述目标模型，包括重复执行以下操作直至满足所述预设条件：在所述第四深度学习模型的转换正确率不满足所述预设条件的情况下，将所述格式转换文本中格式存在错误的文本和所述非标准格式训练文本合并为新的非标准格式训练文本；将所述新的非标准格式训练文本输入所述第四深度学习模型中，输出所述新的非标准格式训练文本各非标准结构部分的结构特征；根据所述新的非标准格式训练文本各非标准结构部分的结构特征和各非标准结构部分的结构标签，调整所述目标模型的模型参数，得到新的第四深度学习模型；获取新的测试文本，其中，所述新的测试文本包括所述新的非标准格式训练文本；将所述新的测试文本输入所述新的第四深度学习模型中，输出新的格式转换文本；根据所述新的格式转换文本，确定所述新的第四深度学习模型的转换正确率；将在所述新的第四深度学习模型的转换正确率满足所述预设条件的情况下得到的所述新的第四深度学习模型确定为所述目标模型。8.一种标准格式文档生成方法，包括：根据原始文档的文本类型，确定与所述原始文档的文本类型相对应的目标模型，其中，所述...

【专利技术属性】
技术研发人员：翟力强，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人