一种文本识别模型的训练方法及相关装置制造方法及图纸

技术编号：39712763 阅读：5 留言：0更新日期：2023-12-17 23:21

本申请公开一种文本识别模型的训练方法及相关装置，获取业务数据集，业务数据集中包括多个文本和每个文本对应的初始识别标签，初始识别标签用于指示对应的文本的标准识别结果。从业务数据集包括的多个文本中确定目标文本，并获取目标文本对应的第一识别依据，第一识别依据表征目标文本是标准识别结果的识别原因，包含了更加丰富的识别知识。基于目标文本和目标文本对应的第一识别依据构建指令数据集，并基于指令数据集对小规模的第一语言模型的待调整模型参数进行调整，得到文本识别模型。通过将较为准确的识别知识迁移到小规模的第一语言模型上，对其识别能力进行改进，实现在保证文本识别的准确性的情况下，降低了资源消耗和部署难度的目的。消耗和部署难度的目的。消耗和部署难度的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别模型的训练方法及相关装置

[0001]本申请涉及人工智能
，特别是涉及一种文本识别模型的训练方法及相关装置。

技术介绍

[0002]随着互联网的发展，网络上会出现各种各样的媒体内容，例如视频、图片、文本。其中，文本可以覆盖各种场景，例如，用户签名/昵称、评论/留言、即时通讯文本内容、用户帖子、媒体资讯、商品信息、视频直播的弹幕、图文信息等，对于曝光宣传恶意信息来说，文本是一种更加快捷、更加广泛、成本更低的渠道。因此，文本识别对于保护互联网的规范性和安全性来说是非常重要的。
[0003]目前，可以基于机器学习模型进行文本识别。而为了保证文本识别的准确性，通常情况下，可以采用大型语言模型(即模型参数的数量非常大的一种机器学习模型)进行文本识别。然而，这种方式虽然提高了文本识别的准确性，但是存在耗费资源大、部署困难等问题。

技术实现思路

[0004]为了解决上述技术问题，本申请提供了一种文本识别模型的训练方法及相关装置，实现在保证文本识别的准确性的情况下，降低了资源消耗和部署难度的目的。
[0005]本申请实施例公开了如下技术方案：
[0006]一方面，本申请实施例提供一种文本识别模型的训练方法，所述方法包括：
[0007]获取业务数据集，所述业务数据集中包括多个文本和每个文本对应的初始识别标签，所述初始识别标签用于指示对应的文本的标准识别结果；
[0008]从所述业务数据集包括的多个文本中确定目标文本；
[0009]获取所述目标文本对应的第...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法，其特征在于，所述方法包括：获取业务数据集，所述业务数据集中包括多个文本和每个文本对应的初始识别标签，所述初始识别标签用于指示对应的文本的标准识别结果；从所述业务数据集包括的多个文本中确定目标文本；获取所述目标文本对应的第一识别依据，所述第一识别依据表征所述目标文本是所述标准识别结果的识别原因；基于所述目标文本和所述目标文本对应的第一识别依据构建指令数据集；基于所述指令数据集对第一语言模型的待调整模型参数进行调整，得到所述文本识别模型，所述第一语言模型是预先训练好的语言模型，所述第一语言模型的参数数量低于数量阈值。2.根据权利要求1所述的方法，其特征在于，所述目标文本为第一类型文本，所述从所述业务数据集包括的多个文本中确定目标文本，包括：通过所述第一语言模型对所述业务数据集中的多个文本分别进行识别，得到所述多个文本中每个文本的第一预测识别结果；针对每个文本，若确定所述文本的第一预测识别结果与所述文本的标准识别结果不一致，将所述文本确定为所述第一类型文本。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：针对每个文本，若确定所述文本的第一预测识别结果与所述文本的标准识别结果一致，将所述文本确定为第二类型文本；获取所述第二类型文本对应的第二识别依据，所述第二识别依据是所述第一语言模型对所述第二类型文本进行识别得到第一预测识别结果时，输出的得到对应第一预测识别结果的识别原因；所述基于所述目标文本和所述目标文本对应的第一识别标签构建指令数据集，包括：基于所述第一类型文本和所述第一类型文本对应的第一识别依据，以及基于所述第二类型文本和所述第二类型文本对应的第二识别依据构建所述指令数据集。4.根据权利要求1所述的方法，其特征在于，所述获取所述目标文本对应的第一识别依据，包括：基于所述目标文本和所述目标文本对应的初始识别标签，通过第二语言模型输出所述第一识别依据，所述第二语言模型的参数数量大于所述第一语言模型的参数数量。5.根据权利要求4所述的方法，其特征在于，所述基于所述目标文本和所述目标文本对应的初始识别标签，通过第二语言模型输出所述第一识别依据，包括：基于所述目标文本和所述目标文本对应的初始识别标签生成第一提示描述模板；按照第一提示描述模板，通过所述第二语言模型输出所述第一识别依据。6.根据权利要求1所述的方法，其特征在于，所述第一识别依据是基于先验知识信息标注得到的。7.根据权利要求2所述的方法，其特征在于，所述业务数据集中还包括识别任务的识别标准，所述多个文本中每个文本对应一个识别任务，所述通过所述第一语言模型对所述业务数据集中的多个文本分别进行识别，得到所述多个文本中每个文本的第一预测识别结果，包括：
针对所述多个文本中的每个文本，基于所述文本对应的识别任务的识别标准，通过所述第一语言模型对所述文本进行识别，得到所述文本在对应的识别任务下的第一预测识别结果。8.根据权利要求7所述的方法...

【专利技术属性】
技术研发人员：李丽丽，陈曦，刘庆斌，张明昊，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人