一种文本识别模型的训练方法及相关装置制造方法及图纸

技术编号:39712763 阅读:5 留言:0更新日期:2023-12-17 23:21
本申请公开一种文本识别模型的训练方法及相关装置,获取业务数据集,业务数据集中包括多个文本和每个文本对应的初始识别标签,初始识别标签用于指示对应的文本的标准识别结果。从业务数据集包括的多个文本中确定目标文本,并获取目标文本对应的第一识别依据,第一识别依据表征目标文本是标准识别结果的识别原因,包含了更加丰富的识别知识。基于目标文本和目标文本对应的第一识别依据构建指令数据集,并基于指令数据集对小规模的第一语言模型的待调整模型参数进行调整,得到文本识别模型。通过将较为准确的识别知识迁移到小规模的第一语言模型上,对其识别能力进行改进,实现在保证文本识别的准确性的情况下,降低了资源消耗和部署难度的目的。消耗和部署难度的目的。消耗和部署难度的目的。

【技术实现步骤摘要】
一种文本识别模型的训练方法及相关装置


[0001]本申请涉及人工智能
,特别是涉及一种文本识别模型的训练方法及相关装置。

技术介绍

[0002]随着互联网的发展,网络上会出现各种各样的媒体内容,例如视频、图片、文本。其中,文本可以覆盖各种场景,例如,用户签名/昵称、评论/留言、即时通讯文本内容、用户帖子、媒体资讯、商品信息、视频直播的弹幕、图文信息等,对于曝光宣传恶意信息来说,文本是一种更加快捷、更加广泛、成本更低的渠道。因此,文本识别对于保护互联网的规范性和安全性来说是非常重要的。
[0003]目前,可以基于机器学习模型进行文本识别。而为了保证文本识别的准确性,通常情况下,可以采用大型语言模型(即模型参数的数量非常大的一种机器学习模型)进行文本识别。然而,这种方式虽然提高了文本识别的准确性,但是存在耗费资源大、部署困难等问题。

技术实现思路

[0004]为了解决上述技术问题,本申请提供了一种文本识别模型的训练方法及相关装置,实现在保证文本识别的准确性的情况下,降低了资源消耗和部署难度的目的。
[0005]本申请实施例公开了如下技术方案:
[0006]一方面,本申请实施例提供一种文本识别模型的训练方法,所述方法包括:
[0007]获取业务数据集,所述业务数据集中包括多个文本和每个文本对应的初始识别标签,所述初始识别标签用于指示对应的文本的标准识别结果;
[0008]从所述业务数据集包括的多个文本中确定目标文本;
[0009]获取所述目标文本对应的第一识别依据,所述第一识别依据表征所述目标文本是所述标准识别结果的识别原因;
[0010]基于所述目标文本和所述目标文本对应的第一识别依据构建指令数据集;
[0011]基于所述指令数据集对第一语言模型的待调整模型参数进行调整,得到所述文本识别模型,所述第一语言模型是预先训练好的语言模型,所述第一语言模型的参数数量低于数量阈值。
[0012]一方面,本申请实施例提供一种文本识别模型的训练装置,所述装置包括获取单元、确定单元、构建单元和调整单元:
[0013]所述获取单元,用于获取业务数据集,所述业务数据集中包括多个文本和每个文本对应的初始识别标签,所述初始识别标签用于指示对应的文本的标准识别结果;
[0014]所述确定单元,用于从所述业务数据集包括的多个文本中确定目标文本;
[0015]所述获取单元,还用于获取所述目标文本对应的第一识别依据,所述第一识别依据表征所述目标文本是所述标准识别结果的识别原因;
[0016]所述构建单元,用于基于所述目标文本和所述目标文本对应的第一识别依据构建指令数据集;
[0017]所述调整单元,用于基于所述指令数据集对第一语言模型的待调整模型参数进行调整,得到所述文本识别模型,所述第一语言模型是预先训练好的语言模型,所述第一语言模型的参数数量低于数量阈值。
[0018]一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
[0019]所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
[0020]所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。
[0021]一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序当被处理器执行时使所述处理器执行前述任一方面所述的方法。
[0022]一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一方面所述的方法。
[0023]由上述技术方案可以看出,本申请为了保证文本识别的准确性,同时避免使用大型语言模型,通过将较为准确的识别知识迁移到小规模的第一语言模型上的方式提高模型的准确度。具体的,可以获取业务数据集,业务数据集中包括多个文本和每个文本对应的初始识别标签,初始识别标签用于指示对应的文本的标准识别结果。然后从业务数据集包括的多个文本中确定目标文本,获取目标文本对应的第一识别依据,第一识别依据表征目标文本是标准识别结果的识别原因,从而包含了更加丰富的识别知识。基于目标文本和目标文本对应的第一识别依据构建指令数据集,进而基于指令数据集对第一语言模型的待调整模型参数进行调整,得到文本识别模型。第一语言模型是预先训练好的语言模型,第一语言模型的参数数量低于数量阈值,即第一语言模型是规模较小的语言模型。通过包含了更加丰富识别知识的指令数据集对第一语言模型进行调整,从而使得第一语言模型可以学习到更加丰富的识别知识,对其识别能力进行改进,得到识别能力更强的文本识别模型。同时由于文本识别模型是基于规模较小的第一语言模型调整得到的,因此,文本识别模型的规模也较小,从而降低了资源消耗和部署难度,实现在保证文本识别的准确性的情况下,降低了资源消耗和部署难度的目的。
附图说明
[0024]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025]图1为本申请实施例提供的一种文本识别模型的训练方法的应用场景架构图;
[0026]图2为本申请实施例提供的一种文本识别模型的训练方法的流程图;
[0027]图3为本申请实施例提供的一种前缀微调的流程示例图;
[0028]图4为本申请实施例提供的一种文本识别模型的训练方法的整体流程图;
[0029]图5为本申请实施例提供的一种知识蒸馏阶段的处理流程示例图;
[0030]图6为本申请实施例提供的一种文本识别模型的训练装置的结构图;
[0031]图7为本申请实施例提供的一种终端的结构图;
[0032]图8为本申请实施例提供的一种服务器的结构图。
具体实施方式
[0033]下面结合附图,对本申请的实施例进行描述。
[0034]文本识别也可以称为文本审核,主要是对网络上的文本进行审核,可以通过自然语言处理技术,对文本进行分析和识别,从而判断文本是否是待处理文本,即判断文本是否符合规范、真实、准确。若文本不符合规范、或者不真实准确,则该文本可以是待处理文本,从而对待处理文本采用措施进行处理,例如不推荐、删除等措施。文本审核可以用于各种场景,例如社交媒体、新闻网站、电子商务平台等。在社交媒体中,可以帮助平台快速识别和过滤掉不良信息,如炫富、暴力、谩骂、低俗、不良价值观等。新闻网站可以帮助快速审核新闻稿件,判断其真实性和准确性。在电子商务平台,可以帮助平台快速审核商品描述信息和评论,判断其真实性和准确性。
[0035]目前,可以基于机器学习模型进行文本识别。而为了保证文本识别的准确性,通常情况下,可以采用大型语言模型(即模型参数的数量非常大的一种机器学习模型)进行文本识别。然而,这种方式虽本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法,其特征在于,所述方法包括:获取业务数据集,所述业务数据集中包括多个文本和每个文本对应的初始识别标签,所述初始识别标签用于指示对应的文本的标准识别结果;从所述业务数据集包括的多个文本中确定目标文本;获取所述目标文本对应的第一识别依据,所述第一识别依据表征所述目标文本是所述标准识别结果的识别原因;基于所述目标文本和所述目标文本对应的第一识别依据构建指令数据集;基于所述指令数据集对第一语言模型的待调整模型参数进行调整,得到所述文本识别模型,所述第一语言模型是预先训练好的语言模型,所述第一语言模型的参数数量低于数量阈值。2.根据权利要求1所述的方法,其特征在于,所述目标文本为第一类型文本,所述从所述业务数据集包括的多个文本中确定目标文本,包括:通过所述第一语言模型对所述业务数据集中的多个文本分别进行识别,得到所述多个文本中每个文本的第一预测识别结果;针对每个文本,若确定所述文本的第一预测识别结果与所述文本的标准识别结果不一致,将所述文本确定为所述第一类型文本。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:针对每个文本,若确定所述文本的第一预测识别结果与所述文本的标准识别结果一致,将所述文本确定为第二类型文本;获取所述第二类型文本对应的第二识别依据,所述第二识别依据是所述第一语言模型对所述第二类型文本进行识别得到第一预测识别结果时,输出的得到对应第一预测识别结果的识别原因;所述基于所述目标文本和所述目标文本对应的第一识别标签构建指令数据集,包括:基于所述第一类型文本和所述第一类型文本对应的第一识别依据,以及基于所述第二类型文本和所述第二类型文本对应的第二识别依据构建所述指令数据集。4.根据权利要求1所述的方法,其特征在于,所述获取所述目标文本对应的第一识别依据,包括:基于所述目标文本和所述目标文本对应的初始识别标签,通过第二语言模型输出所述第一识别依据,所述第二语言模型的参数数量大于所述第一语言模型的参数数量。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标文本和所述目标文本对应的初始识别标签,通过第二语言模型输出所述第一识别依据,包括:基于所述目标文本和所述目标文本对应的初始识别标签生成第一提示描述模板;按照第一提示描述模板,通过所述第二语言模型输出所述第一识别依据。6.根据权利要求1所述的方法,其特征在于,所述第一识别依据是基于先验知识信息标注得到的。7.根据权利要求2所述的方法,其特征在于,所述业务数据集中还包括识别任务的识别标准,所述多个文本中每个文本对应一个识别任务,所述通过所述第一语言模型对所述业务数据集中的多个文本分别进行识别,得到所述多个文本中每个文本的第一预测识别结果,包括:
针对所述多个文本中的每个文本,基于所述文本对应的识别任务的识别标准,通过所述第一语言模型对所述文本进行识别,得到所述文本在对应的识别任务下的第一预测识别结果。8.根据权利要求7所述的方法...

【专利技术属性】
技术研发人员:李丽丽陈曦刘庆斌张明昊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1