文本识别模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31227386 阅读:23 留言:0更新日期:2021-12-08 09:36
本公开实施例公开了一种文本识别模型的训练方法、装置、电子设备及存储介质,所述方法包括:获取样本文本中样本句子的多个样本分词;通过将所述样本分词输入至所述主干模型获取对应于所述样本句子的第一输出结果,以及通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果;所述第一输出结果至少用于表示所述主干模型所述样本句子是否涉及目标内容,所述第二输出结果至少用于表示所述样本分词是否涉及所述目标内容;利用所述第一输出结果和第二输出结果对所述主干模型和所述辅助模型的模型参数进行调整;所述主干模型和辅助模型共享至少一部分模型参数。该技术方案能够提高文本识别模型的识别能力。力。力。

【技术实现步骤摘要】
文本识别模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,具体涉及一种文本识别模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展,文本内容的审核大多依赖于机器自动审核。文本内容的审核主要是指针对所发布的文本内容进行有害或垃圾信息的过滤,以符合法律法规及业务诉求等。通常的做法是使用敏感词过滤系统,审核系统预先设定一批关键词库并对词组进行排列组合,之后根据敏感性对关键词组合进行分类,在内容审核时筛选出含有敏感词的文本,并作进一步处理,例如人工再次审核等。但是通过这种方式造成的误差较大,造成审核结果不准确,并且需要人工进一步审核,效率低下。因此,如何提供文本内容的审核准确率是本领域人员需要解决的技术问题之一。

技术实现思路

[0003]本公开实施例提供一种文本识别模型的训练方法、装置、电子设备及计算机可读存储介质。
[0004]第一方面,本公开实施例中提供了一种文本识别模型的训练方法,所述文本识别模型包括主干模型和至少一个辅助模型,包括:
[0005]获取样本文本中样本句子的多个样本分词;
[0006]通过将所述样本分词输入至所述主干模型获取对应于所述样本句子的第一输出结果,以及通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果;所述第一输出结果至少用于表示所述样本句子是否涉及目标内容,所述第二输出结果至少用于表示所述样本分词是否涉及所述目标内容;
[0007]利用所述第一输出结果和第二输出结果对所述主干模型和所述辅助模型的模型参数进行调整;所述主干模型和辅助模型共享至少一部分模型参数。
[0008]进一步地,通过将所述样本分词输入至所述主干模型获取对应于所述样本句子的第一输出结果,包括:
[0009]获取所述样本分词的初始词向量;
[0010]通过将所述样本句子中所述样本分词对应的所述初始词向量输入至所述主干模型中的句子向量表示模型,获取所述样本句子的样本句子向量,以及通过将所述样本句子向量输入至所述主干模型中的句子识别模型获取所述第一输出结果。
[0011]进一步地,通过将所述样本句子中所述样本分词对应的所述初始词向量输入至所述主干模型中的句子向量表示模型,获取所述样本句子的样本句子向量,包括:
[0012]通过将所述样本分词对应的所述初始词向量输入至所述句子向量表示模型中的第一上下文信息表示模型,获取所述样本分词的上下文词向量;
[0013]利用注意力机制以及所述上下文词向量确定所述样本分词的词语注意力权重;
[0014]利用所述样本分词的所述词语注意力权重以及所述上下文词向量获取所述样本句子的样本句子向量。
[0015]进一步地,利用注意力机制以及所述上下文词向量确定所述样本分词的词语注意力权重,包括:
[0016]利用全连接层对所述样本分词对应的所述上下文词向量进行处理得到对应的第一输出向量;其中,所述主干模型和所述辅助模型共享所述全连接层的模型参数;
[0017]根据所述第一输出向量计算得到所述样本分词的词语注意力权重。
[0018]进一步地,通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果,包括:
[0019]利用所述第一输出向量确定所述样本分词对应的所述第二输出结果。
[0020]进一步地,通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果,包括:
[0021]利用全连接层对所述样本分词对应的初始词向量进行处理得到对应的第二输出向量;所述主干模型和所述辅助模型共享所述全连接层的模型参数;
[0022]根据所述第二输出向量确定所述样本分词对应的所述第二输出结果。
[0023]进一步地,通过将所述样本句子向量输入至所述主干模型中的句子识别模型获取所述第一输出结果,包括:
[0024]通过将所述样本句子向量输入至所述主干模型中的第二上下文信息表示模型,获取所述样本句子的上下文句子向量;
[0025]根据所述上下文句子向量确定所述第一输出结果。
[0026]进一步地,利用所述第一输出结果和第二输出结果对所述主干模型和所述辅助模型的模型参数进行调整,包括:
[0027]通过对所述样本文本中多个所述样本句子对应的第一输出结果确定所述样本文本是否涉及目标内容的第三输出结果;
[0028]通过分别拟合所述第三输出结果与所述样本句子是否涉及目标内容的第一真实标签、所述第二输出结果与所述样本分词是否涉及目标内容的第二真实标签,对所述主干模型和所述辅助模型的模型参数进行调整。
[0029]第二方面,本公开实施例中提供了一种文本识别方法,包括:
[0030]获取待识别文本;
[0031]利用文本识别模型中的主干模型识别所述待识别文本是否涉及目标内容;其中,所述文本识别模型利用第一方面所述的方法训练得到。
[0032]第三方面,本公开实施例中提供了一种句子向量表示方法,包括:
[0033]获取目标句子中的多个分词;
[0034]利用第一上下文信息表示模型获取所述分词的上下文向量词;
[0035]利用自注意力机制以及所述上下文词向量确定所述分词的词语注意力权重;
[0036]利用所述分词的所述词语注意力权重以及所述上下文词向量确定所述目标句子的句子向量。
[0037]进一步地,利用第一上下文信息表示模型获取所述分词的上下文向量词,包括:
[0038]获取所述分词对应的初始词向量;
[0039]通过将多个所述分词对应的所述初始词向量构成的词向量序列输入至所述第一上下文信息表示模型,获取所述分词对应的所述上下文词向量。
[0040]进一步地,利用注意力机制以及所述上下文词向量确定所述分词的词语注意力权重,包括:
[0041]将所述上下文词向量输入至全连接层得到输出向量;
[0042]利用所述输出向量计算得到所述分词的词语注意力权重。
[0043]第四方面,本公开实施例中提供了一种文本识别方法,包括:
[0044]获取待识别文本中的多个目标句子;
[0045]确定所述目标句子的句子向量;所述句子向量利用第三方面所述的方法确定;
[0046]利用所述句子向量确定所述目标句子的第一识别结果;所述第一识别结果至少用于表示所述目标句子是否涉及目标内容;
[0047]根据所述第一识别结果确定所述待识别文本的第二识别结果;所述第二识别结果至少用于表示所述待识别本是否涉及所述目标内容。
[0048]进一步地,利用所述句子向量确定所述目标句子的第一识别结果,包括:
[0049]通过将所述句子向量输入至第二上下文信息表示模型获取所述目标句子的上下文句子向量;
[0050]根据所述上下文句子向量确定所述第一识别结果。
[0051]第五方面,本公开实施例中提供了一种文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型的训练方法,其中,所述文本识别模型包括主干模型和至少一个辅助模型,包括:获取样本文本中样本句子的多个样本分词;通过将所述样本分词输入至所述主干模型获取对应于所述样本句子的第一输出结果,以及通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果;所述第一输出结果至少用于表示所述样本句子是否涉及目标内容,所述第二输出结果至少用于表示所述样本分词是否涉及所述目标内容;利用所述第一输出结果和第二输出结果对所述主干模型和所述辅助模型的模型参数进行调整;所述主干模型和辅助模型共享至少一部分模型参数。2.根据权利要求1所述的方法,其中,通过将所述样本分词输入至所述主干模型获取对应于所述样本句子的第一输出结果,包括:获取所述样本分词的初始词向量;通过将所述样本句子中所述样本分词对应的所述初始词向量输入至所述主干模型中的句子向量表示模型,获取所述样本句子的样本句子向量,以及通过将所述样本句子向量输入至所述主干模型中的句子识别模型获取所述第一输出结果。3.根据权利要求2所述的方法,其中,通过将所述样本句子中所述样本分词对应的所述初始词向量输入至所述主干模型中的句子向量表示模型,获取所述样本句子的样本句子向量,包括:通过将所述样本分词对应的所述初始词向量输入至所述句子向量表示模型中的第一上下文信息表示模型,获取所述样本分词的上下文词向量;利用注意力机制以及所述上下文词向量确定所述样本分词的词语注意力权重;利用所述样本分词的所述词语注意力权重以及所述上下文词向量获取所述样本句子的样本句子向量。4.根据权利要求3所述的方法,其中,利用注意力机制以及所述上下文词向量确定所述样本分词的词语注意力权重,包括:利用全连接层对所述样本分词对应的所述上下文词向量进行处理得到对应的第一输出向量;其中,所述主干模型和所述辅助模型共享所述全连接层的模型参数;根据所述第一输出向量计算得到所述样本分词的词语注意力权重。5.根据权利要求4所述的方法,其中,通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果,包括:利用所述第一输出向量确定所述样本分词对应的所述第二输出结果。6.根据权利要求1-5任一项所述的方法,其中,通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果,包括:利用全连接层对所述样本分词对应的初始词向量进行处理得到对应的第二输出向量;所述主干模型和所述辅助模型共享所述全连接层的模型参数;根据所述第二输出向量确定所述样本分词对应的所述第二输出结果。7.根据权利要求2-5任一项所述的方法,其中,通过将所述样本句子向量输入至所述主干模型中的句子识别模型获取所述第一输出结果,包括:通过将所述样本句子向量输入至所述主干模型中的第二上下文信息表示模型,获取所
述样本句子的上下文句子向量;根据所述上下文句子向量确定所述第一输出结果。8.根据权利要求1-5任一项所述的方法,其中,利用所述第一输出结果和第二输出结果对所述主干模型和所述辅助模型的模型参数进行调整,包括:通过对所述样本文本中多个所述样本句子对应的第一输出结果确定所述样本文本是否涉及目标内容的第三输出结果;通过分别拟合所述第三输出结果与所述样本句子是否涉及目标内容的第一真实标签、所述第二输出结果与所述样本分词是否涉及目标内容的第二真实标签,对所述主干模型和所述辅助模型的模型参数进行调整。9.一种文本识别方法,其中,包括:获取待识别文本;利用文本识别模型中的主干模型识别所述待识别文本是否涉及目标内容;其中,所述文本识别模型利用权利要求1-8任一项所述的方法训练得到。10.一种句子向量表示方法,其中,包括:获取目标句子中的多个分词;利用第一上下文信息表示模型获取所述分词的上下文向量词;利用自注意力...

【专利技术属性】
技术研发人员:宋凯嵩康杨杨张琼孙常龙林君
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1