一种用于识别文本的模型的训练方法以及文本识别方法技术

技术编号:38198052 阅读:11 留言:0更新日期:2023-07-21 16:36
本公开提供了一种用于识别文本的模型的训练方法以及文本识别方法,涉及人工智能技术领域,尤其涉及文本识别和机器学习技术领域。具体实现方案为:将包含违规内容的每个文本片段作为一个正样本。之后将每个正样本的主题标签设置为违规主题,将每个正样本的样本标签设置为违规片段。并不包含违规内容的每个文本片段作为一个负样本,将每个负样本的主题标签设置为非违规主题,将每个负样本的样本标签设置为非违规片段。之后利用各样本所属的文本主题以及主题标签,训练第一神经网络,得到主题识别模型;并利用各样本以及样本标签,训练第二神经网络,得到片段识别模型。从而在减少对人工的依赖的基础上,提高识别违规文本的准确性。性。性。

【技术实现步骤摘要】
一种用于识别文本的模型的训练方法以及文本识别方法


[0001]本公开涉及人工智能
,尤其涉及文本识别和机器学习


技术介绍

[0002]随着人民生活水平的提升以及科技日新月异的发展,人们获取信息的方式逐步发生变化,例如近年来人们对图文和视频类产品的需求急速增长。然而图文和视频类产品中经常存在一些不良信息的违规文本,这些违规文本不仅不会给用户或内容发布平台带来收益,还会极大地降低用户的阅读体验,损害平台的产品生态。

技术实现思路

[0003]本公开提供了一种用于识别文本的模型的训练方法以及文本识别方法。
[0004]本公开实施例的第一方面,提供了一种用于识别文本的模型的训练方法,包括:
[0005]确定违规文本的相似文本,并将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本;
[0006]将每个正样本的主题标签设置为违规主题,将每个正样本的样本标签设置为违规片段,所述主题标签为文本片段所属文本的文本主题的标签;
[0007]获取非违规文本,将所述非违规文本中不包含违规内容的每个文本片段作为一个负样本,将每个负样本的主题标签设置为非违规主题,将每个负样本的样本标签设置为非违规片段;
[0008]利用各样本所属的文本主题以及各文本主题的主题标签,训练第一神经网络,得到主题识别模型,所述主题识别模型用于识别文本主题是否为违规主题;
[0009]利用各样本以及各样本对应的样本标签,训练第二神经网络,得到片段识别模型,所述片段识别模型用于识别文本片段是否为违规片段。
[0010]本公开实施例的第二方面,提供了获取待识别文本的待识别主题,并对所述待识别文本划分片段;
[0011]利用主题识别模型识别所述待识别主题是否为违规主题,所述主题识别模型为经过第一方面任一项所述的方法对第一神经网络进行训练得到的模型;
[0012]利用片段识别模型识别所述待识别文本包括的每个片段是否为违规片段;所述片段识别模型为经过第一方面任一项所述的方法对第二神经网络进行训练得到的模型;
[0013]若所述待识别主题为违规主题,且所述待识别文本中存在违规片段,则确定所述待识别文本为违规文本。
[0014]本公开实施例的第三方面,提供了一种用于识别文本的模型的训练装置,包括:
[0015]确定模块,用于确定违规文本的相似文本,并将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本;
[0016]设置模块,用于将每个正样本的主题标签设置为违规主题,将每个正样本的样本标签设置为违规片段,所述主题标签为文本片段所属文本的文本主题的标签;
[0017]获取模块,用于获取非违规文本,将所述非违规文本中不包含违规内容的每个文本片段作为一个负样本,将每个负样本的主题标签设置为非违规主题,将每个负样本的样本标签设置为非违规片段;
[0018]训练模块,用于利用各样本所属的文本主题以及各文本主题的主题标签,训练第一神经网络,得到主题识别模型,所述主题识别模型用于识别文本主题是否为违规主题;
[0019]所述训练模块,还用于利用各样本以及各样本对应的样本标签,训练第二神经网络,得到片段识别模型,所述片段识别模型用于识别文本片段是否为违规片段。
[0020]本公开实施例的第四方面,提供了一种文本识别装置,包括:
[0021]获取模块,用于获取待识别文本的待识别主题,并对所述待识别文本划分片段;
[0022]识别模块,用于利用主题识别模型识别所述待识别主题是否为违规主题,所述主题识别模型为经过第一方面任一项所述的方法对第一神经网络进行训练得到的模型;
[0023]所述识别模块,还用于利用片段识别模型识别所述待识别文本包括的每个片段是否为违规片段;所述片段识别模型为经过第一方面任一项所述的方法对第二神经网络进行训练得到的模型;
[0024]确定模块,用于若所述待识别主题为违规主题,且所述待识别文本中存在违规片段,则确定所述待识别文本为违规文本。
[0025]本公开实施例的第五方面,提供了一种电子设备,包括:
[0026]至少一个处理器;以及
[0027]与所述至少一个处理器通信连接的存储器;其中,
[0028]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。
[0029]本公开实施例的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面中任一项所述的方法。
[0030]本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面或第二方面任一项所述的方法。
[0031]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0032]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0033]图1是本公开实施例提供的一种用于识别文本的模型的训练方法流程图;
[0034]图2是本公开实施例提供的一种确定正样本的方法流程图;
[0035]图3是本公开实施例提供的一种确定负样本的方法流程图;
[0036]图4是本公开实施例提供的一种文本识别方法的流程图;
[0037]图5是本公开实施例提供的一种文本识别过程的示例性示意图;
[0038]图6是本公开实施例提供的一种用于识别文本的模型的训练装置的结构示意图;
[0039]图7是本公开实施例提供的一种文本识别装置的结构示意图;
[0040]图8是用来实现本公开实施例的用于识别文本的模型的训练方法以及文本识别方法的电子设备的框图。
具体实施方式
[0041]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0042]目前,对于违规文本的识别主要依赖于人工标注,即由审核人员标注样本文本是否为违规文本,然后使用样本文本及其标注训练识别模型。之后利用识别模型识别待识别文本是否为违规文本。
[0043]由于对文本的标注结果随审核员的不同,以及审核环境的不同而存在差异,使得标注结果受主观因素干扰严重,其准确性难以保障,进而使得识别模型的准确性难以得到保障。
[0044]为了在减少对人工的依赖的基础上,提高识别违规文本的准确性,本公开实施例提供了一种用于识别文本的模型的训练方法,该方法应用于电子设备,例如电本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于识别文本的模型的训练方法,包括:确定违规文本的相似文本,并将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本;将每个正样本的主题标签设置为违规主题,将每个正样本的样本标签设置为违规片段,所述主题标签为文本片段所属文本的文本主题的标签;获取非违规文本,将所述非违规文本中不包含违规内容的每个文本片段作为一个负样本,将每个负样本的主题标签设置为非违规主题,将每个负样本的样本标签设置为非违规片段;利用各样本所属的文本主题以及各文本主题的主题标签,训练第一神经网络,得到主题识别模型,所述主题识别模型用于识别文本主题是否为违规主题;利用各样本以及各样本对应的样本标签,训练第二神经网络,得到片段识别模型,所述片段识别模型用于识别文本片段是否为违规片段。2.根据权利要求1所述的方法,其中,所述违规文本的发布时间属于当前训练周期;所述将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本,包括:对所述违规文本和所述相似文本划分片段;确定划分的各片段中的疑似违规片段;利用多个文本分类模型,从各疑似违规片段中筛选出正样本;其中,所述多个文本分类模型分别为基于不同历史训练周期内获取的正样本和负样本,训练第三神经网络得到的模型。3.根据权利要求2所述的方法,其中,所述利用多个文本分类模型,从各疑似违规片段中筛选出正样本,包括:针对每个疑似违规片段,使用多个文本分类模型识别该疑似违规片段是否为违规片段;若该疑似违规片段被识别为违规片段的次数与文本分类模型数量之间的比值大于预设第一比值,则将该疑似违规片段作为一个正样本。4.根据权利要求2所述的方法,其中,所述确定划分的各片段中的疑似违规片段,包括:对所述违规文本中的各段落以及所述相似文本中的各段落进行聚类,得到多个类簇;确定包括的段落数量大于预设阈值的类簇为疑似违规类簇;从划分的各片段中,将包含疑似违规段落的片段作为疑似违规片段,所述疑似违规段落为所述疑似违规类簇包括的段落。5.根据权利要求4所述的方法,其中,所述对所述违规文本中的各段落以及所述相似文本中的各段落进行聚类,得到多个类簇,包括:利用第一聚类算法,对所述违规文本中的各段落以及所述相似文本中的各段落进行聚类,得到多个一级类簇;针对每个一级类簇,利用第二聚类算法,对该一级类簇包括的各段落进行聚类,得到多个二级类簇;所述确定包括的段落数量大于预设阈值的类簇为疑似违规类簇,包括:将包括的段落数量大于所述预设阈值的二级类簇,确定为疑似违规类簇。
6.根据权利要求2所述的方法,其中,所述文本分类模型对疑似违规片段的识别结果包括疑似违规片段内违规内容的位置;在所述将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本之后,所述方法还包括:针对每个正样本,根据所述多个文本分类模型识别的该正样本内违规内容的位置,确定该正样本中的违规内容;对该正样本中的违规内容进行至少一种数据增强处理,并将每个数据增强结果作为一个正样本。7.根据权利要求1所述的方法,其中,所述非违规文本的发布时间属于当前训练周期;所述将所述非违规文本中不包含违规内容的每个文本片段作为一个负样本,包括:对所述非违规文本划分片段;利用多个文本分类模型,从划分的各片段中筛选出负样本;其中,所述多个文本分类模型分别为基于不同历史训练周期内获取的正样本和负样本,训练第三神经网络得到的模型。8.根据权利要求7所述的方法,其中,所述利用多个文本分类模型,从划分的各片段中筛选出负样本,包括:针对划分的每个片段,使用多个文本分类模型识别该片段是否为违规片段;若该片段被识别为非违规片段的次数与文本分类模型数量之间的比值大于预设第二比值,则将该片段作为一个负样本。9.根据权利要求2

8任一项所述的方法,所述方法还包括:将当前训练周期内获取的正样本和负样本分别输入所述第三神经网络,得到所述第三神经网络的识别结果,所述识别结果用于表示输入的样本是否为违规片段;基于所述第三神经网络的识别结果,对所述第三神经网络进行训练,将训练完成的第三神经网络,作为一个文本分类模型。10.根据权利要求1

8任一项所述的方法,其中,所述确定违规文本的相似文本,包括:根据当前训练周期以及当前训练周期之前的多个训练周期内各作者的发文频率,确定异常活跃作者;从所述异常活跃作者在当前训练周期内发布的文本中,筛选与所述违规文本之间的相似度高于相似度阈值的文本,作为第一相似文本;从当前训练周期各作者发布的文本中,筛选发布时间处于违规文本集中发布时间段内的文本,作为第二相似文本;从当前训练周期各作者发布的文本中,筛选包括的段落与所述违规文本包括的段落存在重合的文本,作为第三相似文本;从所述第一相似文本、所述第二相似文本和所述第三相似文本中去除重...

【专利技术属性】
技术研发人员:年炫炜
申请(专利权)人:百度时代网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1