【技术实现步骤摘要】
一种用于识别文本的模型的训练方法以及文本识别方法
[0001]本公开涉及人工智能
,尤其涉及文本识别和机器学习
技术介绍
[0002]随着人民生活水平的提升以及科技日新月异的发展,人们获取信息的方式逐步发生变化,例如近年来人们对图文和视频类产品的需求急速增长。然而图文和视频类产品中经常存在一些不良信息的违规文本,这些违规文本不仅不会给用户或内容发布平台带来收益,还会极大地降低用户的阅读体验,损害平台的产品生态。
技术实现思路
[0003]本公开提供了一种用于识别文本的模型的训练方法以及文本识别方法。
[0004]本公开实施例的第一方面,提供了一种用于识别文本的模型的训练方法,包括:
[0005]确定违规文本的相似文本,并将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本;
[0006]将每个正样本的主题标签设置为违规主题,将每个正样本的样本标签设置为违规片段,所述主题标签为文本片段所属文本的文本主题的标签;
[0007]获取非违规文本,将所述非违规文本中不包含违规内容的每个文本片段作为一个负样本,将每个负样本的主题标签设置为非违规主题,将每个负样本的样本标签设置为非违规片段;
[0008]利用各样本所属的文本主题以及各文本主题的主题标签,训练第一神经网络,得到主题识别模型,所述主题识别模型用于识别文本主题是否为违规主题;
[0009]利用各样本以及各样本对应的样本标签,训练第二神经网络,得到片段识别模型,所述片段识别 ...
【技术保护点】
【技术特征摘要】
1.一种用于识别文本的模型的训练方法,包括:确定违规文本的相似文本,并将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本;将每个正样本的主题标签设置为违规主题,将每个正样本的样本标签设置为违规片段,所述主题标签为文本片段所属文本的文本主题的标签;获取非违规文本,将所述非违规文本中不包含违规内容的每个文本片段作为一个负样本,将每个负样本的主题标签设置为非违规主题,将每个负样本的样本标签设置为非违规片段;利用各样本所属的文本主题以及各文本主题的主题标签,训练第一神经网络,得到主题识别模型,所述主题识别模型用于识别文本主题是否为违规主题;利用各样本以及各样本对应的样本标签,训练第二神经网络,得到片段识别模型,所述片段识别模型用于识别文本片段是否为违规片段。2.根据权利要求1所述的方法,其中,所述违规文本的发布时间属于当前训练周期;所述将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本,包括:对所述违规文本和所述相似文本划分片段;确定划分的各片段中的疑似违规片段;利用多个文本分类模型,从各疑似违规片段中筛选出正样本;其中,所述多个文本分类模型分别为基于不同历史训练周期内获取的正样本和负样本,训练第三神经网络得到的模型。3.根据权利要求2所述的方法,其中,所述利用多个文本分类模型,从各疑似违规片段中筛选出正样本,包括:针对每个疑似违规片段,使用多个文本分类模型识别该疑似违规片段是否为违规片段;若该疑似违规片段被识别为违规片段的次数与文本分类模型数量之间的比值大于预设第一比值,则将该疑似违规片段作为一个正样本。4.根据权利要求2所述的方法,其中,所述确定划分的各片段中的疑似违规片段,包括:对所述违规文本中的各段落以及所述相似文本中的各段落进行聚类,得到多个类簇;确定包括的段落数量大于预设阈值的类簇为疑似违规类簇;从划分的各片段中,将包含疑似违规段落的片段作为疑似违规片段,所述疑似违规段落为所述疑似违规类簇包括的段落。5.根据权利要求4所述的方法,其中,所述对所述违规文本中的各段落以及所述相似文本中的各段落进行聚类,得到多个类簇,包括:利用第一聚类算法,对所述违规文本中的各段落以及所述相似文本中的各段落进行聚类,得到多个一级类簇;针对每个一级类簇,利用第二聚类算法,对该一级类簇包括的各段落进行聚类,得到多个二级类簇;所述确定包括的段落数量大于预设阈值的类簇为疑似违规类簇,包括:将包括的段落数量大于所述预设阈值的二级类簇,确定为疑似违规类簇。
6.根据权利要求2所述的方法,其中,所述文本分类模型对疑似违规片段的识别结果包括疑似违规片段内违规内容的位置;在所述将所述违规文本和所述相似文本中,包含违规内容的每个文本片段作为一个正样本之后,所述方法还包括:针对每个正样本,根据所述多个文本分类模型识别的该正样本内违规内容的位置,确定该正样本中的违规内容;对该正样本中的违规内容进行至少一种数据增强处理,并将每个数据增强结果作为一个正样本。7.根据权利要求1所述的方法,其中,所述非违规文本的发布时间属于当前训练周期;所述将所述非违规文本中不包含违规内容的每个文本片段作为一个负样本,包括:对所述非违规文本划分片段;利用多个文本分类模型,从划分的各片段中筛选出负样本;其中,所述多个文本分类模型分别为基于不同历史训练周期内获取的正样本和负样本,训练第三神经网络得到的模型。8.根据权利要求7所述的方法,其中,所述利用多个文本分类模型,从划分的各片段中筛选出负样本,包括:针对划分的每个片段,使用多个文本分类模型识别该片段是否为违规片段;若该片段被识别为非违规片段的次数与文本分类模型数量之间的比值大于预设第二比值,则将该片段作为一个负样本。9.根据权利要求2
‑
8任一项所述的方法,所述方法还包括:将当前训练周期内获取的正样本和负样本分别输入所述第三神经网络,得到所述第三神经网络的识别结果,所述识别结果用于表示输入的样本是否为违规片段;基于所述第三神经网络的识别结果,对所述第三神经网络进行训练,将训练完成的第三神经网络,作为一个文本分类模型。10.根据权利要求1
‑
8任一项所述的方法,其中,所述确定违规文本的相似文本,包括:根据当前训练周期以及当前训练周期之前的多个训练周期内各作者的发文频率,确定异常活跃作者;从所述异常活跃作者在当前训练周期内发布的文本中,筛选与所述违规文本之间的相似度高于相似度阈值的文本,作为第一相似文本;从当前训练周期各作者发布的文本中,筛选发布时间处于违规文本集中发布时间段内的文本,作为第二相似文本;从当前训练周期各作者发布的文本中,筛选包括的段落与所述违规文本包括的段落存在重合的文本,作为第三相似文本;从所述第一相似文本、所述第二相似文本和所述第三相似文本中去除重...
【专利技术属性】
技术研发人员:年炫炜,
申请(专利权)人:百度时代网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。