文本判别的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：29309151 阅读：23 留言：0更新日期：2021-07-17 02:06

本申请涉及一种文本判别的方法、装置、电子设备及存储介质。应用于数据处理技术领域，其中文本判别方法包括：获取待识别文本，待识别文本中包括至少一个字符；确定待识别文本中目标字符的敏感度，目标字符为待识别文本中的任一字符；根据目标字符的敏感度和至少一个与目标字符相邻的邻域字符的敏感度，确定目标字符的召回倾向度，召回倾向度指示目标字符所在的待识别文本被召回的倾向程度；在目标字符的召回倾向度大于预设值时，确定待识别文本需要召回。本申请用以解决相关技术中，对敏感内容识别准确率低、召回结果不理想的问题。识别准确率低、召回结果不理想的问题。识别准确率低、召回结果不理想的问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本判别的方法、装置、电子设备及存储介质

[0001]本申请涉及数据处理
，尤其涉及一种文本判别的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着社交网络、移动互联网的不断普及，人们在互联网上分享自己的生活所见、所闻及所想的现象越来越普遍。主要包括人们在互联网上发布自己的视频、评论等，而视频的标题以及评论的内容中，往往会存在一些低俗、违法、暴力倾向、政治敏感等不合规的信息，因此需要将此类内容进行识别并召回，以净化网络。
[0003]现有技术中，往往采用简单的敏感词匹配来确定文本中是否存在敏感词，即，将文本中的词汇与敏感词汇进行匹配，若匹配成功，则表示存在敏感词。在文本中存在敏感词时，便对文本进行召回。但是这种方法由于敏感词的歧义或者文本的分词错误将会导致精确性较低，例如：“我有一辆小三轮车”中的“小三”与敏感词汇中的“小三”含义并不相同，但是，简单的敏感词匹配法会将其认为是同一概念，这种情况下，便会导致误判，准确性较低，使得召回结果不理想。

技术实现思路

[0004]本申请提供了一种文本判别的方法、装置、电子设备及存储介质，用以解决相关技术中，对敏感内容识别准确率低、召回结果不理想的问题。
[0005]第一方面，本申请提供了一种文本判别方法，包括：
[0006]获取待识别文本，所述待识别文本中包括至少一个字符；
[0007]确定所述待识别文本中目标字符的敏感度，所述目标字符为所述待识别文本中的任一字符；
[0008]根据所述目标字符的敏感度和至...

【技术保护点】

【技术特征摘要】
1.一种文本判别方法，其特征在于，包括：执行以下判别过程：获取待识别文本，所述待识别文本中包括至少一个字符；确定所述待识别文本中目标字符的敏感度，所述目标字符为所述待识别文本中的任一字符；根据所述目标字符的敏感度和至少一个与所述目标字符相邻的邻域字符的敏感度，确定所述目标字符的召回倾向度，所述召回倾向度指示所述目标字符所在的待识别文本被召回的倾向程度；在所述目标字符的所述召回倾向度大于预设值时，确定所述待识别文本需要召回。2.根据权利要求1所述的文本判别方法，其特征在于，所述确定所述待识别文本中目标字符的敏感度，包括：获取预设的敏感词集；根据预设敏感词集对所述待识别文本进行全称匹配，得到匹配结果；根据所述匹配结果，对所述目标字符进行赋值，将赋值结果作为所述目标字符的敏感度，其中，匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度。3.根据权利要求2所述的文本判别方法，其特征在于，所述根据所述目标字符的敏感度和至少一个与所述目标字符相邻的相邻字符的敏感度，确定所述目标字符的召回倾向度，包括：根据每个所述目标字符的所述赋值结果，确定所述训练文本的匹配序列；对所述匹配序列进行平滑处理，得到平滑序列；根据所述平滑序列，确定所述目标字符的召回倾向度。4.根据权利要求1所述的文本判别方法，其特征在于，还包括：获取训练样本集，所述训练样本集中包括至少一个训练文本、各所述训练文本中各训练字符的真实召回倾向度以及所述训练文本的真实判别结果，所述真实召回倾向度和所述真实判别结果是所述训练文本通过执行所述判别过程得到；根据所述训练样本集对初始神经网络进行训练，得到判别神经网络；基于所述判别神经网络确定所述待识别文本是否需要召回。5.根据权利要求4所述的文本判别方法，其特征在于，所述根据所述训练样本集对初始神经网络进行训练，得到判别神经网络，包括：分别对所述训练样本集中的每个训练文本执行以下训练过程：将所述训练文本输入初始神经网络，对所述训练文本中的各训练字符赋予训练字符向量，将所述训练字符向量与初始查询向量点乘，得到所述训练字符的预测召回倾向度；根据所述预测召回倾向度对所述训练字符向量加权平均，并将加权平均后的结果依次输入隐藏层、全连接层和输出层，得到样本输出结果，根据所述样本输出结果判断所述训练文本是否需要召回，得到预测判别结果；根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度，更新所述初始查询向量的第一参数，以及根据所述预测判别结果和所述真实判别结果，更新所述初始神经网络的第二参数，重复执行所述训练过程，直至所述训练...

【专利技术属性】
技术研发人员：洪煜中，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人