文本判别的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29309151 阅读:23 留言:0更新日期:2021-07-17 02:06
本申请涉及一种文本判别的方法、装置、电子设备及存储介质。应用于数据处理技术领域,其中文本判别方法包括:获取待识别文本,待识别文本中包括至少一个字符;确定待识别文本中目标字符的敏感度,目标字符为待识别文本中的任一字符;根据目标字符的敏感度和至少一个与目标字符相邻的邻域字符的敏感度,确定目标字符的召回倾向度,召回倾向度指示目标字符所在的待识别文本被召回的倾向程度;在目标字符的召回倾向度大于预设值时,确定待识别文本需要召回。本申请用以解决相关技术中,对敏感内容识别准确率低、召回结果不理想的问题。识别准确率低、召回结果不理想的问题。识别准确率低、召回结果不理想的问题。

【技术实现步骤摘要】
文本判别的方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种文本判别的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着社交网络、移动互联网的不断普及,人们在互联网上分享自己的生活所见、所闻及所想的现象越来越普遍。主要包括人们在互联网上发布自己的视频、评论等,而视频的标题以及评论的内容中,往往会存在一些低俗、违法、暴力倾向、政治敏感等不合规的信息,因此需要将此类内容进行识别并召回,以净化网络。
[0003]现有技术中,往往采用简单的敏感词匹配来确定文本中是否存在敏感词,即,将文本中的词汇与敏感词汇进行匹配,若匹配成功,则表示存在敏感词。在文本中存在敏感词时,便对文本进行召回。但是这种方法由于敏感词的歧义或者文本的分词错误将会导致精确性较低,例如:“我有一辆小三轮车”中的“小三”与敏感词汇中的“小三”含义并不相同,但是,简单的敏感词匹配法会将其认为是同一概念,这种情况下,便会导致误判,准确性较低,使得召回结果不理想。

技术实现思路

[0004]本申请提供了一种文本判别的方法、装置、电子设备及存储介质,用以解决相关技术中,对敏感内容识别准确率低、召回结果不理想的问题。
[0005]第一方面,本申请提供了一种文本判别方法,包括:
[0006]获取待识别文本,所述待识别文本中包括至少一个字符;
[0007]确定所述待识别文本中目标字符的敏感度,所述目标字符为所述待识别文本中的任一字符;
[0008]根据所述目标字符的敏感度和至少一个与所述目标字符相邻的邻域字符的敏感度,确定所述目标字符的召回倾向度,所述召回倾向度指示所述目标字符所在的待识别文本被召回的倾向程度;
[0009]在所述目标字符的所述召回倾向度大于预设值时,确定所述待识别文本需要召回。
[0010]可选的,所述确定所述待识别文本中目标字符的敏感度,包括:
[0011]获取预设的敏感词集;
[0012]根据预设敏感词集对所述待识别文本进行全称匹配,得到匹配结果;
[0013]根据所述匹配结果,对所述目标字符进行赋值,将赋值结果作为所述目标字符的敏感度,其中,匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度。
[0014]可选的,所述根据所述目标字符的敏感度和至少一个与所述目标字符相邻的相邻字符的敏感度,确定所述目标字符的召回倾向度,包括:
[0015]根据每个所述目标字符的所述赋值结果,确定所述训练文本的匹配序列;
[0016]对所述匹配序列进行平滑处理,得到平滑序列;
[0017]根据所述平滑序列,确定所述目标字符的召回倾向度。
[0018]可选的,还包括:
[0019]获取训练样本集,所述训练样本集中包括至少一个训练文本、各所述训练文本中各训练字符的真实召回倾向度以及所述训练文本的真实判别结果,所述真实召回倾向度和所述真实判别结果是所述训练文本通过执行所述判别过程得到;
[0020]根据所述训练样本集对初始神经网络进行训练,得到判别神经网络;
[0021]基于所述判别神经网络确定所述待识别文本是否需要召回。
[0022]可选的,所述根据所述训练样本集对初始神经网络进行训练,得到判别神经网络,包括:
[0023]分别对所述训练样本集中的每个训练文本执行以下训练过程:
[0024]将所述训练文本输入初始神经网络,对所述训练文本中的各训练字符赋予训练字符向量,将所述训练字符向量与初始查询向量点乘,得到所述训练字符的预测召回倾向度;根据所述预测召回倾向度对所述训练字符向量加权平均,并将加权平均后的结果依次输入隐藏层、全连接层和输出层,得到样本输出结果,根据所述样本输出结果判断所述训练文本是否需要召回,得到预测判别结果;
[0025]根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,更新所述初始查询向量的第一参数,以及根据所述预测判别结果和所述真实判别结果,更新所述初始神经网络的第二参数,重复执行所述训练过程,直至所述训练文本召回倾向度的准确度大于第一预设值,以及判别结果的准确度大于第二预设阈值;
[0026]将更新后的初始神经网络作为所述判别神经网络。
[0027]可选的,所述根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,更新所述初始查询向量的第一参数,包括:
[0028]根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,计算第一交叉熵;
[0029]根据所述第一交叉熵,将梯度反向传播到所述初始查询向量,优化所述初始查询向量的第一参数。
[0030]可选的,以及根据所述预测判别结果和所述真实判别结果,更新所述初始神经网络的第二参数,包括:
[0031]根据所述训练文本的所述预测判别结果和所述真实判别结果,计算第二交叉熵;
[0032]根据所述第二交叉熵,将梯度反向传播到所述初始神经网络,优化所述初始神经网络每一层的第二参数。
[0033]可选的,还包括:
[0034]获取所述召回倾向度;
[0035]根据所述召回倾向度对各所述字符匹配字符颜色,其中,所述字符颜色与所述召回倾向度相关;
[0036]显示所述待识别文本的字符颜色。
[0037]可选的,所述根据所述召回倾向度对各所述字符匹配字符颜色,包括:
[0038]确定所述召回倾向度所属的区间,所述区间是根据所述召回倾向度的取值范围预
先划分的,并且,各所述区间的字符颜色不同;
[0039]将所述字符匹配所述区间对应的所述字符颜色。
[0040]第二方面,本申请提供了一种文本判别装置,包括:
[0041]获取模块,用于获取待识别文本,所述待识别文本中包括至少一个字符;
[0042]第一确定模块,用于确定所述待识别文本中目标字符的敏感度,所述目标字符为所述待识别文本中的任一字符;
[0043]第二确定模块,用于根据所述目标字符的敏感度和至少一个与所述目标字符相邻的字符的敏感度,确定所述目标字符的召回倾向度;
[0044]判别模块,用于在所述目标字符的所述召回倾向度大于预设值时,确定所述待识别文本需要召回。
[0045]第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的文本判别的方法。
[0046]第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的文本判别的方法。
[0047]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,获取待识别文本,待识别文本中包括至少一个字符;确定待识别文本中目标字符的敏感度,目标字符为待识别文本中的任一字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本判别方法,其特征在于,包括:执行以下判别过程:获取待识别文本,所述待识别文本中包括至少一个字符;确定所述待识别文本中目标字符的敏感度,所述目标字符为所述待识别文本中的任一字符;根据所述目标字符的敏感度和至少一个与所述目标字符相邻的邻域字符的敏感度,确定所述目标字符的召回倾向度,所述召回倾向度指示所述目标字符所在的待识别文本被召回的倾向程度;在所述目标字符的所述召回倾向度大于预设值时,确定所述待识别文本需要召回。2.根据权利要求1所述的文本判别方法,其特征在于,所述确定所述待识别文本中目标字符的敏感度,包括:获取预设的敏感词集;根据预设敏感词集对所述待识别文本进行全称匹配,得到匹配结果;根据所述匹配结果,对所述目标字符进行赋值,将赋值结果作为所述目标字符的敏感度,其中,匹配成功的目标字符的敏感度大于未匹配成功的目标字符的敏感度。3.根据权利要求2所述的文本判别方法,其特征在于,所述根据所述目标字符的敏感度和至少一个与所述目标字符相邻的相邻字符的敏感度,确定所述目标字符的召回倾向度,包括:根据每个所述目标字符的所述赋值结果,确定所述训练文本的匹配序列;对所述匹配序列进行平滑处理,得到平滑序列;根据所述平滑序列,确定所述目标字符的召回倾向度。4.根据权利要求1所述的文本判别方法,其特征在于,还包括:获取训练样本集,所述训练样本集中包括至少一个训练文本、各所述训练文本中各训练字符的真实召回倾向度以及所述训练文本的真实判别结果,所述真实召回倾向度和所述真实判别结果是所述训练文本通过执行所述判别过程得到;根据所述训练样本集对初始神经网络进行训练,得到判别神经网络;基于所述判别神经网络确定所述待识别文本是否需要召回。5.根据权利要求4所述的文本判别方法,其特征在于,所述根据所述训练样本集对初始神经网络进行训练,得到判别神经网络,包括:分别对所述训练样本集中的每个训练文本执行以下训练过程:将所述训练文本输入初始神经网络,对所述训练文本中的各训练字符赋予训练字符向量,将所述训练字符向量与初始查询向量点乘,得到所述训练字符的预测召回倾向度;根据所述预测召回倾向度对所述训练字符向量加权平均,并将加权平均后的结果依次输入隐藏层、全连接层和输出层,得到样本输出结果,根据所述样本输出结果判断所述训练文本是否需要召回,得到预测判别结果;根据所述训练文本的所述预测召回倾向度和所述真实召回倾向度,更新所述初始查询向量的第一参数,以及根据所述预测判别结果和所述真实判别结果,更新所述初始神经网络的第二参数,重复执行所述训练过程,直至所述训练...

【专利技术属性】
技术研发人员:洪煜中
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1