一种文本检测的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36229820 阅读:29 留言:0更新日期:2023-01-04 12:29
本申请提供了一种文本检测的方法、装置、电子设备及存储介质,该方法包括:针对待检测文本,分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型,得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值;响应针对检测偏好值的配置操作,确定与配置操作对应的检测偏好值;其中,不同的检测偏好值对应不同的检测策略;根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果。本申请方法结合了敏感词检测和文本分类,通过对二者的结果进行分析,确定出待检测文本的检测结果,提高了检测的准确性。了检测的准确性。了检测的准确性。

【技术实现步骤摘要】
一种文本检测的方法、装置、电子设备及存储介质


[0001]本申请涉及文本检测
,具体而言,涉及一种文本检测的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息技术的飞速发展,人们能够得到的文本内容也呈爆炸式的涌现。例如,各式各样的新闻推送、针对这些新闻内容的评论、弹幕等。随着这些文本内容的出现,文本内容安全也面临着巨大的挑战。按照相关法律法规对于文本内容进行审核,阻断违法违规信息的传播对于这些文本内容最主要的处理方式之一。
[0003]现有对于文本内容的审核方式的预先构建敏感词库,通过文本内容与敏感词库进行对比,判断出该文本内容中是否包含有敏感词,如果包含有敏感词则认为是违规信息。这种方式未能够考虑文本内容的具体语义信息,容易造成误判。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种文本检测的方法、装置、电子设备及存储介质,结合了敏感词检测和文本分类,通过对二者的结果进行分析,确定出待检测文本的检测结果,提高了检测的准确性。
[0005]第一方面,本申请实施例提供了一种文本检测的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本检测的方法,其特征在于,所述方法包括:针对待检测文本,分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型,得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值;响应针对检测偏好值的配置操作,确定与配置操作对应的检测偏好值;其中,不同的检测偏好值对应不同的检测策略;根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果。2.根据权利要求1所述的方法,其特征在于,所述检测偏好值包括偏好准确率和偏好召回率;所述响应针对检测偏好值的配置操作,确定与配置操作对应的检测偏好值,包括:响应针对偏好准确率和偏好召回率的选择操作,确定与选择操作对应的检测偏好值为偏好准确率或偏好召回率;其中,所述偏好准确率和所述偏好召回率对应不同的检测策略。3.根据权利要求2所述的方法,其特征在于,所述偏好准确率对应的所述检测策略包括第一阈值、第二阈值和公共阈值;所述偏好召回率对应的所述检测策略包括公共阈值。4.根据权利要求3所述的方法,其特征在于,所述根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果,包括:若所述检测偏好值为所述偏好准确率,在满足以下任一条件时,将所述待检测文本确定为异常文本;所述第一预测值大于第一阈值;所述第二预测值大于第二阈值;所述第一预测值和所述第二预测值均大于公共阈值。5.根据权利要求3所述的方法,其特征在于,所述根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果,包括:若所述检测偏好值为所述偏好召回率,且所述第一预测值大于公...

【专利技术属性】
技术研发人员:李文举吴一超卞豪支蕴倩
申请(专利权)人:北京匠数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1