文本识别方法、装置、设备及存储介质制造方法及图纸

技术编号:31230158 阅读:25 留言:0更新日期:2021-12-08 10:00
本申请提供一种文本识别方法、装置、设备及存储介质,可应用于任意网络数据平台。该方法包括:通过接收待审核的文本内容,判断文本内容中是否存在预设的种子词以及白词词组,其中白词词组是基于种子词配置的合规词组。根据文本内容是否存在预设的种子词以及白词词组,确定文本内容是否合规。上述方案增加了对文本是否包含种子词的白词词组的判断,可大大降低对文本的误判率,提高文本识别的准确率。提高文本识别的准确率。提高文本识别的准确率。

【技术实现步骤摘要】
文本识别方法、装置、设备及存储介质


[0001]本申请涉及互联网
,尤其涉及一种文本识别方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网、智能设备及各种新生业务的飞速发展,互联网上的数据呈现爆炸式增长,图片、视频、发文、聊天等互动内容已经成为人们表达感情、记录生活、传播信息不可或缺的部分。这些日益增长的内容中也充斥着各种不可控的风险因素。因此,建立一个全面、高效、准确率高的内容安全检测产品十分必要。
[0003]目前,网络平台对文本内容的风险识别方案主要通过判断文本内容是否包含相关违禁内容来进行识别,该方案需要预先离线收集违禁词汇、短语。除此之外,还可通过人工辅助方式来进行文本甄别,降低风险内容的漏放。
[0004]然而,实际需要识别的文本内容可能包含变种词汇,例如首字母缩略语、同音字等,仅靠预设违禁词的匹配,无法有效甄别风险内容。另外,仅根据是否包含违禁词进行文本内容的判断,极容易对没有问题的文本内容造成误拦截。

技术实现思路

[0005]本申请实施例提供一种文本识别方法、装置、设备及存储介质,提高文本识别的准确率。
[0006]本申请实施例的第一方面提供一种文本识别方法,包括:
[0007]接收待审核的文本内容;
[0008]根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规;
[0009]所述预设文本包括种子词以及白词词组,所述白词词组是基于所述种子词配置的合规词组。
[0010]在本申请的一个实施例中,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
[0011]确定所述文本内容是否存在所述种子词;
[0012]若所述文本内容中存在所述种子词,确定所述种子词是否均属于白词词组;
[0013]若所述种子词均属于所述白词词组,确定所述文本内容为合规内容。
[0014]在本申请的一个实施例中,所述预设文本还包括黑词词组,所述黑词词组是基于所述种子词配置的违禁词组;
[0015]所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
[0016]确定所述文本内容是否存在黑词词组;
[0017]若所述文本内容存在黑词词组,确定所述文本内容为不合规内容;或者
[0018]若所述文本内容不存在黑词词组,根据所述种子词以及白词词组确定所述文本内容是否合规。
[0019]在本申请的一个实施例中,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
[0020]所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规。
[0021]在本申请的一个实施例中,所述预设文本至少包括所述种子词,所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规,包括:
[0022]确定所述文本内容中是否存在所述种子词;
[0023]若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的首字母组合;
[0024]若所述文本内容不存在所述种子词的首字母组合,确定所述文本内容为合规内容。
[0025]在本申请的一个实施例中,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
[0026]所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规。
[0027]在本申请的一个实施例中,所述预设文本至少包括所述种子词,所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规,包括:
[0028]确定所述文本内容中是否存在所述种子词;
[0029]若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的中文全拼;
[0030]若所述文本内容不存在所述种子词的中文全拼,确定所述文本内容为合规内容。
[0031]在本申请的一个实施例中,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
[0032]所述根据所述文本内容中是否存在所述预设文本、所述预设文本的首字母组合以及中文全拼,确定所述文本内容是否合规。
[0033]本申请实施例的第二方面提供一种文本识别装置,包括:
[0034]接收模块,用于接收待审核的文本内容;
[0035]处理模块,用于根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规;
[0036]所述预设文本包括种子词以及白词词组,所述白词词组是基于所述种子词配置的合规词组。
[0037]在本申请的一个实施例中,处理模块,具体用于:
[0038]确定所述文本内容是否存在所述种子词;
[0039]若所述文本内容中存在所述种子词,确定所述种子词是否均属于白词词组;
[0040]若所述种子词均属于所述白词词组,确定所述文本内容为合规内容。
[0041]在本申请的一个实施例中,所述预设文本还包括黑词词组,所述黑词词组是基于所述种子词配置的违禁词组;
[0042]处理模块,具体用于:
[0043]确定所述文本内容是否存在黑词词组;
[0044]若所述文本内容存在黑词词组,确定所述文本内容为不合规内容;或者
[0045]若所述文本内容不存在黑词词组,根据所述种子词以及白词词组确定所述文本内容是否合规。
[0046]在本申请的一个实施例中,处理模块,具体用于:
[0047]所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规。
[0048]在本申请的一个实施例中,所述预设文本包括所述种子词,处理模块,具体用于:
[0049]确定所述文本内容中是否存在所述种子词;
[0050]若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的首字母组合;
[0051]若所述文本内容不存在所述种子词的首字母组合,确定所述文本内容为合规内容。
[0052]在本申请的一个实施例中,处理模块,具体用于:
[0053]所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规。
[0054]在本申请的一个实施例中,所述预设文本包括所述种子词,处理模块,具体用于:
[0055]确定所述文本内容中是否存在所述种子词;
[0056]若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的中文全拼;
[0057]若所述文本内容不存在所述种子词的中文全拼,确定所述文本内容为合规内容。
[0058]在本申请的一个实施例中,处理模块,具体用于:
[0059]所述根据所述文本内容中是否存在所述预设文本、所述预设文本的首字母组合以及中文全拼,确定所述文本内容本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:接收待审核的文本内容;根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规;所述预设文本包括种子词以及白词词组,所述白词词组是基于所述种子词配置的合规词组。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:确定所述文本内容是否存在所述种子词;若所述文本内容中存在所述种子词,确定所述种子词是否均属于白词词组;若所述种子词均属于所述白词词组,确定所述文本内容为合规内容。3.根据权利要求1所述的方法,其特征在于,所述预设文本还包括黑词词组,所述黑词词组是基于所述种子词配置的违禁词组;所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:确定所述文本内容是否存在黑词词组;若所述文本内容存在黑词词组,确定所述文本内容为不合规内容;或者若所述文本内容不存在黑词词组,根据所述种子词以及白词词组确定所述文本内容是否合规。4.根据权利要求1所述的方法,其特征在于,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规。5.根据权利要求4所述的方法,其特征在于,所述预设文本至少包括所述种子词,所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规,包括:确定所述文本内容中是否存在所述种子词;若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的首字母组合;若所述文本内容不存在所述种子词的首字母组合,确定所述文本内容为合规内容。6.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:孟祥涛王宇光吕军
申请(专利权)人:京东数字科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1