【技术实现步骤摘要】
一种用于用户生成文本内容合规校验的文本检测引擎
[0001]本专利技术涉及计算机
,具体涉及一种用于用户生成文本内容合规校验的文本检测引擎。
技术介绍
[0002]随着网络用户的日益增长,互联网平台的用户发布内容的审核治理问题日益严峻,针对有违法违规或违反互联网平台规定的信息或内容需要及时发现和治理,以避免用户发布信息造成恶劣的社会影响或对互联网平台的正常运行带来负面影响。因此,互联网平台需要依赖高效、准确的用户生成内容合规检验方法来实现上述需求。
[0003]用户生成内容的主要内容形式包括文本、图像、音频、视频等,其中文本内容占用户生成内容相当大比重。当前针对用户生成文本内容的检验方法包括人工审核、关键词屏蔽、文本聚类分析、自然语言处理算法、人工智能算法等。
[0004]但由于当前用户生成文本以用户评论、分享、答案等场景出现,且往往与所评论、分析、回答的内容主题有较强关联性,其中违规文本多为具有恶意诱导性的文本,如以恶意商业竞争为目的的文本;传统的用户生成文本检测方法往往会出现漏检或误检的问题,需要耗 ...
【技术保护点】
【技术特征摘要】
1.一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述文本检测引擎包括第一合规校验模块、第二合规校验模块、数据接口模块、数据库模块、引擎管理优化模块;所述第一合规校验模块包括:黑白名单过滤模块、关键词检测模块、用户检测模块、风险分析模块;所述第一合规校验模块用于黑白名单过滤、关键词检测、用户检测、风险因数计算;所述第二合规校验模块用于恶意文本检验;所述数据接口模块用于获取用户生成文本请求、从外部数据库获取用户信息数据、输出文本内容合规检验结果;所述文本检测引擎通过以下步骤实现用户生成文本内容的合规校验:步骤S1、文本检测引擎获取用户生成文本请求,将用户生成文本请求信息输入第一合规校验模块,得到第一合规校验结果;所述用户生成文本请求信息包括用户发布文本内容、文本关联主题信息、用户信息及设备环境信息;所述第一合规校验结果为风险因数;步骤S2、当风险因数小于风险阈值N0时,文本检测引擎准许用户生成文本请求;当风险因数大于风险阈值N1时,文本检测引擎拒绝用户生成文本请求;当风险因数介于N0、N1之间时,文本检测引擎调用第二合规校验模块,并将用户生成文本请求信息及风险因数输入第二合规校验模块;步骤S3、第二合规校验模块对输入数据进行恶意文本检验,得到恶意文本检验结果;步骤S4、文本检测引擎根据恶意文本检测结果准许或拒绝用户生成文本请求。2.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述数据库模块包括违规关键词数据库、用户黑白名单数据库、IP黑白名单数据库及引擎参数数据库。3.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,步骤S1包括:步骤S11、当用户生成文本并发出用户生成文本请求时,文本检测引擎调用数据接口模块获取用户生成文本请求;步骤S12、文本检测引擎调用第一合规校验模块中的黑白名单过滤模块从用户生成文本请求中提取用户id、IP数据、并分别在用户黑白名单数据库、IP黑白名单数据库中进行查询;若用户id或IP命中白名单,则输出黑白名单校验结果为“0”;若用户id或IP命中黑名单,则输出黑白名单校验结果为“1”;若用户id、IP均未在用户黑白名单数据库、IP黑白名单数据库中,则输出黑白名单校验结果为“2”;步骤S13、当黑白名单校验结果为“0”或“1”时,风险因数相应置为“0”或“1”,并输出风险因数;当黑白名单校验结果为“2”时,文本检测引擎调用第一合规校验模块中的关键词检测模块、用户检测模块分别对用户生成文本请求进行关键词检测和用户检测得到关键词违规特征、用户风险概率数值,随后调用风险分析模块根据关键词违规特征、用户风险概率数值计算风险因数。4.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述关键词检测模块通过以下方式进行关键词检测:关键词检测模块对输入的用户发布文本内容进行分词处理,得到关键词列表,并从关键词列表中删除安全词组;将关键词列表中的元素分别在违规关键词数据库中进行查询检
测,得到关键词违规特征,并输出至风险分析模块。5.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎,其特征在于,所述用户检测模块通过以下方式进行用户检测:用户检测模块对输入的用户信息及设备环境信息进行特征提取,得到用户特征数据,并将用户特征数据输入至已训练的用户分析模型,得到用户风险概率数值;用户检测结果为用户风险概率数值,表征发出用户生成文本请求的用户是否存在恶意发布风险,其中“0”代表“不违规”、“1”代表“违规”、其余数值代表“存在违规可能”。6.根据权利要求...
【专利技术属性】
技术研发人员:李遵山,
申请(专利权)人:深圳尚米网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。