【技术实现步骤摘要】
网络文化经营合规检测方法、装置、可读介质及电子设备
本申请涉及网络文化经营合规检测
,尤其涉及网络文化经营合规检测方法、装置、可读介质及电子设备。
技术介绍
网络文化经营合规性检测是针对网络文化产品如网络音乐、游戏、表演经营等,按照,判断其是否互联网视听节目服务管理相关。是否涉及淫秽、暴力、未经批准的产品,是否擅自从事经营活动、是否显著标注备案号、备案号是否逾期未上报、用户协议是否满足国家相关规定、是否终止违法交易等,检测结果可为监管层的决策提供参考。目前,通常采用基于字符串的关键词匹配的敏感信息识别方法。但是,上述识别的准确性相对较低。
技术实现思路
本申请提供了一种网络文化经营合规检测方法、装置、计算机可读存储介质及电子设备,通过大样本对训练好的特征编码模型进行优化得到的文本特征提取器,可以提取文本的语义信息,确定社交文本与企业处罚信息案例库中的案例文本之间的语义相似度,相比基于字符串的关键字判断方法,其准确率会有很大提升,且可自动发现社交平台中的违规内容。第一方面,本申 ...
【技术保护点】
1.一种网络文化经营合规检测方法,其特征在于,包括:/n根据政府公开的企业处罚信息,建立涉及网络文化经营的企业处罚信息案例库;/n根据所述企业处罚信息案例库中的案例文本,对已经训练好的特征编码模型进行训练,以确定文本特征提取器;/n获取社交平台的目标企业的待检测社交文本,其中,所述待检测社交文本包括举报信息和/或评论信息,所述目标企业的企业基础信息满足基本合规条件;/n根据所述文本特征提取器,确定所述案例文本和所述待检测社交文本之间的语义相似度;/n根据所述案例文本和所述待检测社交文本之间的语义相似度,判断所述目标企业是否合规。/n
【技术特征摘要】
1.一种网络文化经营合规检测方法,其特征在于,包括:
根据政府公开的企业处罚信息,建立涉及网络文化经营的企业处罚信息案例库;
根据所述企业处罚信息案例库中的案例文本,对已经训练好的特征编码模型进行训练,以确定文本特征提取器;
获取社交平台的目标企业的待检测社交文本,其中,所述待检测社交文本包括举报信息和/或评论信息,所述目标企业的企业基础信息满足基本合规条件;
根据所述文本特征提取器,确定所述案例文本和所述待检测社交文本之间的语义相似度;
根据所述案例文本和所述待检测社交文本之间的语义相似度,判断所述目标企业是否合规。
2.根据权利要求1所述的方法,其特征在于,所述特征编码模型为开源Bert语言模型。
3.根据权利要求1所述的方法,其特征在于,所述基本合规规则包括至少两个执业证件中的信息匹配和/或经营时间在经营有效期内,其中,所述至少两个执业证件包括ICP证、营业执照和网络文化经营许可证中的任意两个或三个;
所述案例文本包括网络文化经营相关法律法规中的违规文本和/或网络文化经营违规案例中的违规文本;
所述目标企业的待检测社交文本基于对获取社交平台的社交信息进行命名实体识别确定。
4.根据权利要求1所述的方法,其特征在于,所述根据所述案例文本和所述待检测社交文本之间的语义相似度,判断所述目标企业是否合规,包括:
根据所述文本特征提取器,确定所述案例文本对应的样本编码特征、所述待检测社交文本对应的待检测编码特征以及所述案例文本中的敏感信息对应的敏感信息编码特征,其中,所述待检测社交文本和所述案例文本中均不包含所述目标企业的企业名称;
...
【专利技术属性】
技术研发人员:于志鹏,岳兆娟,李俊,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。