【技术实现步骤摘要】
本专利技术涉及一种新媒体内容检测方法,特别是一种基于生成式智能算法的新媒体内容检测方法。
技术介绍
1、互联网的飞速发展使得信息传播数量、速度、范围都急速扩大和提升,在信息快速传播过程中,随之带来的是网络信息传播安全问题。然而,根据调研,目前市场上还未出现较为成熟的目标信息巡查方法,各平台在巡查能力方面也表现为层次不齐。为了维护当下网络信息内容安全,需要研发一套基于生成式智能算法的新媒体内容检测方法。
2、但是,在现阶段,网络目标信息巡查面令许多难题:首先,目标或违规信息种类多、变化多、翻新快,建立对应领域的数据知识库存在覆盖范围不够广、变化不够多的情况;并且,根据关键词或正则表达式命中的疑似违规信息,准确率不高,需要再度筛查,而在自动筛查过程中存在较多不在训练数据中的数据,即训练数据外分布,使得检测模型无法对该类数据做出有效判断。
技术实现思路
1、专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于生成式智能算法的新媒体内容检测方法。
2、为了解决上述技术问题,本专利技术公开了一种基于生成式智能算法的新媒体内容检测方法,包括如下步骤:
3、步骤s1,构建目标数据库用于后续对所述新媒体内容进行检测,并对所述目标数据库进行扩充,具体包括:人工数据库扩充;基于短词智能扩充的违规样本构建;以及基于社交语义的违规信息关联模型构建;
4、步骤s2,持续获取待检测的目标网站数据;
5、步骤s3,通过步骤s1构
6、步骤s4,通过生成式智能算法进行精筛,得到最终精筛结果,完成基于生成式智能算法的新媒体内容检测。
7、进一步的,步骤s1中所述的构建目标数据库,具体包括:
8、所述目标数据库中,数据库字段内容,至少包括:目标数据、正确表达方式、错误类型、目标类型、目标程度等级以及准确度等级;
9、所述构建,即通过在计算机系统的数据库中构建结构化数据表格,实现数据存储;所述的结构化数据,即采用关系型数据库,对目标数据以表格形式建立逻辑关系并持久化存储;
10、所述关系型数据库,至少包括:规则主表、排除词表和补充词表,其中规则主表包括用于筛查的关键词和规则,排除词表包括命中后需要排除的关键词,补充词表包括自定义规则中扩充词部分。
11、进一步的,步骤s1中所述的对所述目标数据库进行扩充,具体包括:
12、步骤s1-1,人工数据库扩充,具体包括:
13、将来源于系统用户反馈、目标检测要求以及自行扩充的数据,通过人工调研和比对后,作为目标数据存入所述目标数据库,作为后续检测依据之一;
14、步骤s1-2,基于短词智能扩充的违规样本构建,具体包括:
15、结合短词智能扩充目标数据库即违规信息知识库的方式,实现机器智能扩充违规信息知识库,即对所述目标数据库中的固定短语,进行音近字、拼音和间隔替换;
16、步骤s1-3,基于社交语义的违规信息关联模型构建,具体包括:
17、采用无监督新词识别方法,即使用点互信息方法获取候选新词,接着采用深度语义检测模型训练得到字向量和词向量,对文本特征进行语义层面的相似度计算,相似度高的则判断语义关联,产生违规信息结果;当新词和违规信息知识库中短语相似度,低于历史统计的同一类别中违规信息类别相似度时,判断为违规信息;将上述判断获得的新的违规信息存入违规信息知识库中,用于后续检测。
18、进一步的,步骤s2所述的持续获取待检测的目标网站数据,具体包括:
19、步骤s2-1,采用分布式离线批量计算技术、分布式内存迭代计算技术和分布式流式处理计算技术获取所述待测目标网站数据;
20、步骤s2-2,通过消息队列持续传送上述获取得到的目标网站数据;
21、步骤s2-3,采用数据库对目标网站数据进行持久化存储。
22、进一步的,步骤s3所述的进行目标信息检测,具体包括:
23、通过关键词查询或正则表达式命中的方式,即对目标网站数据进行命中筛选,命中关键词或正则表达式的数据,作为初筛结果。
24、进一步的,步骤s4中所述的通过生成式智能算法进行精筛,具体包括:
25、步骤s4-1,引入knn检索即k邻近算法,计算待检测文本的似然估计值pmax(x);
26、步骤s4-2,通过预训练语言模型估计待检测文本的先验概率pgpt2(x);
27、步骤s4-3,使用上述似然值和先验概率的比值进行训练数据分布外文本检测,对待检测文件进行判断。
28、进一步的,步骤s4-1中所述的计算待检测文本的似然值pmax(x),具体方法如下:
29、给定需要估计似然的待检测文本x={w1,w2,w3,…,wn},其中wn表示文本x中的第n个字或者词,通过生成式模型来估计似然,记作plm(x);
30、通过knn检索来估计似然,记作pknn(x);
31、从以上估计的两个似然中选择其中似然值较大的一个,作为待检测文本的似然的最终估值pmax(x)。
32、进一步的,步骤s4-2中所述的通过预训练语言模型估计待检测文本的先验概率pgpt2(x),具体方法如下:
33、由预训练语言模型得到的先验概率pgpt2(x),如下:
34、
35、其中,w<t={w1,…,wt-1},wt表示文本x中的第t个字或者词。
36、进一步的,步骤s4-3中所述的使用上述似然值和先验概率的比值进行训练数据分布外文本检测,具体包括:
37、使用pmax(x)和pgpt2(x)的比值作为pobe(x)打分函数来检测待检测文本,即:
38、pobe(x)=pmax(x)/pgpt2(x)
39、设置阈值τ,如果pobe(x)<τ,判断为训练数据外文本,即该待检测文本判断为不违规数据,否则判断为违规数据。
40、进一步的,步骤s4-3中设置阈值τ为0.8。
41、有益效果:
42、本专利技术提供的一种基于生成式智能算法的新媒体内容检测方法,尽可能扩充目标信息命中范围的同时,提高结果的准确率。从目标数据库扩充来说,通过人工数据库扩充、基于短词智能扩充的目标样本构建技术、基于社交语义的目标信息关联模型构建技术的方式,使得目标信息的命中范围更广;此外,通过生成式智能算法,提高最终结果的准确性。
本文档来自技高网...【技术保护点】
1.一种基于生成式智能算法的新媒体内容检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤S1中所述的构建目标数据库,具体包括:
3.根据权利要求1所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤S1中所述的对所述目标数据库进行扩充,具体包括:
4.根据权利要求3所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤S2所述的持续获取待检测的目标网站数据,具体包括:
5.根据权利要求4所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤S3所述的进行目标信息检测,具体包括:
6.根据权利要求5所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤S4中所述的通过生成式智能算法进行精筛,具体包括:
7.根据权利要求6所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤S4-1中所述的计算待检测文本的似然值pmax(x),具体方法如下:
8.根据权利要求7所述的一
9.根据权利要求8所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤S4-3中所述的使用上述似然值和先验概率的比值进行训练数据分布外文本检测,具体包括:
10.根据权利要求9所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤S4-3中设置阈值τ为0.8。
...【技术特征摘要】
1.一种基于生成式智能算法的新媒体内容检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤s1中所述的构建目标数据库,具体包括:
3.根据权利要求1所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤s1中所述的对所述目标数据库进行扩充,具体包括:
4.根据权利要求3所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤s2所述的持续获取待检测的目标网站数据,具体包括:
5.根据权利要求4所述的一种基于生成式智能算法的新媒体内容检测方法,其特征在于,步骤s3所述的进行目标信息检测,具体包括:
6.根据权利要求5所述的一种基于生成式智能算法的新媒体内容检测方法,其特...
【专利技术属性】
技术研发人员:谭梦悦,贺成龙,顾学海,
申请(专利权)人:南京莱斯网信技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。