【技术实现步骤摘要】
用于敏感内容质检模型的训练文本采集方法、系统及设备
[0001]本专利技术实施例涉及数据采集领域,尤其涉及一种用于敏感内容质检模型的 训练文本采集方法、系统及设备。
技术介绍
[0002]随着互联网的快速发展和全民应用,网络舆情成为社会舆情中十分重要的 一部分。相对于传统媒介(电视、报纸、广播等),承载网络舆情的互联网呈现 出言论自由度过高、突发性、传播快、受众广等特点,这也给舆情监控系统提 出了实时性、高精度等要求。因此,针对有恶意在网络上散布敏感恶意内容的 敏感恶意内容质检显得尤为重要。
[0003]敏感内容质检问题也可以看作是短文本分类问题,即判断一个用户发出的 文本信息是属于正常文本或违规文本。传统的敏感内容识别模型通常采用有监 督的机器学习方法。而敏感内容识别模型的识别率往往取决于训练文本的有效 性,即使用越有效的训练文本可以提高敏感内容识别模型的识别率。但是,若 有恶意用户通过间杂特殊符号、同音字变换、孤僻字、形近字变换、偏旁拆分 等低成本手段绕过敏感内容识别模型或传统安全策略的拦截,传统的敏感内容 识别模型将无法有效的进行拦截;而这些训练文本获取难度较高,现有训练文 本需要人为获取筛选,且获取速度很难跟上敏感内容的变化速度。因此,如何 提高敏感内容质检模型的训练文本的获取速度和效率成为了当前亟需解决的技 术问题。
技术实现思路
[0004]有鉴于此,有必要提供一种用于敏感内容质检模型的训练文本采集方法、 系统、设备及可读存储介质,以解决敏感内容质检模型的训练文本获取难度较 高、获 ...
【技术保护点】
【技术特征摘要】
1.一种用于敏感内容质检模型的训练文本采集方法,其特征在于,所述方法包括:获取多个用户的账号数据和各个用户之间的关系数据,以得到多个账号数据和多个关系数据;根据所述多个账号数据和所述多个关系数据构建账号联系图谱;基于所述账号联系图谱对各个账号数据进行聚类,以得到多个用户集合;从所述多个用户集合中选取出敏感账号集合,所述敏感账号集合包括多个敏感用户;采集各个敏感用户在预设时间窗口的历史文本,以得到多个历史文本;及对所述多个历史文本进行筛选操作,以得到用于训练所述敏感内容质检模型的多个训练文本。2.如权利要求1所述的用于敏感内容质检模型的训练文本采集方法,其特征在于,所述根据所述多个账号数据和所述多个关系数据构建账号联系图谱的步骤,包括:将每个账号数据定义为实体v,以得到所述多个账号数据对应的账号集合V={v1,v2,
…
,v
n
};将每个关系数据定义为边e,以得到所述多个关系数据对应的关系集合E={e1,e2,
…
,e
m
};及根据所述账号集合中的各个实体v和所述关系集合中的各个边e,定义所述账号联系图谱。3.如权利要求1所述的用于敏感内容质检模型的训练文本采集方法,其特征在于,所述基于所述账号联系图谱对各个账号数据进行聚类,以得到多个用户集合的步骤,包括:基于社区划分算法对所述账号联系图谱进行图谱分区操作,以得到多个目标图谱社区;及根据每个目标图谱社区中的用户账号生成一个用户集合,以得到所述多个用户集合。4.如权利要求3所述的用于敏感内容质检模型的训练文本采集方法,其特征在于,所述基于社区划分算法对所述账号联系图谱进行图谱分区操作,以得到多个目标图谱社区的步骤,包括:对所述账号联系图谱进行初始化操作,以将所述账号联系图谱的各个实体划分为多个初始图谱社区;执行第i次划分操作:将各个第i
‑
1次划分的图谱社区中每个实体,划分到与该实体相邻的图谱社区中,以生成多个第i次划分的图谱社区;i为正整数,所述i为1时,所述第i
‑
1次划分的图谱社区为所述初始图谱社区;所述i为>1时,所述第i
‑
1次划分的图谱社区为第i
‑
1次划分操作得到的图谱社区;执行第i次构建操作:基于所述多个第i次划分的图谱社区构建的多个第i次构建的社区网络,其中,每个第i次划分的图谱社区对应一个第i次构建的社区网络;判断每个第i次构建的社区网络与对应的第i
‑
1次构建的社区网络的网络结构是否相同;若每个第i次构建的社区网络与对应的第i
‑
1次构建的社区网络的网络结构不相同,则执行第i+1次划分操作和第i+1次构建操作;若每个第i次构建的社区网络与对应的第i
‑
...
【专利技术属性】
技术研发人员:成杰峰,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。