用于敏感内容质检模型的训练文本采集方法、系统及设备技术方案

技术编号:30139791 阅读:17 留言:0更新日期:2021-09-23 14:59
本发明专利技术涉及数据采集领域,提供了一种用于敏感内容质检模型的训练文本采集方法,所述方法包括:获取多个用户的账号数据和各个用户之间的关系数据,以得到多个账号数据和多个关系数据;根据所述多个账号数据和所述多个关系数据构建账号联系图谱;基于所述账号联系图谱对各个账号数据进行聚类,以得到多个用户集合;从所述多个用户集合中选取出敏感账号集合,所述敏感账号集合包括多个敏感用户;采集各个敏感用户在预设时间窗口的历史文本,以得到多个历史文本;及对所述多个历史文本进行筛选操作,以得到用于训练所述敏感内容质检模型的多个训练文本。本发明专利技术降低了训练文本的获取成本和获取难度,提高了训练文本准确率和获取效率。率。率。

【技术实现步骤摘要】
用于敏感内容质检模型的训练文本采集方法、系统及设备


[0001]本专利技术实施例涉及数据采集领域,尤其涉及一种用于敏感内容质检模型的 训练文本采集方法、系统及设备。

技术介绍

[0002]随着互联网的快速发展和全民应用,网络舆情成为社会舆情中十分重要的 一部分。相对于传统媒介(电视、报纸、广播等),承载网络舆情的互联网呈现 出言论自由度过高、突发性、传播快、受众广等特点,这也给舆情监控系统提 出了实时性、高精度等要求。因此,针对有恶意在网络上散布敏感恶意内容的 敏感恶意内容质检显得尤为重要。
[0003]敏感内容质检问题也可以看作是短文本分类问题,即判断一个用户发出的 文本信息是属于正常文本或违规文本。传统的敏感内容识别模型通常采用有监 督的机器学习方法。而敏感内容识别模型的识别率往往取决于训练文本的有效 性,即使用越有效的训练文本可以提高敏感内容识别模型的识别率。但是,若 有恶意用户通过间杂特殊符号、同音字变换、孤僻字、形近字变换、偏旁拆分 等低成本手段绕过敏感内容识别模型或传统安全策略的拦截,传统的敏感内容 识别模型将无法有效的进行拦截;而这些训练文本获取难度较高,现有训练文 本需要人为获取筛选,且获取速度很难跟上敏感内容的变化速度。因此,如何 提高敏感内容质检模型的训练文本的获取速度和效率成为了当前亟需解决的技 术问题。

技术实现思路

[0004]有鉴于此,有必要提供一种用于敏感内容质检模型的训练文本采集方法、 系统、设备及可读存储介质,以解决敏感内容质检模型的训练文本获取难度较 高、获取速度和效率较低的问题。
[0005]为实现上述目的,本专利技术实施例提供了一种用于敏感内容质检模型的训练 文本采集方法,所述方法步骤包括:
[0006]获取多个用户的账号数据和各个用户之间的关系数据,以得到多个账号数 据和多个关系数据;
[0007]根据所述多个账号数据和所述多个关系数据构建账号联系图谱;
[0008]基于所述账号联系图谱对各个账号数据进行聚类,以得到多个用户集合;
[0009]从所述多个用户集合中选取出敏感账号集合,所述敏感账号集合包括多个 敏感用户;
[0010]采集各个敏感用户在预设时间窗口的历史文本,以得到多个历史文本;及
[0011]对所述多个历史文本进行筛选操作,以得到用于训练所述敏感内容质检模 型的多个训练文本。
[0012]可选的,所述根据所述多个账号数据和所述多个关系数据构建账号联系图 谱的步骤,包括:
[0013]将每个账号数据定义为实体v,以得到所述多个账号数据对应的账号集合 V={v1,v2,

,v
n
};
[0014]将每个关系数据定义为边e,以得到所述多个关系数据对应的关系集合 E={e1,e2,

,e
m
};及
[0015]根据所述账号集合中的各个实体v和所述关系集合中的各个边e,定义所 述账号联系图谱。
[0016]可选的,所述基于所述账号联系图谱对各个账号数据进行聚类,以得到多 个用户集合的步骤,包括:
[0017]基于社区划分算法对所述账号联系图谱进行图谱分区操作,以得到多个目 标图谱社区;及
[0018]根据每个目标图谱社区中的用户账号生成一个用户集合,以得到所述多个 用户集合。
[0019]可选的,所述基于社区划分算法对所述账号联系图谱进行图谱分区操作, 以得到多个目标图谱社区的步骤,包括:
[0020]对所述账号联系图谱进行初始化操作,以将所述账号联系图谱的各个实体 划分为多个初始图谱社区;
[0021]执行第i次划分操作:将各个第i

1次划分的图谱社区中每个实体,划分到 与该实体相邻的图谱社区中,以生成多个第i次划分的图谱社区;i为正整数, 所述i为1时,所述第i

1次划分的图谱社区为所述初始图谱社区;所述i为> 1时,所述第i

1次划分的图谱社区为第i

1次划分操作得到的图谱社区;
[0022]执行第i次构建操作:基于所述多个第i次划分的图谱社区构建的多个第i 次构建的社区网络,其中,每个第i次划分的图谱社区对应一个第i次构建的社 区网络;
[0023]判断每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结 构是否相同;
[0024]若每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结构 不相同,则执行第i+1次划分操作和第i+1次构建操作;
[0025]若每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结构 相同,则不执行第i+1次划分操作和第i+1次构建操作,并将所述多个第i次划 分的图谱社区作为所述多个目标图谱社区。
[0026]可选的,所述将各个第i

1次划分的图谱社区中每个实体,划分到与该实 体相邻的图谱社区中,以生成多个第i次划分的图谱社区的步骤,包括:
[0027]计算各个第i

1次划分的图谱社区的目标实体的第一模块度,所述第一模 块度为所述目标实体在被划分到相邻图谱社区之前的模块度,所述模块度用于 表示实体在对应的图谱社区的稳定度,所述目标实体为各个第i

1次划分的图 谱社区中的任意一个实体;
[0028]计算所述目标实体的第二模块度,所述第二模块度为所述目标实体在被划 分到相邻图谱社区之后的模块度;
[0029]判断所述目标实体的所述第一模块度是否小于所述第二模块度;及
[0030]若所述目标实体的所述第一模块度不小于所述第二模块度,则基于所述目 标实体生成第i次划分的图谱社区中。
[0031]可选的,所述对所述多个历史文本进行筛选操作,以得到用于训练所述敏 感内容质检模型的多个训练文本的步骤,包括:
[0032]通过预设敏感词对所述多个历史文本进行聚类操作,以得到多个聚类文本 集合;
[0033]根据所述预设敏感词筛选所述多个聚类文本集合,得到目标聚类;及
[0034]将所述目标聚类中的多个文本作为所述多个训练文本。
[0035]可选的,还包括:将所述多个训练文本上传到区块链。
[0036]为实现上述目的,本专利技术实施例还提供了一种用于敏感内容质检模型的训 练文本采集系统,包括:
[0037]获取模块,用于获取多个用户的账号数据和各个用户之间的关系数据,以 得到多个账号数据和多个关系数据;
[0038]构建模块,用于根据所述多个账号数据和所述多个关系数据构建账号联系 图谱;
[0039]聚类模块,用于基于所述账号联系图谱对各个账号数据进行聚类,以得到 多个用户集合;
[0040]选取模块,用于从所述多个用户集合中选取出敏感账号集合,所述敏感账 号集合包括多个敏感用户;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于敏感内容质检模型的训练文本采集方法,其特征在于,所述方法包括:获取多个用户的账号数据和各个用户之间的关系数据,以得到多个账号数据和多个关系数据;根据所述多个账号数据和所述多个关系数据构建账号联系图谱;基于所述账号联系图谱对各个账号数据进行聚类,以得到多个用户集合;从所述多个用户集合中选取出敏感账号集合,所述敏感账号集合包括多个敏感用户;采集各个敏感用户在预设时间窗口的历史文本,以得到多个历史文本;及对所述多个历史文本进行筛选操作,以得到用于训练所述敏感内容质检模型的多个训练文本。2.如权利要求1所述的用于敏感内容质检模型的训练文本采集方法,其特征在于,所述根据所述多个账号数据和所述多个关系数据构建账号联系图谱的步骤,包括:将每个账号数据定义为实体v,以得到所述多个账号数据对应的账号集合V={v1,v2,

,v
n
};将每个关系数据定义为边e,以得到所述多个关系数据对应的关系集合E={e1,e2,

,e
m
};及根据所述账号集合中的各个实体v和所述关系集合中的各个边e,定义所述账号联系图谱。3.如权利要求1所述的用于敏感内容质检模型的训练文本采集方法,其特征在于,所述基于所述账号联系图谱对各个账号数据进行聚类,以得到多个用户集合的步骤,包括:基于社区划分算法对所述账号联系图谱进行图谱分区操作,以得到多个目标图谱社区;及根据每个目标图谱社区中的用户账号生成一个用户集合,以得到所述多个用户集合。4.如权利要求3所述的用于敏感内容质检模型的训练文本采集方法,其特征在于,所述基于社区划分算法对所述账号联系图谱进行图谱分区操作,以得到多个目标图谱社区的步骤,包括:对所述账号联系图谱进行初始化操作,以将所述账号联系图谱的各个实体划分为多个初始图谱社区;执行第i次划分操作:将各个第i

1次划分的图谱社区中每个实体,划分到与该实体相邻的图谱社区中,以生成多个第i次划分的图谱社区;i为正整数,所述i为1时,所述第i

1次划分的图谱社区为所述初始图谱社区;所述i为>1时,所述第i

1次划分的图谱社区为第i

1次划分操作得到的图谱社区;执行第i次构建操作:基于所述多个第i次划分的图谱社区构建的多个第i次构建的社区网络,其中,每个第i次划分的图谱社区对应一个第i次构建的社区网络;判断每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结构是否相同;若每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结构不相同,则执行第i+1次划分操作和第i+1次构建操作;若每个第i次构建的社区网络与对应的第i

...

【专利技术属性】
技术研发人员:成杰峰
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1