一种不良语料过滤方法以及系统技术方案

技术编号:36180752 阅读:9 留言:0更新日期:2022-12-31 20:37
本发明专利技术公开了一种不良语料过滤方法以及系统,其中方法包括以下步骤:获取待识别文本语料,对所述待识别文本语料进行预处理,得到基础文本语料;抽取基础文本语料中的实体,根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索,得到第一识别结果;根据语料识别模型对基础文本语料进行检测识别,得到第二识别结果;根据第一识别结果或/和所述第二识别结果过滤所述待识别文本语料,并根据所述第二识别结果对不良文本知识图谱进行更新。本发明专利技术通过知识图谱技术对不良文本进行筛选,利用其语义网络本质和强大关联能力,能够获取多个候选不良实体有利于实现对拼音、谐音和拆分词等形式的隐晦不良信息的过滤。词等形式的隐晦不良信息的过滤。词等形式的隐晦不良信息的过滤。

【技术实现步骤摘要】
一种不良语料过滤方法以及系统


[0001]本专利技术涉及文本信息的处理,具体涉及一种面向网络平台的不良语料过滤方 法。

技术介绍

[0002]近年来,随着移动互联网时代的到来以及5G通信等技术的蓬勃发展,使得 各种社交平台及电商平台应声而起,海量用户可以通过弹幕评论和留言评论等文 本形式来进行实时交流和思想表达。然而由于互联网的虚拟性,使得这些网络平 台上充斥着大量的网络不良文本语料,各种广告、色情低俗、暴力以及反动为主 的不良信息层出不穷,严重损害了互联网的沟通环境,并且渐渐以更为隐晦的方 式,如拼音、谐音、拆分词和新词等形式出现。因此,如何抑制不良信息的扩散, 过滤各种不良低俗信息,以保证良好的互联网环境就显得尤为重要。
[0003]目前,网络平台的不良信息过滤方法主要基于关键字匹配方式进行信息过 滤,虽然该类方法简单、快捷、易操作,但实际过滤效果仍不理想,易出现漏过 滤现象,且难以应付现有多变且隐晦的互联网评论环境中,无法及时有效的对更 隐晦的不良信息进行准确过滤。

技术实现思路

[0004]为了过滤网络平台中的不良语料信息,本申请提供一种不良语料过滤方法。
[0005]一种不良语料过滤方法,包括以下步骤:
[0006]获取待识别文本语料,对所述待识别文本语料进行预处理,得到基础文本语 料;
[0007]抽取所述基础文本语料中的实体,根据不良文本知识图谱对所述基础文本语 料的实体进行匹配搜索,得到第一识别结果;
[0008]根据语料识别模型对所述基础文本语料进行检测识别,得到第二识别结果;
[0009]根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料, 并根据所述第二识别结果对不良文本知识图谱进行更新。
[0010]进一步地,所述不良文本知识图谱的构建包括:
[0011]获取大量在网络平台中的原始不良文本信息,抽取所述原始不良文本信息的 实体,得到若干不良词实体;
[0012]对所述不良词实体进行实体转换处理,得到不良词拼音实体和不良词谐音实 体;
[0013]按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和 不良词谐音实体进行关系抽取,并通过实体消歧处理进行三元组构建,得到不良 文本知识图谱。
[0014]进一步地,得到第一识别结果,具体包括:
[0015]根据所述不良文本知识图谱筛选所述基础文本语料的实体,按预设数量获取 若干候选不良实体;
[0016]利用word2vec模型将所述基础文本语料和所述候选不良实体映射成多维向 量,
根据余弦相似度计算方法计算所述基础文本语料与所述候选不良实体的相似 度,根据所述相似度得到第一识别结果。
[0017]进一步地,所述语料识别模型为KNN模型
[0018]进一步地,所述语料识别模型的构建包括:
[0019]获取用户反馈的不良信息,采集正常语料信息;
[0020]对所述不良信息以及正常语料信息逐词进行拼音转换和谐音转换,得到拼音 语料信息和谐音语料信息;
[0021]将所述不良信息、正常语料信息、拼音语料信息和谐音语料信息作为样本集 划分为训练集和测试集,并将所述样本集通过word2vec模型映射为空间向量;
[0022]利用KNN模型对映射为空间向量的训练集进行训练,获得语料识别模型。
[0023]进一步地,对所述不良词实体进行实体转换处理,得到不良词拼音实体和不 良词谐音实体,包括:
[0024]对所述不良词实体进行拼音转换,将不良词实体的汉字逐词进行拼音转换, 得到不良词拼音实体;
[0025]对所述不良词实体进行谐音转换,将不良词实体的汉字逐词进行谐音转换, 得到不良词谐音实体。
[0026]进一步地,所述待识别文本语料包括弹幕评论和留言评论。
[0027]进一步地,所述预处理包括分词处理、停用词处理和虚词处理。
[0028]本专利技术的有益效果为:
[0029]本申请的不良信息过滤方法通过对大量初始不良文本语料进行实体抽取,并 将其进行拼音和谐音的实体转换构建得到不良文本知识图谱,本专利技术通过知识图 谱技术对不良文本进行筛选,利用其语义网络本质和强大关联能力,能够获取多 个候选不良实体,并利用余弦相似度进行进一步确定,从而有利于实现对拼音、 谐音和拆分词等形式的隐晦不良信息的过滤。此外,本专利技术还提供第二种识别方 式,其基于用户反馈不良信息构建机器学习模型,从而有利于筛选过滤出新词形 式的隐晦不良信息;而且通过将新词形式不良信息实时更新到不良文本知识图谱 中,进而有利于及时有效的对多种隐晦的不良信息进行精准过滤,且有利于降低 漏过滤现象的发生,有利于净化互联网的沟通环境。
附图说明
[0030]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例 或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是不良语料的过滤方法流程示意图;
[0032]图2是不良语料过滤系统的示意图。
具体实施方式
[0033]为使得本申请的申请目的、特征、优点能够更加的明显和易懂,下面将结合 本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,下面所描
述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基 于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得 的所有其它实施例,都属于本申请保护的范围。
[0034]下面结合附图和具体实施例,进一步阐明本专利技术。
[0035]实施例1
[0036]本实施例提供一种不良语料过滤方法,如图1所示,包括以下步骤:
[0037]S1,获取待识别文本语料,对所述待识别文本语料进行预处理,得到基础文 本语料。
[0038]S2,抽取所述基础文本语料中的实体,根据不良文本知识图谱对所述基础文 本语料的实体进行匹配搜索,得到第一识别结果。
[0039]S3,根据语料识别模型对所述基础文本语料进行检测识别,得到第二识别结 果。
[0040]步骤S2和S3不存在先后关系。可能会发生并无第一识别结果的情况,因为 不良文本知识图谱是在不断更新中的,有些不良词可能在一开始没有被不良文本 知识图谱收录。若无第一识别结果,则执行步骤S3;若有第一识别结果,则执 行步骤S4。
[0041]S4,根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语 料。
[0042]S5,根据所述第二识别结果对不良文本知识图谱进行更新。
[0043]步骤S4和S5不存在先后关系。
[0044]S1中的待识别文本语料是在网络平台中获取的,包括弹幕评论和留言评论。 对待识别文本语料预处理,具体包括对待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不良语料过滤方法,其特征在于,包括以下步骤:获取待识别文本语料,对所述待识别文本语料进行预处理,得到基础文本语料;抽取所述基础文本语料中的实体,根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索,得到第一识别结果;根据语料识别模型对所述基础文本语料进行检测识别,得到第二识别结果;根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料,并根据所述第二识别结果对不良文本知识图谱进行更新。2.根据权利要求1所述的不良语料过滤方法,其特征在于,所述不良文本知识图谱的构建包括:获取大量在网络平台中的原始不良文本信息,抽取所述原始不良文本信息的实体,得到若干不良词实体;对所述不良词实体进行实体转换处理,得到不良词拼音实体和不良词谐音实体;按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和不良词谐音实体进行关系抽取,并通过实体消歧处理进行三元组构建,得到不良文本知识图谱。3.根据权利要求1所述的不良语料过滤方法,其特征在于,得到第一识别结果,具体包括:根据所述不良文本知识图谱筛选所述基础文本语料的实体,按预设数量获取若干候选不良实体;利用word2vec模型将所述基础文本语料和所述候选不良实体映射成多维向量,根据余弦相似度计算方法计算所述基础文本语料与所述候选不良实体的相似度,根据所述相似度得到第一识别结果。4.根据权利要求1所述的不良语料过滤方法,其特征在于,所述语料识别模型为KNN模型。5.根据权利要求4所述的不良语料过滤方法,其特征在于,所述语料识别模型的构建包括:获取用户反馈的不良信息,采集正常语料信息;对所述不良信息以及正常语料信息逐词进行拼音转换和谐音转换,得到拼音语...

【专利技术属性】
技术研发人员:蒋晓宁刘凯程凯林周郁寒谢洪民
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1