一种不良语料过滤方法以及系统技术方案

技术编号：36180752 阅读：10 留言：0更新日期：2022-12-31 20:37

本发明专利技术公开了一种不良语料过滤方法以及系统，其中方法包括以下步骤：获取待识别文本语料，对所述待识别文本语料进行预处理，得到基础文本语料；抽取基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；根据语料识别模型对基础文本语料进行检测识别，得到第二识别结果；根据第一识别结果或/和所述第二识别结果过滤所述待识别文本语料，并根据所述第二识别结果对不良文本知识图谱进行更新。本发明专利技术通过知识图谱技术对不良文本进行筛选，利用其语义网络本质和强大关联能力，能够获取多个候选不良实体有利于实现对拼音、谐音和拆分词等形式的隐晦不良信息的过滤。词等形式的隐晦不良信息的过滤。词等形式的隐晦不良信息的过滤。

全部详细技术资料下载

【技术实现步骤摘要】
一种不良语料过滤方法以及系统

[0001]本专利技术涉及文本信息的处理，具体涉及一种面向网络平台的不良语料过滤方法。

技术介绍

[0002]近年来，随着移动互联网时代的到来以及5G通信等技术的蓬勃发展，使得各种社交平台及电商平台应声而起，海量用户可以通过弹幕评论和留言评论等文本形式来进行实时交流和思想表达。然而由于互联网的虚拟性，使得这些网络平台上充斥着大量的网络不良文本语料，各种广告、色情低俗、暴力以及反动为主的不良信息层出不穷，严重损害了互联网的沟通环境，并且渐渐以更为隐晦的方式，如拼音、谐音、拆分词和新词等形式出现。因此，如何抑制不良信息的扩散，过滤各种不良低俗信息，以保证良好的互联网环境就显得尤为重要。
[0003]目前，网络平台的不良信息过滤方法主要基于关键字匹配方式进行信息过滤，虽然该类方法简单、快捷、易操作，但实际过滤效果仍不理想，易出现漏过滤现象，且难以应付现有多变且隐晦的互联网评论环境中，无法及时有效的对更隐晦的不良信息进行准确过滤。

技术实现思路

[0004]为了过滤网络平台中的不良语料信息，本申请提供一种不良语料过滤方法。
[0005]一种不良语料过滤方法，包括以下步骤：
[0006]获取待识别文本语料，对所述待识别文本语料进行预处理，得到基础文本语料；
[0007]抽取所述基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；
[0008]根据语料识别模型对所述基础文本语...

【技术保护点】

【技术特征摘要】
1.一种不良语料过滤方法，其特征在于，包括以下步骤：获取待识别文本语料，对所述待识别文本语料进行预处理，得到基础文本语料；抽取所述基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；根据语料识别模型对所述基础文本语料进行检测识别，得到第二识别结果；根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料，并根据所述第二识别结果对不良文本知识图谱进行更新。2.根据权利要求1所述的不良语料过滤方法，其特征在于，所述不良文本知识图谱的构建包括：获取大量在网络平台中的原始不良文本信息，抽取所述原始不良文本信息的实体，得到若干不良词实体；对所述不良词实体进行实体转换处理，得到不良词拼音实体和不良词谐音实体；按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和不良词谐音实体进行关系抽取，并通过实体消歧处理进行三元组构建，得到不良文本知识图谱。3.根据权利要求1所述的不良语料过滤方法，其特征在于，得到第一识别结果，具体包括：根据所述不良文本知识图谱筛选所述基础文本语料的实体，按预设数量获取若干候选不良实体；利用word2vec模型将所述基础文本语料和所述候选不良实体映射成多维向量，根据余弦相似度计算方法计算所述基础文本语料与所述候选不良实体的相似度，根据所述相似度得到第一识别结果。4.根据权利要求1所述的不良语料过滤方法，其特征在于，所述语料识别模型为KNN模型。5.根据权利要求4所述的不良语料过滤方法，其特征在于，所述语料识别模型的构建包括：获取用户反馈的不良信息，采集正常语料信息；对所述不良信息以及正常语料信息逐词进行拼音转换和谐音转换，得到拼音语...

【专利技术属性】
技术研发人员：蒋晓宁，刘凯，程凯林，周郁寒，谢洪民，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人