基于机器学习的数据质量管理方法及系统、电子设备技术方案

技术编号:41808428 阅读:21 留言:0更新日期:2024-06-24 20:28
本发明专利技术涉及电数字数据处理技术领域,具体涉及一种基于机器学习的数据质量管理方法及系统、电子设备。包括利用词典数据库获取预设敏感词对应的预设语义文本,建立敏感词数据库,所述敏感词数据库包括预设敏感词及预设敏感词对应的预设语义文本,对待处理文本中是否包含预设敏感词的同义词进行判断,用户只需要确认一个预设敏感词,即可将待处理文本中与预设敏感词语义相近的词汇及该词汇对应的语义文本自动更新到敏感词数据库,实现敏感词数据库的及时自更新和自优化,无需用户设置多个关键词或自行查找近义词,很大程度上降低用户的工作量,大大提高敏感期屏蔽的效果,很大程度上提高了用户体验,很大程度上提高了本发明专利技术的智能化程度和可用性。

【技术实现步骤摘要】

本专利技术涉及电数字数据处理,具体涉及一种基于机器学习的数据质量管理方法及系统、电子设备


技术介绍

1、机器学习(machine learning ,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

2、为了保障用户隐私,防范恶意内容、不实信息等攻击,维护网络空间安全,往往需要面对大量敏感词处理场景。在ai驱动系统场景下,系统可能包含人工智能生成文本,同样需要确保生成内容不包含敏感信息。现有过滤方法通常将提交内容通过遍历敏感词表,判断是否包含敏感信息,但是往往过敏词由用户来设定,而若想过滤效果好,要将用户设置的过敏词的所有同义词均设置为过敏词,需要用户查词典,工作量巨大,会大大降低用户的体验,用户往往无法将该过敏词的所有同义词同时设置为过敏词,过敏词过滤效果差,因此,亟需一种基于机本文档来自技高网...

【技术保护点】

1.一种基于机器学习的数据质量管理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于机器学习的数据质量管理方法,其特征在于,所述将预设语义文本转换为样本词向量序列,包括:

3.根据权利要求2所述的基于机器学习的数据质量管理方法,其特征在于,所述将目标语义文本转换为目标词向量序列,包括:

4.根据权利要求3所述的基于机器学习的数据质量管理方法,其特征在于,所述根据判断结果判断是否将该第一目标词作为新的预设敏感词并输入到敏感词数据库中进行存储,包括:

5.根据权利要求4所述的基于机器学习的数据质量管理方法,其特征在于,

...

【技术特征摘要】

1.一种基于机器学习的数据质量管理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于机器学习的数据质量管理方法,其特征在于,所述将预设语义文本转换为样本词向量序列,包括:

3.根据权利要求2所述的基于机器学习的数据质量管理方法,其特征在于,所述将目标语义文本转换为目标词向量序列,包括:

4.根据权利要求3所述的基于机器学习的数据质量管理方法,其特征在于,所述根据判断结果判断是否将该第一目标词作为新的预设敏感词并输入到敏感词数据库中进行存储,包括:

5.根据权利要求4所述的基于机器学习的数据质量管理...

【专利技术属性】
技术研发人员:戚拂晓韩亮张庆张海强王源升潘延欣徐富龙
申请(专利权)人:青岛大数据科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1