【技术实现步骤摘要】
本专利技术涉及电数字数据处理,具体涉及一种基于机器学习的数据质量管理方法及系统、电子设备。
技术介绍
1、机器学习(machine learning ,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
2、为了保障用户隐私,防范恶意内容、不实信息等攻击,维护网络空间安全,往往需要面对大量敏感词处理场景。在ai驱动系统场景下,系统可能包含人工智能生成文本,同样需要确保生成内容不包含敏感信息。现有过滤方法通常将提交内容通过遍历敏感词表,判断是否包含敏感信息,但是往往过敏词由用户来设定,而若想过滤效果好,要将用户设置的过敏词的所有同义词均设置为过敏词,需要用户查词典,工作量巨大,会大大降低用户的体验,用户往往无法将该过敏词的所有同义词同时设置为过敏词,过敏词过滤效果差,
...【技术保护点】
1.一种基于机器学习的数据质量管理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于机器学习的数据质量管理方法,其特征在于,所述将预设语义文本转换为样本词向量序列,包括:
3.根据权利要求2所述的基于机器学习的数据质量管理方法,其特征在于,所述将目标语义文本转换为目标词向量序列,包括:
4.根据权利要求3所述的基于机器学习的数据质量管理方法,其特征在于,所述根据判断结果判断是否将该第一目标词作为新的预设敏感词并输入到敏感词数据库中进行存储,包括:
5.根据权利要求4所述的基于机器学习的数据质量管理方法,其特征
...
【技术特征摘要】
1.一种基于机器学习的数据质量管理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于机器学习的数据质量管理方法,其特征在于,所述将预设语义文本转换为样本词向量序列,包括:
3.根据权利要求2所述的基于机器学习的数据质量管理方法,其特征在于,所述将目标语义文本转换为目标词向量序列,包括:
4.根据权利要求3所述的基于机器学习的数据质量管理方法,其特征在于,所述根据判断结果判断是否将该第一目标词作为新的预设敏感词并输入到敏感词数据库中进行存储,包括:
5.根据权利要求4所述的基于机器学习的数据质量管理...
【专利技术属性】
技术研发人员:戚拂晓,韩亮,张庆,张海强,王源升,潘延欣,徐富龙,
申请(专利权)人:青岛大数据科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。