一种文本数据的公平表示学习方法技术

技术编号:43568006 阅读:27 留言:0更新日期:2024-12-06 17:38
本发明专利技术提供了一种文本数据的公平表示学习方法。该方法包括:将收集的文本数据转换成词表,利用词表构建由离散向量组成的词表嵌入矩阵;利用BERT将词表嵌入矩阵转化为嵌入表示向量;根据嵌入表示向量度量受保护属性和类簇结构对原始文本数据信息编码的影响,基于非渐进失真度量函数的度量结果设计损失函数,利用损失函数训练深度神经网络,构建公平表征空间模型;将待处理的文本数据清洗后输入到公平表征空间模型,公平表征空间模型输出待处理的文本数据的公平表示。本发明专利技术方法确保数据在转换到嵌入空间时能够保持其原始信息的完整性和准确性,提高模型的泛化能力和鲁棒性。能够避免由于数据偏见导致的不公平现象,增强用户对模型的信任和接受度。

【技术实现步骤摘要】

本专利技术涉及表示学习,尤其涉及一种文本数据的公平表示学习方法


技术介绍

1、表征空间构建:指在机器学习领域中,将原始数据转换为高维特征空间的过程。通过表征空间构建,原始数据的复杂结构可以被转化为更加紧凑和可管理的表示形式,从而方便机器学习算法进行处理和学习。

2、公平表示指的是对数据或信息进行处理和转换,以生成能够在各个环节都能保持高质量且可信的数据表征或信息表述。公平表示学习旨在消除数据中的噪音、冗余和属性偏见,从而提取出能够有效描述数据本质和特征的重要信息。

3、表示学习作为机器学习领域的一个核心分支,其根本思想是通过学习数据的表示或特征来更深入地揭示数据的内在结构和特征之间的关联。其主旨在于通过自动化的学习方式发掘数据的有效表示,以此为基础简化、优化并提升后续学习任务的精确性。然而,随着技术的发展和需求的提升,为了构建一个更为可信的表征空间,公平表示方法应运而生。公平表示方法通过一系列精细的数据预处理和特征提取流程,能够将原始数据映射到一个更具代表性和稳健性的特征空间。这种转换不仅使得机器学习系统能够输出更为可信、可靠的结本文档来自技高网...

【技术保护点】

1.一种文本数据的公平表示学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述的将收集的文本数据转换成词表,利用词表构建由离散向量组成的词表嵌入矩阵,包括:

3.根据权利要求2所述的方法,其特征在于,所述的利用BERT将所述词表嵌入矩阵转化为嵌入表示向量,包括:

4.根据权利要求3所述的方法,其特征在于,所述的根据所述嵌入表示向量度量受保护属性和类簇结构对原始文本数据信息编码的影响,包括:

5.根据权利要求4所述的方法,其特征在于,所述的基于所述非渐进失真度量函数的度量结果设计损失函数,利用所述损失函数训练深度神经网...

【技术特征摘要】

1.一种文本数据的公平表示学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述的将收集的文本数据转换成词表,利用词表构建由离散向量组成的词表嵌入矩阵,包括:

3.根据权利要求2所述的方法,其特征在于,所述的利用bert将所述词表嵌入矩阵转化为嵌入表示向量,包括:

4....

【专利技术属性】
技术研发人员:刘华锋景丽萍王翔
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1