当前位置: 首页 > 专利查询>东华大学专利>正文

一种语音数据发布的安全脱敏方法技术

技术编号:23315415 阅读:45 留言:0更新日期:2020-02-11 17:54
本发明专利技术涉及一种语音数据发布的安全脱敏方法,包括以下步骤:首先利用特征学习来学习每类用户在三个维度上的特征集,同时记录特征集之间的相关性;然后对每个用户的语音数据进行三维脱敏处理,以保护用户的语音数据隐私;最后提出可分解的分析任务概念,并对脱敏后的语音数据进行分布式处理,以保证语音数据的有用性。本发明专利技术通过对语音数据的脱敏处理实现保护用户数据隐私和保证数据有用性。

A secure desensitization method for voice data release

【技术实现步骤摘要】
一种语音数据发布的安全脱敏方法
本专利技术涉及一种语音数据发布的安全处理方法,属于信息处理领域。
技术介绍
语音数据广泛应用于基于语音的人机交互服务中,比如输入键盘、网络搜索、语音助手和语音认证等。基于语音的人机交互服在2018年创收160亿美元,预计2021年将带来269亿美元的收入。然而,提供基于语音的人机交互服务的公司可能会为了牟利而向第三方(如广告商、非法组织等)出售用户的语音数据,从而导致用户的个人数据隐私泄露。例如,三星和苹果已经承认了他们公司与第三方共享用户的语音数据。因此,研究语音数据发布的安全处理方法是很有必要的。语音数据包含了大量关于用户的个人身份信息(PII)。首先,语音数据的内容隐含了很多用户的PII,如教育程度、种族、地理区域、社会地位、个性、电子邮件、密码、生活方式、购物习惯、兴趣爱好等。其次,可以从用户的声音推断出很多的信息量,例如年龄、性别、种族、地理区域(重音)、身高、情绪,甚至健康状况等。最后,用户的声纹可以很容易地从语音数据中学习,而且声纹是人类的一种生物特征,并且被广泛应用于识别技术中。因此,当用本文档来自技高网...

【技术保护点】
1.一种语音数据发布的安全脱敏方法,其特征在于,包括以下步骤:/n步骤S201:利用特征学习来学习每类用户在三个维度上的特征集,同时记录特征集之间的相关性,包括:/n将所有用户分成n组U

【技术特征摘要】
1.一种语音数据发布的安全脱敏方法,其特征在于,包括以下步骤:
步骤S201:利用特征学习来学习每类用户在三个维度上的特征集,同时记录特征集之间的相关性,包括:
将所有用户分成n组U1,U2,U3,...,Un,将第i组用户相应的语音数据定义为Xi,i=1,2,...,n,将内容,语音和声纹这三个维度分别表示为C、V、P,通过特征学习获得的语音数据Xi在(C,V,P)维度下的特征集,分别定义为Xi,C、Xi,V、Xi,P,其中,通过特征学习搜索特征集包括以下步骤:
在每个维度中,从集合Xi随机选择一个子集合{xi,k},Xi,j(j=(C,V,P))为集合Xi在C、V、P三个维度上的特征集,同时被认为是初始特征集。利用评估函数Gain(·)对初始特征集Xi,j进行子集评估,并且该函数满足约束条件其中,pr是xi,j,r在Xi,j中的比率,xi,j,r是集合Xi,j中的第r个特征;|Xi,j|是Xi,j的基数,此后,当某个特征xi,l(l∈(1,2,…,|Xi,j|))带来信息增益时,就将该特征xi,l迭代地添加到集合Xi,j中,直到|Xi,j|个特征被找到。
步骤S202:对每个用户的语音数据进行三维脱敏处理,以保护用户的语音数据隐私;
步骤S203:提出可分解的分析任务概念,并对脱敏后的语音数据进行分布式处理,以保证语音数据的有用性,包括:
给出以下定义:如果一个特定的分析任务F满足约束条件:F(Xi)=F(Xi,C)+F(Xi,V)+F(Xi,P)=FC(Xi,C)+FV(Xi,V)+FP(Xi,P),则该分析任...

【专利技术属性】
技术研发人员:赵萍张颖陶佳伟
申请(专利权)人:东华大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1