隐私安全的音频标注处理方法技术

技术编号:28980282 阅读:21 留言:0更新日期:2021-06-23 09:27
传统音频标注方法存在隐私安全问题,即便通过严格的规则制度进行约束,依然容易经由标注人员使得音频内容外泄,本发明专利技术给出一种隐私安全的音频标注处理方法解决了该问题。

【技术实现步骤摘要】
隐私安全的音频标注处理方法
本专利技术涉及一种音频标注处理方法,特别是一种隐私安全的音频标注处理方法。
技术介绍
音频标注处理主要用于对大量的音频数据进行标注,并将标注结果与音频数据送入人工智能模型中学习,从而实现诸如语音识别、对话系统等技术。
技术实现思路
经专利技术人深入调研发现,传统音频标注方法存在隐私安全问题,即便通过严格的规则制度进行约束,依然容易经由标注人员使得音频内容外泄。专利技术人对此问题进一步分析发现,其内在矛盾在于,从隐私安全角度出发,希望标注人员尽可能少地理解音频内容,而从标注角度出发,又希望标注人员尽可能准确地提取音频中的特定信息,譬如,语音对话中的文本信息,据此,专利技术人将解决该问题的方法抽象为解决如下问题:如何在尽可能不理解音频内容的前提下提取音频中的特定信息。本专利技术实施例提供一种隐私安全的音频标注处理方法,其特征在于,包括切分步骤StepS、处理步骤StepP和合成步骤StepC,其中切分步骤具体包括:获取N个待标注音频文件F_1,F_2,F_3...F_N,对每个待标注音频文件,切分成多个音频片段,具体方法可以是,对每个待标注音频文件F_i,计算M_i个切分点,并将F_i切分为M_i+1个音频片段,i取值为1,2,3……N,与所述待标注音频文件的数量一致,将所有待标注音频文件切分形成的音频片段乱序处理,生成乱序处理后的音频片段集合As;记录所有待标注音频文件的切分点位置,以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系,形成切分记录Rs;其中处理步骤具体包括:获取乱序处理后的音频片段集合As,对乱序后的音频片段进行标注处理,形成标注记录Ls;其中合成步骤具体包括:获取标注记录Ls,获取切分记录Rs,利用Rs将Ls中的标注内容重组排列,使得重组后的标注内容的顺序与所述待标注音频文件的内容一致,形成重组标注记录RLs;在以上步骤中,所述切分记录Rs对所述处理步骤StepP隔离。处理步骤StepP中执行的方法和/或涉及的装置,被设置为不获取所述切分记录Rs的内容。通过以上方案处理,由于标注时接触的是乱序后的音频片段,无法通过上下文整体上理解音频的内容,能够减低隐私泄露的风险,提升安全性。附图说明图1为本专利技术一种入睡检测方法的一个实施例的流程示意图。具体实施方式为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。在语音识别、对话系统等模型训练中,需要把音频人工转写为文本,或者先自动转写为文本,再由人工校验核对,完成后再进行模型训练,上述工作称为音频标注。本专利技术实施例提供的方案包括切分步骤StepS、处理步骤StepP和合成步骤StepC,其中切分步骤具体包括:获取N个待标注音频文件F_1,F_2,F_3...F_N,这些待标注音频文件的一个来源是电话录音,譬如银行客服电话、健康咨询电话等,每个音频文件通常是一整个电话的录音,因此包含了一定的隐私安全信息。对每个待标注音频文件F_i,计算M_i个切分点,并将F_i切分为M_i+1个音频片段,i取值为1,2,3……N,与所述待标注音频文件的数量一致,切分方式可以是按固定时长切分,更优的方式是可以通过VAD语音端点检测,以每个VAD检测的开始端点为切分点,进一步的优化可以是将切分后的音频片段合并为时长大致相当的片段,譬如合并切分后的音频片段,使得合并后的音频片段的最大时长不超过最小时长的2倍。这样处理的技术效果包括容易计算切分人员的工作量。将所有待标注音频文件切分形成的音频片段乱序处理,生成乱序处理后的音频片段集合As,注意集合As是可被排序的,包括通过文件名字母顺序、文件时长大小、文件修改时间等;所述乱序处理后的音频片段集合As中,每两个相邻的音频片段以大于或等于P1的概率不属于同一个待标注音频文件,以大于或等于P2的概率不是同一个待标注音频文件的相邻两个切分。譬如,P1为0.8且P2为0.9,更优的,P1为0.99且P2为0.999。具体处理方式可以是先将音频片段集合As的音频文件随机重命名,并记录重命名后的文件和原文件的对应关系,该对应关系被设置为标注人员不可见,譬如可以保存至切分记录Rs中,然后将音频片段集合As的音频文件以文件名字母顺序排序,然后执行校验重排操作:获取两个相邻的音频片段属于同一个待标注音频文件的音频片段集合S1,获取两个相邻的音频片段是同一个待标注音频文件的相邻两个切分的音频片段集合2,如果N(S1)/N(As)>1-P1,则将属于S1的音频片段文件再次随机重命名,如果N(S2)/N(As)>1-P2,则将属于S2的音频片段文件再次随机重命名,其中N(·)表示音频片段集合·中的音频文件总数。可以执行以上校验重排操作多次,直到满足条件“每两个相邻的音频片段以大于或等于P1的概率不属于同一个待标注音频文件,以大于或等于P2的概率不是同一个待标注音频文件的相邻两个切分”为止。这样处理的好处包括使得标注人员不容易找出具有关联性的音频片段,从而提高了安全保密性。为进一步提高安全保密性,还可以进一步对每个音频片段的时长进行随机微调,包括通过添加静音段、重采样/改变采样率等方法。也可以进一步对文件创建修改的时间进行修改混淆。记录所有待标注音频文件的切分点位置,以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系,形成切分记录Rs,该切分记录Rs被设置为标注人员不可见。处理步骤具体包括:获取乱序处理后的音频片段集合As,对乱序后的音频片段进行标注处理,形成标注记录Ls;标注处理可以是由标注人员听音频并转写成文本,也可以先有语音识别系统对音频进行自动文本转写,再由标注人员听音频进行校对修改。合成步骤具体包括:获取标注记录Ls,获取切分记录Rs,利用Rs将Ls中的标注内容重组排列,使得重组后的标注内容的顺序与所述待标注音频文件的内容一致,形成重组标注记录RLs;譬如,通过处理步骤,标注人员通过标注记录Ls给出了音频片段集合As中的每个音频片段的转写文本,通过Rs可知每个音频片段的转写文本对应到原始的待标注音频文件的位置,这样就可以重组获得每个待标注音频文件对应的完整有序的转写文本。注意在以上步骤中,所述切分记录Rs对所述处理步骤StepP隔离,也就是不应让标注人员接触到Rs的内容,避免标注人员自行恢复出待标注音频文件完整的文本转写内容。具体方法可以是,处理步骤StepP中执行的方法和/或涉及的装置,被设置为不获取所述切分记录Rs的内容;处理步骤StepP中执行的方法和/或涉及的装置,被设置为可以获得切分记录Rs的加密形式,但不获取可以解密的所述切分记录Rs的加密形式的密钥信息;处理步骤StepP中执行的方法和/或涉及的装置,被设置为不获取所述切分记录Rs的内容,但可以获取由Rs通过不可逆推本文档来自技高网
...

【技术保护点】
1.一种隐私安全的音频标注处理方法,其特征在于,包括切分步骤StepS、处理步骤StepP和合成步骤StepC, 其中切分步骤StepS具体包括:/n获取N个待标注音频文,/n对每个待标注音频文件,切分成多个音频片段,/n将所有待标注音频文件切分形成的音频片段乱序处理,生成乱序处理后的音频片段集合As;/n记录所有待标注音频文件的切分点位置,以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系,形成切分记录Rs;/n其中处理步骤StepP具体包括:/n获取乱序处理后的音频片段集合As,/n对乱序后的音频片段进行标注处理,形成标注记录Ls;/n其中合成步骤StepC具体包括:/n获取标注记录Ls,/n获取切分记录Rs,/n利用Rs将Ls中的标注内容重组排列,使得重组后的标注内容的顺序与所述待标注音频文件的内容一致,形成重组标注记录RLs;/n在以上步骤中,所述切分记录Rs对所述处理步骤StepP隔离。/n

【技术特征摘要】
1.一种隐私安全的音频标注处理方法,其特征在于,包括切分步骤StepS、处理步骤StepP和合成步骤StepC,其中切分步骤StepS具体包括:
获取N个待标注音频文,
对每个待标注音频文件,切分成多个音频片段,
将所有待标注音频文件切分形成的音频片段乱序处理,生成乱序处理后的音频片段集合As;
记录所有待标注音频文件的切分点位置,以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系,形成切分记录Rs;
其中处理步骤StepP具体包括:
获取乱序处理后的音频片段集合As,
对乱序后的音频片段进行标注处理,形成标注记录Ls;
其中合成步骤StepC具体包括:
获取标注记录Ls,
获取切分记录Rs,
利用Rs将Ls中的标注内容重组排列,使得重组后的标注内容的顺序与所述待标注音频文件的内容一致,形成重组标注记录RLs;
在以上步骤中,所述切分记录Rs对所述处理步骤StepP隔离。


2.如权利要求1所述一种隐私安全的音频标注处理方法,其特征在于,所述乱序处理后的音频片段集合As中,每两个相邻的音频片段以大于或等于P1的概率不属于同一个待标注音频文件,以以大于或等于P2的概率不是同一个待标注音频文件的相邻两个切分。


3.如权利要求2所述一种隐私安全的音频标注处理方法,其特征在于,所述切分步骤还包括如下步骤:
将音频片段集合As的音频文件随机重命名,记录重命名后的文件和原文件的对应关系,
将音频片段集合As的音频文件以文件名字母顺序排序,
执行校验重排操作:
获取两个相邻的音频片段属于同一个待标注音频文件的音频片段集合S1,获取两个相邻的音频片段是同一个待标注音频文件的相邻两个切分的音频片段集合2,如果N(S1)/N(As)>1-P1,则将属于S1的音频片段文件再次随机重命名,如果N(S2...

【专利技术属性】
技术研发人员:关胤徐戈
申请(专利权)人:福州市长乐区极微信息科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1