【技术实现步骤摘要】
隐私安全的音频标注处理方法
本专利技术涉及一种音频标注处理方法,特别是一种隐私安全的音频标注处理方法。
技术介绍
音频标注处理主要用于对大量的音频数据进行标注,并将标注结果与音频数据送入人工智能模型中学习,从而实现诸如语音识别、对话系统等技术。
技术实现思路
经专利技术人深入调研发现,传统音频标注方法存在隐私安全问题,即便通过严格的规则制度进行约束,依然容易经由标注人员使得音频内容外泄。专利技术人对此问题进一步分析发现,其内在矛盾在于,从隐私安全角度出发,希望标注人员尽可能少地理解音频内容,而从标注角度出发,又希望标注人员尽可能准确地提取音频中的特定信息,譬如,语音对话中的文本信息,据此,专利技术人将解决该问题的方法抽象为解决如下问题:如何在尽可能不理解音频内容的前提下提取音频中的特定信息。本专利技术实施例提供一种隐私安全的音频标注处理方法,其特征在于,包括切分步骤StepS、处理步骤StepP和合成步骤StepC,其中切分步骤具体包括:获取N个待标注音频文件F_1,F_2,F_3...F_N,对每个待标注音频文件,切分成多个音频片段,具体方法可以是,对每个待标注音频文件F_i,计算M_i个切分点,并将F_i切分为M_i+1个音频片段,i取值为1,2,3……N,与所述待标注音频文件的数量一致,将所有待标注音频文件切分形成的音频片段乱序处理,生成乱序处理后的音频片段集合As;记录所有待标注音频文件的切分点位置,以及所述切分点位置与所述切分位置对应的所述音频片段 ...
【技术保护点】
1.一种隐私安全的音频标注处理方法,其特征在于,包括切分步骤StepS、处理步骤StepP和合成步骤StepC, 其中切分步骤StepS具体包括:/n获取N个待标注音频文,/n对每个待标注音频文件,切分成多个音频片段,/n将所有待标注音频文件切分形成的音频片段乱序处理,生成乱序处理后的音频片段集合As;/n记录所有待标注音频文件的切分点位置,以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系,形成切分记录Rs;/n其中处理步骤StepP具体包括:/n获取乱序处理后的音频片段集合As,/n对乱序后的音频片段进行标注处理,形成标注记录Ls;/n其中合成步骤StepC具体包括:/n获取标注记录Ls,/n获取切分记录Rs,/n利用Rs将Ls中的标注内容重组排列,使得重组后的标注内容的顺序与所述待标注音频文件的内容一致,形成重组标注记录RLs;/n在以上步骤中,所述切分记录Rs对所述处理步骤StepP隔离。/n
【技术特征摘要】
1.一种隐私安全的音频标注处理方法,其特征在于,包括切分步骤StepS、处理步骤StepP和合成步骤StepC,其中切分步骤StepS具体包括:
获取N个待标注音频文,
对每个待标注音频文件,切分成多个音频片段,
将所有待标注音频文件切分形成的音频片段乱序处理,生成乱序处理后的音频片段集合As;
记录所有待标注音频文件的切分点位置,以及所述切分点位置与所述切分位置对应的所述音频片段集合As中的元素的对应关系,形成切分记录Rs;
其中处理步骤StepP具体包括:
获取乱序处理后的音频片段集合As,
对乱序后的音频片段进行标注处理,形成标注记录Ls;
其中合成步骤StepC具体包括:
获取标注记录Ls,
获取切分记录Rs,
利用Rs将Ls中的标注内容重组排列,使得重组后的标注内容的顺序与所述待标注音频文件的内容一致,形成重组标注记录RLs;
在以上步骤中,所述切分记录Rs对所述处理步骤StepP隔离。
2.如权利要求1所述一种隐私安全的音频标注处理方法,其特征在于,所述乱序处理后的音频片段集合As中,每两个相邻的音频片段以大于或等于P1的概率不属于同一个待标注音频文件,以以大于或等于P2的概率不是同一个待标注音频文件的相邻两个切分。
3.如权利要求2所述一种隐私安全的音频标注处理方法,其特征在于,所述切分步骤还包括如下步骤:
将音频片段集合As的音频文件随机重命名,记录重命名后的文件和原文件的对应关系,
将音频片段集合As的音频文件以文件名字母顺序排序,
执行校验重排操作:
获取两个相邻的音频片段属于同一个待标注音频文件的音频片段集合S1,获取两个相邻的音频片段是同一个待标注音频文件的相邻两个切分的音频片段集合2,如果N(S1)/N(As)>1-P1,则将属于S1的音频片段文件再次随机重命名,如果N(S2...
【专利技术属性】
技术研发人员:关胤,徐戈,
申请(专利权)人:福州市长乐区极微信息科技有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。