语音标注系统、方法、终端及存储介质技术方案

技术编号:33707906 阅读:31 留言:0更新日期:2022-06-06 08:34
本发明专利技术提供语音标注系统、方法、终端及存储介质,优化平台标注流程,解耦数据采集、数据标注及方案设计这三个阶段,让各个阶段变成可独立运转的系统模块,不再相互等待,模块之间通过语音数据作为联系的载体,从而实现研发人员可随时从语音库中获取最新、分类最全面、最贴近业务场景的标注语音数据;可依托庞大的用户基数,在脱敏、数据安全治理和用户许可下,定时自动获取用户线上语音数据作为数据采集源,由此可获得更为庞大、复杂度更高、更贴合业务场景的标注数据,能够训练出效果更好的模型;引入人工标注+自研AI算法辅助标注并存的模式,能够切实有效地提高标注效率和质量,降低标注成本。标注成本。标注成本。

【技术实现步骤摘要】
语音标注系统、方法、终端及存储介质


[0001]本专利技术涉及计算机应用
,尤其涉及语音标注系统、方法、终端及存储介质。

技术介绍

[0002]人工智能是机器产生的智能,在计算机领域是指根据对环境的感知,做出合理的行动并获得最大收益的计算机程序。要想实现人工智能,就需要把人类理解和判断事物的能力教给计算机,让其拥有类似人类的识别能力。数据标注可视为模仿人类学习过程中的经验学习,相当于人类从书本中获取已知知识的认知行为。数据标注为人工智能企业提供了大量带标签的数据,供机器训练和学习,从而保证算法模型的有效性。
[0003]目前常用的模型训练上线流程如图1所示:先沟通需求,再获取样本,对样本进行标注,基于标注过的样本进行模型训练,再调整样本,训练模型至准确率达标,交付应用且交互研发,最后将模型上线使用。
[0004]其中的样本标注即数据标注,是对未处理的初级数据进行加工处理,并转换为机器可识别信息的过程;原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里进行调用。数据标注产业主要是本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音标注系统,其特征在于,包括:数据安全模块,用于执行系统中各模块的数据安全处理;数据搜集模块,用于采集原始语音数据,并对所述原始语音数据进行预处理得到预处理语音数据;标注实施模块,用于经所述数据安全模块获取所述预处理语音数据,并对其进行标注后生成语音标注数据;方案设计模块,用于响应于用户操作,经所述数据安全模块获取所需的语音标注数据以作为模型训练数据。2.如权利要求1所述的语音标注系统,其特征在于,所述数据安全模块执行系统中各模块的数据安全处理包括:对所述数据搜集模块、标注实施模块、方案设计模块进行数据治理、数据分隔和数据安全传输。3.如权利要求1所述的语音标注系统,其特征在于,所述数据搜集模块对所述原始语音数据进行预处理,包括:进行数据采集预处理,包括:自动采集线上用户语音数据,和/或由人工提交线下用户语音数据;进行数据转换预处理,包括:对采集到的原始语音数据进行文件格式转换和数据内容整理,以及制作语音属性信息集合并创建唯一语音ID,以根据所述唯一语音ID将原始语音数据与语音属性信息相关联;进行数据加载,包括:将原始语音数据与语音属性信息经安全处理后保存至存储介质中;其中,所述原始语音数据保存至OSS对象存储服务中,所述语音属性信息存储至数据库中。4.如权利要求1所述的语音标注系统,其特征在于,所述标注实施模块包括:AI辅助子模块、标注服务子模块、质检服务子模块;所述AI辅助子模块又包括辅助标注模块和辅助质检模块;其中:所述AI辅助子模块用于从存储介质中获取原始语音数据,并通过所述辅助标注模块对所述原始语音数据进行语音识别和预标注处理生成语音预标注数据;所述标注服务子模块用于从所述AI辅助子模块获取所述语音预标注数据,对其进行人工核对标注得到人工更正数据,并将所述人工更正数据保存至所述存储介质中;所述AI辅助子模块从所述存储介质中获取纯人...

【专利技术属性】
技术研发人员:杨磊陈震段志峰张庆刘国平
申请(专利权)人:上海钧正网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1