The invention discloses a method, a device and a terminal tagging corpus, the corpus annotation method comprises: acquiring and displaying the corpus list, the corpus contains audio and text list list list, the list of audio in each cell corresponds to a text column a cell in a table; after receiving instructions for the target audio list to play audio playback command, audio playback target; receiving text content from a plurality of preset target audio content corresponding to the selected text, as the text list of target audio text content should be marked on the cell. The present invention, users only need to trigger audio and text corpus in the corresponding list, terminal audio text content and receive user annotation, corpus annotation can be completed, no need to spend time, audio data and audio name, reduces the corpus time cost, improve work efficiency.
【技术实现步骤摘要】
一种语料标注方法和装置及终端
本专利技术涉及语音识别
,具体涉及一种语料标注方法和装置及终端。
技术介绍
语音识别技术有两个关键资源,语音模型和声学模型,其中声学模型需要人工来标注语料内容,将标注后的语料内容作为训练集进行训练。为了提高识别率,可以根据语料内容进行分类,如:性别、年龄、噪声类型等,整理之后进行有针对性的训练,实现提高识别率的目的。现有的语料标注方式多为本地标注,将语料发放给工作人员,工作人员新建文件用来记载音频名称及其对应的音频内容文本。在标注的过程中,需要采用音频播放器逐个播放语料音频文件,然后工作人员找出播放的音频对应的音频名称,再标注音频名称对应的文本内容。这种语料标注方式,时间成本高,工作人员需要花费大部分时间进行音频语料与音频名称的匹配工作。本地保存不便于管理,多文件操作也降低了工作效率。
技术实现思路
有鉴于此,本专利技术实施例提供了一种语料标注方法和装置及终端,以解决现有技术语料标注的时间成本高、工作效率低的问题。根据第一方面,本专利技术实施例提供了一种语料标注方法,适用于带有显示屏的终端,该语料标注方法包括:获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表中的一个单元格;在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频;接收从多个预设文本内容中选中的所述目标音频对应的文本内容,作为所述文本列表中所述目标音频对应的单元格上标注的文本内容。可选地,还包括:在接收到文件导出命令时,获取标注有文本内容的批量语料列表对应的文件;导出 ...
【技术保护点】
一种语料标注方法,其特征在于,包括:获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表中的一个单元格;在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频;接收从多个预设文本内容中选中的所述目标音频对应的文本内容,作为所述文本列表中所述目标音频对应的单元格上标注的文本内容。
【技术特征摘要】
1.一种语料标注方法,其特征在于,包括:获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表中的一个单元格;在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频;接收从多个预设文本内容中选中的所述目标音频对应的文本内容,作为所述文本列表中所述目标音频对应的单元格上标注的文本内容。2.根据权利要求1所述的语料标注方法,其特征在于,还包括:在接收到文件导出命令时,获取标注有文本内容的批量语料列表对应的文件;导出所述标注有文本内容的批量语料列表对应的文件,其中,所述文件导出命令用于指示批量导出所述标注有文本内容的批量语料列表对应的文件。3.根据权利要求1所述的语料标注方法,其特征在于,所述在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频,包括:判断是否存在选中所述音频列表或者文本列表中单元格的操作;当存在所述选中所述音频列表或者文本列表中单元格的操作时,查找所述音频列表或者文本列表中被选中的单元格;播放所述被选中的单元格对应的音频。4.根据权利要求1所述的语料标注方法,其特征在于,接收从多个预设文本内容中选中的所述目标音频对应的文本内容,包括:接收用于打开在所述文本列表中所述目标音频对应的单元格的下拉列表的命令,获取所述下拉列表中的所述多个预设文本内容,所述文本列表中的每一单元格对应一个下拉列表;接收通过鼠标输入的用于从所述多个预设文本内容中选择文本的选中命令,将所述选中命令所指示的文本内容标注在所述目标音频对应的单元格上;或者,接收用于打开在所述文本列表中所述目标音频对应的单元格的下拉列表的命令,获取所述下拉列表中的所述多个预设文本内容,所述文本列表中的每一单元格对应一个下拉列表;接收通过键盘输入的用于从所述多个预设文本内容中选择文本的选中命令,确定所述选中命令所对应的文本内容,标注在所述目标音频对应的单元格上。5.根据权利要求1所述的语料标注方法,其特征在于,在接收从多个预设文本内容中选中的所述目标音频对应的文本内容之后,还包括:判断是否存在选中所述文本列表中另一单元格的操作;当存在所述选中所述文本列表中另一单元格的操作时,保存所述文本列表中前一单元格上标注的文本内容。6.一种语料标注装置,其特征在于,包括:第一获取单元,用于获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表...
【专利技术属性】
技术研发人员:焦玉娜,
申请(专利权)人:乐视控股北京有限公司,乐视致新电子科技天津有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。