一种语料标注方法和装置及终端制造方法及图纸

技术编号:15507851 阅读:46 留言:0更新日期:2017-06-04 02:22
本发明专利技术公开了一种语料标注方法、装置和终端,其中,语料标注方法包括:获取并显示批量语料列表,其中,批量语料列表包含音频列表和文本列表,其中,音频列表中的每一单元格对应文本列表中的一个单元格;在接收到用于指示音频列表中目标音频进行播放的音频播放命令时,播放目标音频;接收从多个预设文本内容中选中的目标音频对应的文本内容,作为文本列表中目标音频对应的单元格上标注的文本内容。本发明专利技术,用户只需要在批量语料列表上触发音频播放并且标注相应的文本内容,终端进行音频播放并且接收用户标注的文本内容,即可完成语料的标注,无需花费时间进行音频语料与音频名称的匹配,降低了语料标注的时间成本,提高了工作效率。

Method, device and terminal for marking corpus

The invention discloses a method, a device and a terminal tagging corpus, the corpus annotation method comprises: acquiring and displaying the corpus list, the corpus contains audio and text list list list, the list of audio in each cell corresponds to a text column a cell in a table; after receiving instructions for the target audio list to play audio playback command, audio playback target; receiving text content from a plurality of preset target audio content corresponding to the selected text, as the text list of target audio text content should be marked on the cell. The present invention, users only need to trigger audio and text corpus in the corresponding list, terminal audio text content and receive user annotation, corpus annotation can be completed, no need to spend time, audio data and audio name, reduces the corpus time cost, improve work efficiency.

【技术实现步骤摘要】
一种语料标注方法和装置及终端
本专利技术涉及语音识别
,具体涉及一种语料标注方法和装置及终端。
技术介绍
语音识别技术有两个关键资源,语音模型和声学模型,其中声学模型需要人工来标注语料内容,将标注后的语料内容作为训练集进行训练。为了提高识别率,可以根据语料内容进行分类,如:性别、年龄、噪声类型等,整理之后进行有针对性的训练,实现提高识别率的目的。现有的语料标注方式多为本地标注,将语料发放给工作人员,工作人员新建文件用来记载音频名称及其对应的音频内容文本。在标注的过程中,需要采用音频播放器逐个播放语料音频文件,然后工作人员找出播放的音频对应的音频名称,再标注音频名称对应的文本内容。这种语料标注方式,时间成本高,工作人员需要花费大部分时间进行音频语料与音频名称的匹配工作。本地保存不便于管理,多文件操作也降低了工作效率。
技术实现思路
有鉴于此,本专利技术实施例提供了一种语料标注方法和装置及终端,以解决现有技术语料标注的时间成本高、工作效率低的问题。根据第一方面,本专利技术实施例提供了一种语料标注方法,适用于带有显示屏的终端,该语料标注方法包括:获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表中的一个单元格;在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频;接收从多个预设文本内容中选中的所述目标音频对应的文本内容,作为所述文本列表中所述目标音频对应的单元格上标注的文本内容。可选地,还包括:在接收到文件导出命令时,获取标注有文本内容的批量语料列表对应的文件;导出所述标注有文本内容的批量语料列表对应的文件,其中,所述文件导出命令用于指示批量导出所述标注有文本内容的批量语料列表对应的文件。可选地,所述在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频,包括:判断是否存在选中所述音频列表或者文本列表中单元格的操作;当存在所述选中所述音频列表或者文本列表中单元格的操作时,查找所述音频列表或者文本列表中被选中的单元格;播放所述被选中的单元格对应的音频。可选地,接收从多个预设文本内容中选中的所述目标音频对应的文本内容,包括:接收用于打开在所述文本列表中所述目标音频对应的单元格的下拉列表的命令,获取所述下拉列表中的所述多个预设文本内容,所述文本列表中的每一单元格对应一个下拉列表;接收通过鼠标输入的用于从所述多个预设文本内容中选择文本的选中命令,将所述选中命令所指示的文本内容标注在所述目标音频对应的单元格上;或者,接收用于打开在所述文本列表中所述目标音频对应的单元格的下拉列表的命令,获取所述下拉列表中的所述多个预设文本内容,所述文本列表中的每一单元格对应一个下拉列表;接收通过键盘输入的用于从所述多个预设文本内容中选择文本的选中命令,确定所述选中命令所对应的文本内容,标注在所述目标音频对应的单元格上。可选地,在接收从多个预设文本内容中选中的所述目标音频对应的文本内容之后,还包括:判断是否存在选中所述文本列表中另一单元格的操作;当存在所述选中所述文本列表中另一单元格的操作时,保存所述文本列表中前一单元格上标注的文本内容。根据第二方面,本专利技术实施例提供了一种语料标注装置,适用于带有显示屏的终端,该语料标注装置包括:第一获取单元,用于获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表中的一个单元格;播放单元,用于在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频;接收单元,用于接收从多个预设文本内容中选中的所述目标音频对应的文本内容,作为所述文本列表中所述目标音频对应的单元格上标注的文本内容。可选地,还包括:第二获取单元,用于在接收到文件导出命令时,获取标注有文本内容的批量语料列表对应的文件;导出单元,用于导出所述标注有文本内容的批量语料列表对应的文件,其中,所述文件导出命令用于指示批量导出所述标注有文本内容的批量语料列表对应的文件。可选地,所述播放单元包括:判断模块,用于判断是否存在选中所述音频列表或者文本列表中单元格的操作;查找模块,用于当存在所述选中所述音频列表或者文本列表中单元格的操作时,查找所述音频列表或者文本列表中被选中的单元格;播放模块,用于播放所述被选中的单元格对应的音频。可选地,所述接收单元包括:第一接收模块,用于接收用于打开在所述文本列表中所述目标音频对应的单元格的下拉列表的命令,获取所述下拉列表中的所述多个预设文本内容,所述文本列表中的每一单元格对应一个下拉列表;第二接收模块,用于接收通过鼠标输入的用于从所述多个预设文本内容中选择文本的选中命令,将所述选中命令所指示的文本内容标注在所述目标音频对应的单元格上;或者,第三接收模块,用于接收用于打开在所述文本列表中所述目标音频对应的单元格的下拉列表的命令,获取所述下拉列表中的所述多个预设文本内容,所述文本列表中的每一单元格对应一个下拉列表;第四接收模块,用于接收通过键盘输入的用于从所述多个预设文本内容中选择文本的选中命令,确定所述选中命令所对应的文本内容,标注在所述目标音频对应的单元格上。可选地,还包括:判断单元,用于在接收从多个预设文本内容中选中的所述目标音频对应的文本内容之后,判断是否存在选中所述文本列表中另一单元格的操作;保存单元,用于当存在所述选中所述文本列表中另一单元格的操作时,保存所述文本列表中前一单元格上标注的文本内容。根据第三方面,本专利技术实施例提供了一种/终端,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行第一方面或者第一方面的任意一种可选方式中所述的语料标注方法。根据第四方面,本专利技术实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种可选方式中所述的语料标注方法。根据第五方面,本专利技术实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行第一方面或者第一方面的任意一种可选方式中所述的语料标注方法。根据本专利技术实施例,通过采用批量语料列表,预先将音频文件与其对应的待输入内容的文本列表对应,这样,用户只需要在批量语料列表上触发音频播放并且标注相应的文本内容,终端进行音频播放并且接收用户标注的文本内容,即可完成语料的标注,无需花费时间进行音频语料与音频名称的匹配,降低了语料标注的时间成本,提高了工作效率。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。,在附图中:图1示出了根据本专利技术实施例的语料标注方法的流程图;图2示出了本专利技术实施例的一种批量语料列表的示意图;图3示出了本专利技术实施例的另一种批量语料列表的示意图;图4示出了根据本专利技术另一实施本文档来自技高网...
一种语料标注方法和装置及终端

【技术保护点】
一种语料标注方法,其特征在于,包括:获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表中的一个单元格;在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频;接收从多个预设文本内容中选中的所述目标音频对应的文本内容,作为所述文本列表中所述目标音频对应的单元格上标注的文本内容。

【技术特征摘要】
1.一种语料标注方法,其特征在于,包括:获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表中的一个单元格;在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频;接收从多个预设文本内容中选中的所述目标音频对应的文本内容,作为所述文本列表中所述目标音频对应的单元格上标注的文本内容。2.根据权利要求1所述的语料标注方法,其特征在于,还包括:在接收到文件导出命令时,获取标注有文本内容的批量语料列表对应的文件;导出所述标注有文本内容的批量语料列表对应的文件,其中,所述文件导出命令用于指示批量导出所述标注有文本内容的批量语料列表对应的文件。3.根据权利要求1所述的语料标注方法,其特征在于,所述在接收到用于指示所述音频列表中目标音频进行播放的音频播放命令时,播放所述目标音频,包括:判断是否存在选中所述音频列表或者文本列表中单元格的操作;当存在所述选中所述音频列表或者文本列表中单元格的操作时,查找所述音频列表或者文本列表中被选中的单元格;播放所述被选中的单元格对应的音频。4.根据权利要求1所述的语料标注方法,其特征在于,接收从多个预设文本内容中选中的所述目标音频对应的文本内容,包括:接收用于打开在所述文本列表中所述目标音频对应的单元格的下拉列表的命令,获取所述下拉列表中的所述多个预设文本内容,所述文本列表中的每一单元格对应一个下拉列表;接收通过鼠标输入的用于从所述多个预设文本内容中选择文本的选中命令,将所述选中命令所指示的文本内容标注在所述目标音频对应的单元格上;或者,接收用于打开在所述文本列表中所述目标音频对应的单元格的下拉列表的命令,获取所述下拉列表中的所述多个预设文本内容,所述文本列表中的每一单元格对应一个下拉列表;接收通过键盘输入的用于从所述多个预设文本内容中选择文本的选中命令,确定所述选中命令所对应的文本内容,标注在所述目标音频对应的单元格上。5.根据权利要求1所述的语料标注方法,其特征在于,在接收从多个预设文本内容中选中的所述目标音频对应的文本内容之后,还包括:判断是否存在选中所述文本列表中另一单元格的操作;当存在所述选中所述文本列表中另一单元格的操作时,保存所述文本列表中前一单元格上标注的文本内容。6.一种语料标注装置,其特征在于,包括:第一获取单元,用于获取并显示批量语料列表,其中,所述批量语料列表包含音频列表和文本列表,其中,所述音频列表中的每一单元格对应所述文本列表...

【专利技术属性】
技术研发人员:焦玉娜
申请(专利权)人:乐视控股北京有限公司乐视致新电子科技天津有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1