基于人工智能的语料收集方法、装置、设备及存储介质制造方法及图纸

技术编号:21605727 阅读:39 留言:0更新日期:2019-07-13 18:17
本申请属于自然语言处理技术领域,涉及基于人工智能的语料收集方法、装置、设备及存储介质。该方法包括获取用户输入的配置项信息,所述配置项信息包括目标视频关键字和视频网站;从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据,所述视频数据包括视频文件和SRT字幕文件;从视频文件中分离出音频文件,并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块;根据每个字幕块的分段时间切分音频文件,获得分段音频;建立分段音频和字幕块之间的关联;对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。该方法能够实现自动快速收集到符合某一类场景需要的语料的目的,效率高而且成本低。

Corpus Collection Method, Device, Equipment and Storage Media Based on Artificial Intelligence

【技术实现步骤摘要】
基于人工智能的语料收集方法、装置、设备及存储介质
本申请属于自然语言处理
,涉及基于人工智能的语料收集方法、装置、设备及存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。现实中,基于AI的自然语言处理过程中往往需要预先收集符合各类场景的语料,比如说在客服投诉自动处理平台应用中:需要关于表现“投诉”“不满”以及时间紧急程度的语料,以便于根据紧急、严重程度可以灵活调整工单接入的优先级以及处理对接人,以帮助快速处理投诉解决问题;又比如说,在幼儿早教以及幼儿趣味对话软件应用中,需要基于幼儿的声音而且情绪比较欢快活泼的语料。现有收集某一场景的语料方式主要有:(1)通过免费的资源搜索获得某一场景的语料,这种方式获取到的语料非常有限,难以满足需求;(2)通过团队自己录音并进行标注而获得某一场景的语料,这种办法效率低,极其耗费人力;(3)通过渠道购买某一场景的语料,这种方式成本较高。因此,现有语料收集的方法效率低而且成本很高,怎样快速收集到符合某一类场景需要的语料也成为迫切需要解决的问题。
技术实现思路
本申请实施例公开了一种能够快速收集到符合某一种场景的语料的基于人工智能的语料收集方法、装置、设备及存储介质。本申请的一些实施例公开了一种基于人工智能的语料收集方法,包括:获取用户输入的配置项信息,所述配置项信息包括目标视频关键字和视频网站,所述视频网站为视频网站的网址或视频网站的名称;从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据,所述视频数据包括视频文件和SRT字幕文件;从视频文件中分离出音频文件,并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块;根据每个字幕块的分段时间切分音频文件,获得分段音频;建立分段音频和字幕块之间的关联;对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。可选的,所述对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料的步骤具体包括:分析每个字幕块是否包含有与预设筛选关键词相匹配的文本;将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置。进一步的,所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后,还包括:判断存储在第一位置的各分段音频的每一个语音状态参数是否在预设的标准区间;挑选出所有的语音状态参数均在预设的标准区间的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第二位置。进一步的,所述预设标准区间的设置方法,具体包括:获取标记有目标情绪类别的语料样本进行统计分析,得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围;从所述范围内提取一个包含于所述参考范围内的区间作为预设标准区间。可选的,所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后还包括:计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值;将同一分段音频中所有的语音状态参数的分值进行求和运算,确认总分值是否达到预设的阈值;将总分值达到预设阈值的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第三位置。进一步的,所述计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值的步骤具体包括:获取标记有目标情绪类别的语料样本进行统计分析,得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围;在所述范围内挑选一个数值作为预设的语音状态参数标准值;测试所述存储在第一位置的各分段音频的每一个语音状态参数值;基于预设的语音状态参数标准值、测试的语音状态参数值以及接收到的权重值,按以下公式计算每一个语音状态参数的分值:Mi=100*Si*(Xi/Wi);其中,Mi为每一个语音状态参数的分值,Si为每一个语音状态参数的权重值,Xi为测试的语音状态参数值,Wi为预设的语音状态参数标准值,i代表语音状态参数。可选的,所述将SRT字幕文件解析出来的字幕文本内容拆分成字幕块的步骤具体包括:解析SRT字幕文件得到字幕文本内容;结合播放时间和断句符对字幕文本内容进行分块,得到字幕块。本申请的一些实施例还公开了一种基于人工智能的语料收集装置,包括:配置项信息获取模块,用于获取用户输入的配置项信息,所述配置项信息包括目标视频关键字和视频网站,所述视频网站为视频网站的网址或视频网站的名称;视频数据下载模块,用于从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据,所述视频数据包括视频文件和SRT字幕文件;音频字幕处理模块,用于从视频文件中分离出音频文件,并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块;音频切分模块,用于根据每个字幕块的分段时间切分音频文件,获得分段音频;音频字幕块关联模块,用于建立分段音频和字幕块之间的关联;筛选模块,用于对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。本申请的一些实施例还公开了一种计算机设备,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如前所述基于人工智能的语料收集方法的步骤。本申请的一些实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述基于人工智能的语料收集方法的步骤。与现有技术相比,本申请公开的技术方案主要有以下有益效果:获取用户输入的配置项信息,从所述视频网址或者视频网站下载目标视频的视频数据;然后处理所述视频数据,从视频文件中分离出音频文件,并将SRT字幕文件解析出来的字幕文本内容切分成字幕块;根据每个分段字幕的分段时间切分音频;将分段音频和字幕块的关联;对关联后的分段音频和字幕块进行分类筛选后一起存储为目标语料,实现了快速自动收集到符合某一类场景例如符合预设筛选关键词的需要的语料的目的,效率高而且成本低。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1为本申请实施例提供的基于人工智能的语料收集方法的流程图;图2为图1中步骤S106的第二种具体实施方式的流程图;图3为图1中步骤S106的第三种具体实施方式的流程图;图4为图3中步骤S405的一种具体实施方式的流程示意图;图5为本申请实施例提供的基于人工智能的语料收集装置的示意图;图6为图5中的音频字幕处理模块的示意图;图7为图5中的筛选模块的第二实施例的结构示意图;图8为图5中的筛选模块的第三实施例的结构示意图;图9为图8中的语音状态参数分值计算模块的结构示意图;图10本申请实施例中计算机设备100基本结构框图。具体实施方式为了便于理解本申请本文档来自技高网...

【技术保护点】
1.一种基于人工智能的语料收集方法,其特征在于,包括:获取用户输入的配置项信息,所述配置项信息包括目标视频关键字和视频网站,所述视频网站为视频网站的网址或视频网站的名称;从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据,所述视频数据包括视频文件和SRT字幕文件;从所述视频文件中分离出音频文件,并将所述SRT字幕文件解析出来的字幕文本内容拆分成字幕块;根据每个所述字幕块的分段时间切分所述音频文件,获得分段音频;建立所述分段音频和所述字幕块之间的关联;对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。

【技术特征摘要】
1.一种基于人工智能的语料收集方法,其特征在于,包括:获取用户输入的配置项信息,所述配置项信息包括目标视频关键字和视频网站,所述视频网站为视频网站的网址或视频网站的名称;从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据,所述视频数据包括视频文件和SRT字幕文件;从所述视频文件中分离出音频文件,并将所述SRT字幕文件解析出来的字幕文本内容拆分成字幕块;根据每个所述字幕块的分段时间切分所述音频文件,获得分段音频;建立所述分段音频和所述字幕块之间的关联;对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。2.根据权利要求1所述的基于人工智能的语料收集方法,其特征在于,所述对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料的步骤具体包括:分析每个字幕块是否包含有与预设筛选关键词相匹配的文本;将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置。3.根据权利要求2所述的基于人工智能的语料收集方法,其特征在于,所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后,还包括:判断存储在第一位置的各分段音频的每一个语音状态参数是否在预设的标准区间;挑选出所有的语音状态参数均在预设标准区间的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第二位置。4.根据权利要求3所述的基于人工智能的语料收集方法,其特征在于,所述预设标准区间的设置方法,具体包括:获取标记有目标情绪类别的语料样本进行统计分析,得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围;从所述范围内提取一个包含于所述参考范围内的区间作为预设标准区间。5.根据权利要求2所述的基于人工智能的语料收集方法,其特征在于,所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后还包括:计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值;将同一分段音频中所有的语音状态参数的分值进行求和运算,确认总分值是否达到预设的阈值;将总分值达到预设阈值的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第三位置。6.根据权...

【专利技术属性】
技术研发人员:杨雨晨
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1