基于人工智能的语料收集方法、装置、设备及存储介质制造方法及图纸

技术编号：21605727 阅读：39 留言：0更新日期：2019-07-13 18:17

本申请属于自然语言处理技术领域，涉及基于人工智能的语料收集方法、装置、设备及存储介质。该方法包括获取用户输入的配置项信息，所述配置项信息包括目标视频关键字和视频网站；从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据，所述视频数据包括视频文件和SRT字幕文件；从视频文件中分离出音频文件，并将SRT字幕文件解析出来的字幕文本内容拆分成字幕块；根据每个字幕块的分段时间切分音频文件，获得分段音频；建立分段音频和字幕块之间的关联；对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。该方法能够实现自动快速收集到符合某一类场景需要的语料的目的，效率高而且成本低。

Corpus Collection Method, Device, Equipment and Storage Media Based on Artificial Intelligence

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的语料收集方法、装置、设备及存储介质
本申请属于自然语言处理
，涉及基于人工智能的语料收集方法、装置、设备及存储介质。
技术介绍
人工智能(ArtificialIntelligence，AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。现实中，基于AI的自然语言处理过程中往往需要预先收集符合各类场景的语料，比如说在客服投诉自动处理平台应用中:需要关于表现“投诉”“不满”以及时间紧急程度的语料，以便于根据紧急、严重程度可以灵活调整工单接入的优先级以及处理对接人，以帮助快速处理投诉解决问题；又比如说，在幼儿早教以及幼儿趣味对话软件应用中，需要基于幼儿的声音而且情绪比较欢快活泼的语料。现有收集某一场景的语料方式主要有：(1)通过免费的资源搜索获得某一场景的语料，这种方式获取到的语料非常有限，难以满足需求；(2)通过团队自己录音并进行标注而获得某一场景的语料,这种办法效率低，极其耗费人力；(3)通过渠道购买某一场景的语料，这种方式成本较高。因此，现有语料收集的方法效率低而且成本很高，怎样快速收集到符合某一类场景需要的语料也成为迫切需要解决的问题。
技术实现思路
本申请实施例公开了一种能够快速收集到符合某一种场景的语料的基于人工智能的语料收集方法、装置、设备及存储介质。本申请的一些实施例公开了一种基于人工智能的语料收集方法，包括...

【技术保护点】
1.一种基于人工智能的语料收集方法，其特征在于，包括：获取用户输入的配置项信息，所述配置项信息包括目标视频关键字和视频网站，所述视频网站为视频网站的网址或视频网站的名称；从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据，所述视频数据包括视频文件和SRT字幕文件；从所述视频文件中分离出音频文件，并将所述SRT字幕文件解析出来的字幕文本内容拆分成字幕块；根据每个所述字幕块的分段时间切分所述音频文件，获得分段音频；建立所述分段音频和所述字幕块之间的关联；对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。

【技术特征摘要】
1.一种基于人工智能的语料收集方法，其特征在于，包括：获取用户输入的配置项信息，所述配置项信息包括目标视频关键字和视频网站，所述视频网站为视频网站的网址或视频网站的名称；从所述视频网站下载通过检索所述目标视频关键字得到的目标视频的视频数据，所述视频数据包括视频文件和SRT字幕文件；从所述视频文件中分离出音频文件，并将所述SRT字幕文件解析出来的字幕文本内容拆分成字幕块；根据每个所述字幕块的分段时间切分所述音频文件，获得分段音频；建立所述分段音频和所述字幕块之间的关联；对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料。2.根据权利要求1所述的基于人工智能的语料收集方法，其特征在于，所述对关联后的分段音频和字幕块按照预设筛选关键词进行分类筛选后一起存储为目标语料的步骤具体包括：分析每个字幕块是否包含有与预设筛选关键词相匹配的文本；将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置。3.根据权利要求2所述的基于人工智能的语料收集方法，其特征在于，所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后，还包括：判断存储在第一位置的各分段音频的每一个语音状态参数是否在预设的标准区间；挑选出所有的语音状态参数均在预设标准区间的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第二位置。4.根据权利要求3所述的基于人工智能的语料收集方法，其特征在于，所述预设标准区间的设置方法，具体包括：获取标记有目标情绪类别的语料样本进行统计分析，得到目标情绪类别下每一个语音状态参数所占的概率均大于预设值的语音状态参数的范围；从所述范围内提取一个包含于所述参考范围内的区间作为预设标准区间。5.根据权利要求2所述的基于人工智能的语料收集方法，其特征在于，所述将包含有相匹配的文本的字幕块连同与所述字幕块相关联的分段音频一起存储到指定的第一位置的步骤之后还包括：计算出存储在所述第一位置的各分段音频的每一个语音状态参数的分值；将同一分段音频中所有的语音状态参数的分值进行求和运算，确认总分值是否达到预设的阈值；将总分值达到预设阈值的分段音频连同与所述分段音频相关联的字幕块一起存储到指定的第三位置。6.根据权...

【专利技术属性】
技术研发人员：杨雨晨，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人